AC Data Analytics
Motivation
Die Gewinnung von Wissen aus Rohdaten ist ein entscheidender Faktor für erfolgreiche Anwendungsprojekte. Daten können dabei in Form von Sensordaten, Nutzerpräferenzen, Texten oder industriellen Log-Daten vorliegen. Die Extraktion von Mustern, die Gewinnung von Wissen aus den Daten sowie die Verknüpfung mit bestehenden Informationen schafft die Grundlage für effiziente Algorithmen und das automatische Lernen von optimalen Lösungsstrategien. Herausforderungen sind dabei die Größe der Daten (“big data”) sowie die Heterogenität Daten, die eine geeignet Kombination vielfältiger Algorithmen des Maschinellen Lernens und der Optimierung von Parametern erfordern.
Goals
Die Arbeit im Rahmen dieses Anwendungszentrums dient dazu, neue und effiziente Methoden zu entwickeln, um Prozess des Maschinellen Lernens zu automatisieren sowie die die Informationsversorgung eines Nutzers vereinfachen. Das AC Data Analytics entwickelt dabei neue Methoden zur Extraktion von Wissen aus großen Datensätzen unter Nutzung vielfältiger Methoden des Maschinellen Lernens, der Hyperparameter Optimierung sowie Verfahren des Natural Language Proccessing und des semantischen Wissensmanagements.
Die Verfahren werden in praxisnahen Anwendungsprojekten sowie Benchmark-Datensätzen evaluiert.
Technology
Das AC Data Analytics deckt den gesamten Bereich der Datenanalyse ab. Es wird sowohl die Theorie der Datenanalyse als auch Frameworks zur praktischen Untersuchung von Daten entwickelt. Dabei werden Frameworks und Pipelines entwickelt, die bestehende Komponenten integrieren sowie neue Funktionen und Algorithmen entwickelt. Die Verfahren werden in praxisnahen Anwendungsprojekten sowie Benchmark-Datensätzen evaluiert. Zum Testen und für die Optimierung der entwickelten Lösungen wird High Performance Computing Testbed eingesetzt.
Themenfelder
Natural Language Processing und Text-Mining
In Unternehmen und in Sozialen Medien (wie Foren) entsteht eine große Menge von Texten. Diese Texte enthalten oft umfangreiches Wissen was für Unternehmen sowie die Kommunikation mit Kunden von großer Bedeutung für den Erfolg von Projekten ist. Die Vielfältigkeit der Texte erschwert die automatische Analyse der Texte und die Extraktion von Wissen. Herausforderung sind: Umgang mit Umgangssprachen, Fremdsprachigen Formulierungen, grammatischen Fehlern sowie Synonyme und Homonyme
Im Anwendungszentrum Data Analytics werden Verfahren entwickelt und in praktische Anwendungen integriert, mit den unstrukturierte Texte in Wissensgraphen (Knowledge Graphs) überführt werden können. Ein Knowledge Graph beschreibt die Entitäten einer Domäne und wie sie in Relation stehen. Das Erstellen eines Knowledge Graph ist allerdings je nach Domäne sehr aufwändig. Deswegen wird Verfahren entwickelt, um diesen Prozess weitgehend zu Automatisieren.
Empfehlungssysteme
Empfehlungssysteme kombinieren vielfältige Verfahren, um die Vorlieben und Interessen des Benutzers zu ermitteln und darauf aufbauend Vorschläge zu generieren. Für das Ableiten von Empfehlungen analysiert ein Empfehlungssystem verschiedene Daten, wie z. B. das Verhalten des Benutzers in der Vergangenheit, die Interessen von ähnlichen Benutzern und Freunden, die Gemeinsamkeiten von zu empfehlenden Objekten sowie den Kontext der Empfehlung. Die Informationen werden verknüpft, um Objekte (z.B. Filme, Bücher) zu bestimmen, die für den Benutzer von Interesse sind.
Maschinelles Lernen
Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz um Muster und Gesetzmäßigkeiten auf Basis großer Datenmengen und intelligenter Algorithmen zu erkennen. Unser Team beschäftigt sich hauptsächlich mit Time Series Mining, Deep Learning und Automated Machine Learning. In Automated Machine Learning untersuchen und entwickeln wir Verfahren, die automatisch geeignete Lernverfahren auswählen und deren Hyperparameter optimieren. Ziel ist es, die komplexe Anwendung von Verfahren des Maschinellen Lernens auch für Nichtexperten zu vereinfachen. Wir entwickeln Deep-Learning-Architekturen künstlicher neuronaler Netze, die in der Lage sind, Repräsentationen, Konzepte und Abstraktionen aus komplexen Daten zu lernen, die auf industrielle Anwendungsprobleme im Kontext großer Datenmengen angewendet werden. Dabei verwenden wir klassische Multi-Layer Perceptrons, Convolutional Networks, LSTM, Autoencoders, Boltzman Machines und Recurrent Networks als Basismodelle. In Time Series Mining versuchen wir die stark anwendungsorientierte Domäne auf eine solide theoretische Grundlage zu stellen, um aus den theoretischen Erkenntnissen leistungsstärkere Methoden für die Klassifikation und das Clustering von Zeitreihen abzuleiten.
Wissens- und Innovationsmanagement
Die Digitalisierung schafft und ermöglicht einen effizienteren Umgang mit Wissen. Bestehendes Wissen kann digitalisiert werden. Neues Wissen und Ideen können auf der Grundlage des digitalisierten Wissens geschaffen werden. Die Grundanforderungen an das Wissensmanagement bleiben jedoch unverändert. Die Notwendigkeit, zu teilen, zu innovieren, wiederzuverwenden, zusammenzuarbeiten und zu lernen, ist zeitlos. Wir erforschen und entwickeln Verfahren und Werkzeuge zur Unterstützung von Daten- und Wissensdiensten. Mit Hilfe des Maschinellen Lernens arbeiten wir an Lösungen zur intelligenten Sammlung von Wissen, der Anreicherung des Wissens mit semantischen Informationen und Meta-Daten und die Abbildung der Beziehungen zwischen dem extrahierten Wissen. Das extrahierte Wissen kann in einem weiteren Schritt validiert und miteinander in Beziehung gesetzt werden.