Sustainable Data Lakes for Extreme-Scale Analytics
Datenseen sind Ökosysteme für Rohdaten, in denen große Mengen vielfältiger Daten gespeichert und gemeinsam verwaltet werden. Sie ermöglichen Self-Service-Analysen für flexible, schnelle und ad-hoc-Entscheidungsfindung. SmartDataLake ermöglicht Analysen im extremen Maßstab über nachhaltige Big-Data-Seen. Es bietet ein adaptives, skalierbares und elastisches Datensee-Managementsystem mit folgenden Funktionen: (a) Datenvirtualisierung zur Abstraktion und Optimierung von Zugriffen und Abfragen über heterogene Daten, (b) Daten-Synopsen für näherungsweise Abfragebeantwortung und Analysen zur Ermöglichung interaktiver Antwortzeiten, und (c) automatisierte Platzierung von Daten in verschiedenen Speicherebenen basierend auf Dateneigenschaften und Zugriffsmustern zur Kostenreduzierung. Die Inhalte des Datensees werden als heterogenes Informationsnetzwerk modelliert und organisiert, das mehrere Arten von Entitäten und Beziehungen enthält. Effiziente und skalierbare Algorithmen werden bereitgestellt für: (a) Ähnlichkeitssuche und -exploration zur Entdeckung relevanter Informationen, (b) Entitätsauflösung und -ranking zur Identifizierung und Auswahl wichtiger und repräsentativer Entitäten aus verschiedenen Quellen, (c) Linkvorhersage und Clustering zur Aufdeckung verborgener Zusammenhänge und Muster zwischen Entitäten, sowie (d) Änderungserkennung und inkrementelle Aktualisierung von Analyseergebnissen für eine schnellere Analyse neuer Daten. Schließlich werden interaktive und skalierbare visuelle Analysen bereitgestellt, um den Datenwissenschaftler in den Wissensextraktionsprozess einzubeziehen und zu stärken. Dies umfasst Funktionalitäten für: (a) die visuelle Erkundung und Abstimmung des Raums von Merkmalen, Modellen und Parametern, und (b) die Ermöglichung groß angelegter Visualisierungen von räumlichen, zeitlichen und Netzwerkdaten. Die Ergebnisse des Projekts werden in realen Anwendungsfällen aus dem Bereich Business Intelligence evaluiert, darunter Szenarien für Portfolioempfehlungen, Produktionsplanung und -preisgestaltung sowie Investitionsentscheidungen. SmartDataLake wird Innovationen fördern und europäischen KMUs ermöglichen, den Wert ihrer eigenen Datenseen zu nutzen.
Herausforderungen:
-
Umgang mit Datenheterogenität
Wie kann ich Flexibilität im Umgang mit heterogenen Daten unterschiedlicher Modelle und Formate erreichen und gleichzeitig leistungsstarke Abfragen und Analysen anbieten? -
Reduzierung der Speicherkosten
Wie kann ich aufkommende Speicher-Tiering-Möglichkeiten nutzen, um Speicherkosten zu senken, indem ich die Datenplatzierung unter sich dynamisch ändernden Dateneigenschaften, Zugriffsmustern und Geschäftsanforderungen optimiere? -
Sinn aus den Daten gewinnen
Wie kann ich verschiedene Arten von Entitäten aus mehreren Quellen auflösen, verschiedene Arten von Beziehungen und Assoziationen erschließen und Muster in den Daten finden? -
Änderungen überwachen
Wie kann ich Änderungen erkennen, die aus neu gesammelten Daten resultieren, und deren Auswirkungen auf meine Analyse? -
Den Menschen im Prozess unterstützen
Wie kann ich die Daten visuell und interaktiv erkunden, um Erkenntnisse zu gewinnen, Hypothesen zu formulieren, verschiedene Analysen auszuprobieren und die Auswirkungen verschiedener Parameter zu vergleichen?
Ergebnisse
-
Virtualisierte, adaptive und transparente Datenzugriffs- und Speicher-Tiering-Engine
Ein verteiltes und elastisches Datenmanagementsystem für In-situ-Abfrageverarbeitung, adaptives Indexing, Datenzusammenfassung, näherungsweise Abfragebeantwortung und automatisches Speicher-Tiering. -
Mining heterogener Informationsnetzwerke
Eine Softwarebibliothek für das Mining heterogener Informationsnetzwerke, einschließlich Algorithmen für Entitätsauflösung, Ähnlichkeitssuche, Entitätsranking, Linkvorhersage, Community-Erkennung und Änderungserkennung. -
Skalierbare und interaktive visuelle Analytik
Eine visuelle Analyse-Engine zur Generierung verschiedener Arten skalierbarer und interaktiver Visualisierungen für Geodaten, zeitliche Daten und Graphdaten.
Projektpartner
Funding
Europäische Union
Dieses Projekt wurde im Rahmen des Forschungs- und Innovationsprogramms Horizon 2020 der Europäischen Union unter der Finanzhilfevereinbarung Nr. 825041 gefördert.