Große Daten

Big Data Analytics & KI für Unternehmen

KI-Anwendungen für Big Data & Analytics

Warum eine neutrale Infrastruktur für einen sicheren Datenaustausch entscheidend ist

von Guido Coenders

Die einhellige Meinung von Branchenexperten prognostiziert einen enormen Anstieg des Datenaufkommens in den kommenden Jahren. Dementsprechend sind Forderungen nach der für Unternehmen zwangsläufigen Monetarisierung von IoT-Daten, die von mehr als 100 Milliarden IoT-Geräten bis 2030 generiert werden, weit verbreitet.

Gleichzeitig gibt es Bedenken, dass der Rückgriff auf interne Daten künftig nicht ausreichen wird, damit Unternehmen ihren Wettbewerbsvorteil halten können. Entscheidender Grund dafür ist, dass insbesondere externe Datenquellen Algorithmen speisen und so neue Geschäftsmodelle schaffen. Vor dem Hintergrund dieser Trends stellt sich die Frage, wie Daten sicher und kontrolliert von allen Beteiligten gemeinsam genutzt werden können.

Datenmarktplatz als neues Wertschöpfungsmodell

Eine mögliche Lösung für diese Herausforderung bietet die Nutzung von Datenmarktplätzen, die Regeln für den Datenaustausch festlegen bzw. dafür sorgen, dass zwischen den jeweiligen Parteien vereinbarte Regelungen automatisiert ausgeführt und eingehalten werden. Um den Austauschmechanismus eines Datenmarktplatzes noch stärker zu optimieren, können sogenannte „Sandboxes“ einbezogen werden. Diese fungieren als neutraler Ort zum Austausch von Daten und Algorithmen.

CGS mbH - Consultinggesellschaft für Systementwicklung

Das umfangreiche Open Source Ökosystem Hadoop bietet zahlreiche Lösungen, die sich dank einer großen aktiven Community ständig weiterentwickeln. Diese sind gut mit Ihrer Infrastruktur zu kombinieren und zusammen mit einem Cloud-Ansatz besonders flexibel – auch ohne große Investition.

Zugleich ist über Cloudera, die führende Distribution von Hadoop, eine sehr sinnvolle Zusammenstellung der Open Source Lösungen entstanden. Diese wurde mit sehr hilfreichen eigenen Tools von Cloudera aufgewertet und gut abgestimmt gebündelt. Dadurch reduzieren sich der Aufwand und die Risiken im Aufbau einer Hadoop-Lösung deutlich. Projekte können schneller umgesetzt werden und der Koordinationsaufwand sinkt spürbar.

Sie bekommen damit ein umfangreiches Paket von Apache Hadoop mit Apache Spark, Apache Sqoop, Apache Kudu, Apache Flume, Apache HBase, Apache Hive, Apache Impala, Apache Kafka, Apache Parquet, Apache Sentry und einigen mehr. Enterprise ready und mit einem einfachen Subscriptionmodell.

Als Partner von Cloudera haben wir umfangreichen Zugang zu Best Practices, Entwicklungen und Weiterbildungen. Dementsprechend sind viele unserer Mitarbeiter Cloudera-zertifiziert.

Big Data Analytics & KI für Unternehmen

Was ist Big Data Analytics?

Big Data Analytics steht für die Untersuchung dynamischer und diverser Datenmengen. Darunter fallen beispielsweise Meta-Daten von Surfverhalten auf Websites, geografische Daten, Wetter-Informationen, Bild-Daten aber auch Text-Informationen.

Eine besondere Herausforderung ist die Handhabung dieser Daten aus verschiedenen Quellen auf Grund ihres unterschiedlichen Formats, der Auflösungskraft und Güte. Für eine solche Analyse großer Datenmengen setzen Datenwissenschaftler auf einen speziellen Werkzeugkasten zur Extraktion, Erfassung und Transformation der Daten in die zur Weiterverarbeitung passende Form.

Big Data Analytics – als Vorarbeit für KI-Anwendungen – lässt sich in drei Arbeitsschritte gliedern:

1. Datenbeschaffung aus verschiedenen Quellen

2. Optimierung und Nutzbarmachung (d.h. Säubern und Strukturieren) des so entstanden Datenraums

3. Anwendung unterschiedlicher Methoden moderner Statistik. Die notwendigen Modelle werden dabei auf die spezielle, kundespezifische Fragestellung ausgerichtet.

Der erste Schritt im Big Data Analytics Prozess ist die Datenbeschaffung. Hierbei muss geklärt werden, wie ich an die Daten gelange, in welchem Format sie vorliegen, welchen Umfang sie haben und wie eine Data Input-Pipeline aussehen könnte. Für den ersten Schritt reichen meist statische Exporte, welche dem Data Science Team die Daten in unterschiedlichen Formaten wie z.B. CSV, JSON oder XML zur Verfügung stellen. Später im Big Data Projekt lassen sie für eine kontinuierliche Datenversorgung allerhand Automatisierungen entwickeln, um die Daten von A nach B zur Weiterverarbeitung zu schaufeln. Die hierfür zu zu verwendenden Technologien sind unter anderem davon abhängig, wie zeitlich kritisch die Daten zu verarbeiten sind und welche Update-Zyklen die Algorithmen verlangen.

Im zweiten Schritt machen sich die Datenwissenschaftler mit den Daten vertraut und testen diese hinsichtlich ihrer Weiterverarbeitbarkeit. Unter anderem geht es bei diesem eher explorativen Vorgehen darum, die Daten zu verstehen. Sie werden hinsichtlich Qualität, Konsistenz und potentiellen Fehlern untersucht. Je nach Ergebnis müssen ggf. zusätzlich Strategien gefunden werden, um fehlerhafte Daten in einem Vorverarbeitungsschritt zu einem akzeptablen Datenstand zur Weiterverarbeitung zu führen. Wichtig ist dabei vor allem, ein Gefühl für die Daten zu bekommen und einzugrenzen, in welche Richtung weiterführende Analysen gehen könnten anhand des Datenbestandes und der bestehenden Qualität.

Nach erfolgreicher Extraktion und Nutzbarmachung beginnt mit Hilfe des Big Data Analytics Werkzeugkastens die Suche nach verborgenen Zusammenhängen innerhalb unterschiedlicher Datenströme. Die Anreicherung nicht-annotierte Daten um fehlende Informationen und Querverbindungen führt in vielen Fällen dazu, dass Zusammenhänge ans Tageslicht kommen, die anfänglich nicht erwartet wurden.

Ein Anwendungsfall von Big Data Analytics im Bereich Digital Marketing ist zum Beispiel das Aufspüren von Markttrends und Kundenpräferenzen; damit Unternehmer fundierte, datengetriebene Geschäftsentscheidungen treffen können. Oftmals ist dabei die vorherige Entwicklung übergreifender Messgrößen und KPIs zur Erfassung dieser nebulösen Werte wie „Präferenz“ und „Trend“ erforderlich.