Große Daten

Big Data: Definition, Technologien, Anwendungen, Weiterbildung

Die wichtigsten Big-Data-Technologien

Überblick Die wichtigsten Big-Data-Technologien

Big-Data-Anwendungen basieren nicht auf einer einzigen Technologie, sondern sind im Grunde ein Zusammenspiel verschiedener Innovationen. Dafür reichen jedoch herkömmliche Technologien wie zum Beispiel klassische Datenbanken, Data Warehouse- oder Reporting-Lösungen bei weitem nicht aus.

Welches Analyse-Tool eignet sich? Vor einer Implementierung sollten sich Unternehmen zunächst über den jeweiligen Anwendungsfall als auch die Art und den Umfang der zu analysieren Daten Klarheit verschaffen. (Bild: © sdecoret -

Big-Data-Technologien erlauben unter anderem die Optimierung von bestehenden Geschäftsprozessen hinsichtlich des Ressourceneinsatzes, der zusätzlichen Nutzung von bisher ungenutzten Datenquellen zur Unterstützung von Prozessen sowie der Entwicklung neuer Geschäftsmodelle beziehungsweise der Individualisierung von Produkten und Strategien. Neue Geschäftsfelder lassen sich erschließen, indem zum Beispiel Daten zur Realisierung von datenbasierten Services herangezogen werden.

Wenn Unternehmen heute ihre Daten auswerten, steht ihnen eine große Auswahl an individualisierbaren und echtzeitfähigen Analyse-Tools zur Verfügung. Vor einer Implementierung sollten sie sich über den jeweiligen Anwendungsfall als auch die Art und den Umfang der Daten Klarheit verschaffen. Gleichzeitig werden sie mit einer Vielzahl an Fachbegriffen überflutet, die ihnen eine Entscheidung nicht unbedingt erleichtert.

Rund um den viel strapazierten Fachbegriff Big Data haben sich im Laufe der Zeit verschiedene Lösungen angesiedelt, deren Sinn sich vor allem für Big-Data-Neulinge nicht unmittelbar erschließt. Denn jede Technologie verfolgt ihren eigenen Zweck und ihre spezielle Funktion, mit Daten zu hantieren.

Data Mining, BI-Plattformen und Process Mining

Das gesamte Bündel der statistisch-mathematischen Methoden zur Erkennung von Mustern durch Aufgaben wie zum Beispiel Suche, Vorverarbeitung oder Auswertung wird als Data Mining bezeichnet. Aus technischer Sicht kommen hierzu Algorithmen zum Einsatz, die Zusammenhänge zwischen den Daten herstellen sollen. Sogenannte Business-Intelligence-Plattformen (BI) bieten Verfahren, um Daten zu sammeln, auszuwerten und darzustellen. Die Betreiber verfolgen damit Ziele der Risiko- und Kostenreduzierung sowie der Optimierung der Wertschöpfung.

Gegenstand der Auswertung sind jegliche Arten von KPI (Key Performance Indicators), also Kennzahlen, wie zum Beispiel über die eigene Produktion, die Mitbewerber, die Kunden oder die Entwicklungen an den Märkten. Entscheidend ist dabei, dass die Betreiber vorab genau definieren, was sie mit den multidimensionalen Analysen untersuchen wollen. Dies birgt jedoch einen großen Nachteil, da man oftmals am Anfang noch gar nicht genau wissen kann, welche Daten im Verlauf relevant sein können. Daher versuchen die Unternehmen immer mehr Datenquellen sowie unstrukturierte Daten in die Analysen miteinzubeziehen.

Im Gegensatz zu den BI-Plattformen, die im Wesentlichen verschiedene Kennzahlen fokussieren, behandelt die Big-Data-Technologie Process Mining einen weiter greifenden Ansatz: Hier geht es um die Analyse von Prozessen, die End-to-End betrachtet werden und genau die Realität abbilden. Das heißt, mit Process Mining können vollständige digitale Abläufe in den verschiedensten Variationen visualisiert werden. Aufgrund der gewonnenen Einsichten lassen sich nun sehr leicht Schwachstellen in Echtzeit erkennen.

Ein weiterer Vorteil: Die Betreiber müssen sich vorab nicht in ein Korsett vordefinierter Fragestellung zwängen. Denn Process Mining gewährt unbefangene Einblicke in die tatsächlichen Abläufe einer Unternehmung. Daraus können die Unternehmen dann Optimierungsentscheidungen ableiten und einen schnellen Return on Investment (ROI) erzielen. Im Vergleich zu BI liefert das Process Mining wichtige Informationen, wann, wo und warum es zu diesen Problemen überhaupt kam.

Kategorien der Big-Data-Technologien

Je nach den speziellen Anforderungen vor Ort kommen verschiedene Architekturen sowie auch deren Kombinationen infrage. Als Orientierung werden vier Kategorien unterschieden:

Standardisierte Analytics qualifizieren sich für Anwendungen mit eher geringeren Anforderungen an Zeit und Datenvielfalt.

In-Memory-Technologien sind besonders für sehr große Datenauswertungen geeignet.

Hadoop-Lösungen empfehlen sich bei einer großen Vielfalt an Datenformaten. Hadoop ist Open Source und in der Lage, ein gewaltiges Volumen unterschiedlich strukturierter Daten zu speichern und verarbeiten. Die Fähigkeit zu skalieren, scheint fast unbegrenzt.

Complex Event-Processing und Streaming eignet sich für den Fall, dass Daten schon während des Entstehens erfasst und ausgewertet werden müssen

Klassifizierung der Big-Data-Technologien

Big-Data-Komplettlösungen werden wiederum in einzelne Schichten unterteilt. Nachfolgende Schichten kennzeichnen den direkten Weg von den Rohdaten bis hin zu geschäftsrelevanten Resultaten:

Datenhaltung,

Datenzugriff,

Analytische Verarbeitung und

Visualisierung.

Diese werden von folgenden Schichten begleitet:

Daten-Integration und

Daten-Governance sowie Daten-Sicherheit.

Diese sogenannten flankierenden Schichten sollen die Einbettung der Rohdaten in die vorhandenen Standards eines Unternehmens sicherstellen.

Anleitung zur Findung der geeigneten Technologien

Es existiert heute beinahe für jeden Anwendungsfall eine spezialisierte beziehungsweise individualisierbare Lösung. Bei der Implementierung einer Big-Data-Technologie sollten sich die Anwender immer zuerst Klarheit über Art und Umfang ihrer Daten verschaffen. Die nachfolgenden Fragestellungen unterstützen die Identifikation des konkreten Bedarfs:

Welche Daten gibt es im Unternehmen? Genügt es, wenn sich diese Daten möglichst flexibel auswerten lassen? Oder müssen zudem Ad-hoc-Analysen ausgeführt werden?

Wer muss mit der Technologie dann letztlich arbeiten?

Wie sieht der konkrete Bedarf der Anwender aus?

Wo sind die Daten hinterlegt? Hauptsächlich aus relationalen Datenbanken? Oder müssen auch unstrukturierte Datenquellen verwendet werden?

Erfordert die Anwendung sehr hohe Verarbeitungsgeschwindigkeiten?

Werden für die Anwendung eher eine schnelle Speicherung und einfache Abfragemöglichkeiten großer Datenmengen gebraucht?

Fließt auch Datenmaterial aus sozialen Netzwerken für fortlaufende Footprint-Analysen ein?

Auswahl einiger Big-Data-Technologien

Unternehmen speichern, verarbeiten und analysieren immer mehr Daten im großen Stil und generieren ihre Mehrwerte daraus. Folgende Big-Data-Technologien decken einen großen Teil der Anwendungsszenarien für Unternehmen ab:

Jetzt Newsletter abonnieren Täglich die wichtigsten Infos zu Big Data, Analytics & AI Geschäftliche E-Mail Bitte geben Sie eine gültige E-Mailadresse ein. Newsletter abonnieren Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Aufklappen für Details zu Ihrer Einwilligung Stand vom 30.10.2020 Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung. Einwilligung in die Verwendung von Daten zu Werbezwecken Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden. Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden. Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Recht auf Widerruf Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Hadoop

Das Open-Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Hadoop eignet sich besonders für Auswertungen, bei denen aufwendige Analysen ausgeführt werden müssen.

Cloudera

Ein umfassendes Portfolio an geprüften Open-Source-Anwendungen, das durch den Cloudera Cluster-Manager auf einer Web-Oberfläche sehr leicht installiert und verwaltet werden kann. Unternehmen greifen auf bewährte Lösungen zurück und können flexibel neue Big-Data-Technologien in bestehende Prozesse eingliedern.

Apache Hive

Das Data Warehouse für Hadoop. Apache Hive verlagert Daten aus relationalen Datenbanken per SQL-Dialekt HiveQL nach Hadoop. Die wichtigsten Funktionen sind die Zusammenfassung, Abfrage und Analyse der Daten.

Cloudera Impala

Ein skalierbares und verteiltes Tool der Datenabfrage für Hadoop. Vorteile: Abfragen in Echtzeit ohne Daten bewegen oder umwandeln zu müssen.

MongoDB

Eine der marktführenden NoSQL-Datenbanken aus dem Open-Source-Bereich. Die Allzweckdatenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit.

Pentaho

Eine der global führenden Plattformen für BI. Zusammenfassung bewährter Einzellösungen zu einem kompletten Framework. Pentaho ist modular, besteht aus einer offenen Architektur und lässt sich dank vieler Schnittstellen in bestehende IT-Landschaften leicht einfügen.

Infobright

Die spaltenbasierte Datenbank bietet mit einer effektiven Datenkompression mehr Flexibilität. Sie ist insbesondere für die Verarbeitung großer Datenmengen gut geeignet.

Apache Spark

Ein parallel arbeitendes Open Source-Framework zur Echtzeitanalyse, das die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern garantiert.

Splunk

Die Technologie ist vor allem im Bereich des Digital Footprint etabliert und gestattet das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen.

Apache Storm

Ein fehlertolerantes, skalierbares System zur Echtzeitverarbeitung von Datenströmen. Apache Storm ist ein Teil des Hadoop-Ökosystems und funktioniert unabhängig von Programmiersprachen.

(ID:45555067)

Big Data: Definition und Beispiele

Wie entsteht Big Data?

Der Datenumfang hat immense Ausmaße angenommen: Die Menge an Daten, die die Menschheit von Beginn an bis ins Jahr 2002 angesammelt hat, entstand 2014 schon innerhalb von nur zehn Minuten. Laut Prognosen wird dieser Datenberg weiter steigen und sich weltweit im Zweijahrestakt verdoppeln. Die Datenflut ergibt sich durch die steigende Digitalisierung aller Lebensbereiche. Big Data entsteht dabei durch das Zusammenführen verschiedener Datenquellen wie:

mobile Internetnutzung

Social Media

Geo-Tracking

Cloud Computing

Vitaldaten-Messung

Media-Streaming

Spricht man von Big Data, sind in der Regel nicht nur die Daten selbst, sondern auch deren Analyse und Nutzung gemeint. Man versucht Muster und Zusammenhänge zu finden und in den richtigen Kontext zu bringen. Die Herausforderung dabei ist nicht nur das riesige Datenvolumen, sondern auch die Datengeschwindigkeit und die Vielfalt der Informationen. Die Daten strömen ununterbrochen in einen unstrukturierten Pool. Sie sollen erfasst, gespeichert und verarbeitet werden, wenn möglich in Echtzeit. Um die Daten richtig lesen und in Zusammenhang bringen zu können, bedarf es einer ausgefeilten Dateninfrastruktur.

Big Data: Definition, Technologien, Anwendungen, Weiterbildung

Unternehmen aller Branchen nutzen die in ihren Systemen gespeicherten Big Data für unterschiedliche Zwecke: um Abläufe zu verbessern, einen besseren KundInnenservice zu bieten, personalisierte Marketingkampagnen auf der Grundlage von KundInnenpräferenzen zu erstellen oder einfach nur, um den Umsatz zu steigern.

Mit Big Data können sich Unternehmen einen Wettbewerbsvorteil gegenüber ihren nicht datengesteuerten KonkurrentInnen verschaffen. Sie können schneller und genauer Entscheidungen treffen, die direkt auf Informationen basieren.

So kann ein Unternehmen beispielsweise Big Data analysieren, um wertvolle Informationen über die Bedürfnisse und Erwartungen seiner KundInnen zu erhalten. Diese Informationen können dann zur Entwicklung neuer Produkte oder gezielter Marketingkampagnen genutzt werden, um die KundInnenbindung oder die Konversionsrate zu erhöhen. Ein Unternehmen, das sich bei seiner Entwicklung ausschließlich auf Daten stützt, gilt als datengesteuert (data-driven auf Englisch).

Big Data wird auch in der medizinischen Forschung eingesetzt. So können beispielsweise Risikofaktoren für Krankheiten ermittelt oder zuverlässigere und genauere Diagnosen gestellt werden. Medizinische Daten können auch zur Vorhersage und Überwachung möglicher Epidemien verwendet werden.

Megadaten werden ausnahmslos in fast allen Bereichen eingesetzt. Die Energiewirtschaft nutzt sie, um potenzielle Bohrgebiete zu entdecken und ihren Betrieb oder das Stromnetz zu überwachen. FinanzdienstleisterInnen nutzen es für das Risikomanagement und die Analyse von Marktdaten in Echtzeit.

HerstellerInnen und Transportunternehmen verwalten ihre Lieferketten und optimieren ihre Lieferwege mithilfe von Daten. In ähnlicher Weise nutzen Regierungen Big Data zur Verbrechensbekämpfung oder für Smart-City-Initiativen.