Große Daten

Fraunhofer ILT

Data Mining – ControllingWiki

Was versteht man darunter?

Mit Hilfe des Data Mining sollen wertvolle, nicht offensichtliche Informationen in großen Datenbeständen entdeckt werden, um Entscheidungen zu unterstützen. Das bedeutet, Data Mining ist ein Prozess der Auswahl, Erklärung und Modellierung großer Datenmengen, um vorher unbekannte Zusammenhänge zu finden.

Die in Unternehmen gesammelte und gespeicherte Datenmenge nimmt ständig zu. Es wird geschätzt, dass sich die weltweit vorhandene Informationsmenge alle 20 Monate verdoppelt. Die Nutzung von elektronischen Erfassungssystemen wie z.B. Scannerkassen sowie der Einsatz von immer leistungsfähigeren Speichermedien fördert diese Entwicklung. Allerdings wird es mit steigender Datenmenge schwieriger, nützliche Informationen zu finden. Daher müssen die riesigen Datenmengen analysiert werden, um ihre Bedeutung zu ermitteln.

Abb. 1: Notwendigkeit von Data Mining

Definition und Einordnung

Der Begriff Data Mining wurde 1996 von Fayyad, Piatetsky-Shapiro und Smyth geprägt. Data Mining ist danach ein Teil des Knowledge Discovery in Databases (KDD). Das KDD umfasst den gesammten Prozess der (semi-)automatischen Extraktion von Wissen aus Datenbanken, während sich das Data Mining als Teilprozess mit der Auswertung und Analyse von Daten beschäftigt.

Abb. 2: Prozessmodell Knowledge Discovery in Databases (KDD)

Bedeutung und Praxisbeispiele

Data Mining gewinnt im Marketingbereich zunehmend an Bedeutung. Anhand der Analyse und Interpretation von Kundendaten (Alter, Geschlecht, Adresse, Beruf, Freizeitbeschäftigungen, Zahl und Art der erworbenen Produkte und Dienstleistungen usw.) lassen sich äußerst wirksame Werbestrategien entwickeln und Marktsegmente bestimmen. Hauptsächlich aus diesem Grund nehmen auch die Bonus- und Kundenkartenprogramme stark zu. Neben der Kundenbindung bieten Programme wie HappyDigits, Pay Back etc. den teilnehmenden Unternehmen den Nutzen, kundenbezogene Daten beim Einkauf zu erhalten. Die Scannerkasse liefert die artikelbezogenen Daten und die Kundenkarte die kundenbezogenen Daten.

Dadurch können einzelne Daten, die für sich genommen kaum oder begrenzten Informationswert haben, zusammengeführt und zueinander in Beziehung gesetzt werden, um Rückschlüsse auf das Kaufverhalten zu ermöglichen und detaillierte Kundenprofile zu erstellen.

Durch Analyse dieser Datenbeziehungen könnte zum Beispiel ein Supermarkt feststellen, dass 80 % der Frauen zwischen 25 und 35 Jahren beim Kauf einer Zeitschrift gleichzeit auch Chips oder ähnliche Snacks kaufen. Durch diese Information könnte sowohl die zielgruppenspezifische Werbung als auch die Produktplatzierung optimiert werden.

Versicherungsunternehmen setzen Data Mining ein, um die Cross-Selling-Wahrscheinlichkeit bei Kundengruppen zu analysieren. Wie hoch ist die Wahrscheinlichkeit, dass Männer zwischen 30 und 40 Jahren neben einer Berufsunfähigkeitsversicherung auch eine Lebensversicherung abschließen? Ist die Wahrscheinlichkeit ausreichend hoch, können darauf abgestimmte Vertriebsaktivitäten gestartet werden. Weitergehend lassen sich auch Vorhersagen über den küftigen Wert eines Kunden (Customer Lifetime Value) treffen.

Die so genannte Outlier Detection kann z.B. für die Betrugserkennenung verwendet werden. Welche Gemeinsamkeiten weisen Kunden auf, die ihre Autoversicherung für Betrügereien nutzen? Telekomunikationunternehmen analysieren ihren Datenbestand, um herauszufinden, welche Kundengruppen für neue Dienstleistungen und Produkte am interessantesten sind. Besteht ein Zusammenhang zwischen der Anzahl der monatlichen SMS eines Kunden und seiner Bereitschaft, ein Fotohandy zu kaufen?

Auch im technischen Bereich wird Data Mining zunehmend eingesetzt. Bei einem an der Universität Helsinki entwickelten System wird die zeitliche Abfolge von Alarmen in einem Telekommunikationsnetzwerk analysiert. Jede der zahlreichen Komponenten eines solchen Netzwerks kann in gewissen Situationen Alarm schlagen, was 200 bis 10.000 mal pro Tag vorkommen kann. Das Telecommunication Network Alarm Sequence Analyzer (TASA) System sucht nach Regeln, die aus der Abfolge von Alarmen das Auftreten weiterer Alarme vorhersagen können.

Data Mining kann zudem die Wissensgewinnung aus Texten oder Dokumenten im Internet oder auf internen Servern unterstützen. Die Dokumente können damit automatisch klassifiziert werden. In diesem Zusammenhang spricht man auch von Text Mining oder Web Mining.

Praxis-Tipp

Data Mining muss immer auch unter dem Kosten-Nutzen-Gesichtspunkt betrachtet werden. Der Wert der gewonnenen Informationen muss die entstandenen Kosten deutlich übersteigen. Nur dann sind diese Informationen wertvoll. Versuchen Sie, die Informationen zu bewerten, um die Rentabilität von Data-Mining-Projekten beurteilen zu können.

Die Anwendung von Mustern

Ziel des Data Mining ist es, Wissen aus den zur Verfügung stehenden Daten zu gewinnen. Im Zusammenhang mit Data Mining versteht man im Allgemeinen unter Wissen:

Muster, die bestimmte zusätzliche Eigenschaften aufweisen und in einer formalen Sprache dargestellt werden.

Die am häufigsten verwendeten Muster sind:

Cluster

Regeln

Klassifikation

Abhängigkeitsmuster

Verbindungsmuster

Zeitliche Muster

Formeln und Gesetzmäßigkeiten.

Abb. 3: Beispiele für Muster

Methoden und Techniken

Es gibt eine Vielzahl von Methoden, Techniken und Algorithmen zum Finden solcher Muster in Datenbeständen. Viele Methoden kommen ursprünglich aus dem Bereich des maschinellen Lernens, aber auch statistische Methoden und interaktive Analysen mittels Visualisierungsmethoden werden verwendet.

Sehr häufig eingesetzte Methoden sind zum Beispiel:

Regressionsmodelle

Entscheidungsbäume

Neuronale Netze

Faktorenanalyse

Zeitreihenprognose

Verbindungsanalyse.

Welche Methode eingesetzt wird, hängt sehr stark von der Art der zu findenden Muster ab. Mittlerweile bieten auch Standard-Software-Tools wie der Enterprise Miner der Firma SAS eine große Methodenvielfalt.

Praxis-Tipp

Bei all diesen technischen Möglichkeiten und Methoden steht doch beim Data Mining der Mensch im Mittelpunkt. Es bedarf großen Fingerspitzengefühls und Wissens des Data-Mining-Experten, um zu entscheiden, welche Methode in welcher Situation einzusetzen ist oder wie Unterschiede in den Ergebnissen zwischen verschiedenen Methoden zu bewerten sind.

Literaturtipps

Ester, M.; Sander, J.: Knowledge Discovery in Databases: Techniken und Anwendungen, Springer Verlag, 2000.

Alpar, P.; Niedereichholz, J.: Data Mining im praktischen Einsatz, Vieweg Verlagsgesellschaft, 2000.

Otte, R. u.a.: Data Mining für die industrielle Praxis, Hanser Fachbuchverlag, 2003.

Link

Data Warehouse

Ersteinstellender Autor

Stefan Heindl

What is data mining?

Data Mining History & Current Advances

The process of digging through data to discover hidden connections and predict future trends has a long history. Sometimes referred to as "knowledge discovery in databases," the term "data mining" wasn’t coined until the 1990s. But its foundation comprises three intertwined scientific disciplines: statistics (the numeric study of data relationships), artificial intelligence (human-like intelligence displayed by software and/or machines) and machine learning (algorithms that can learn from data to make predictions). What was old is new again, as data mining technology keeps evolving to keep pace with the limitless potential of big data and affordable computing power.

Over the last decade, advances in processing power and speed have enabled us to move beyond manual, tedious and time-consuming practices to quick, easy and automated data analysis. The more complex the data sets collected, the more potential there is to uncover relevant insights. Retailers, banks, manufacturers, telecommunications providers and insurers, among others, are using data mining to discover relationships among everything from price optimization, promotions and demographics to how the economy, risk, competition and social media are affecting their business models, revenues, operations and customer relationships.

Fraunhofer ILT

Der Data-Lake hält Daten aus dem jeweiligen Anwendungskontext zusammen. Im Vorfeld der Akquise erfolgt eine anwendungsbezogene Identifikation relevanter Meta-Daten zur Sicherstellung kontextueller Integrität. In der Folge können klassische Algorithmen oder KI-Methoden für die Analyse verwendet werden. Hochperformante Rechnersysteme sowie schnelle Datenspeicher stehen hier als Infrastruktur für komplexe Fragestellungen zur Verfügung. Die Aufbereitung und Visualisierung der Ergebnisse erfolgt dabei mit modernsten Explorationstools wie multidimensionalen Grafikbibliotheken, interaktiven Projektionssystemen und Datenbrillen.

Wir ermöglichen einen tiefen Einblick in den digitalen Datenbestand.