Große Daten

Data-Mining – Wikipedia

10 Vorteile der Anwendung von Big Data in Ihrem Unternehmen

Big Data ermöglicht es einem Ecommerce, ein effizienteres Ressourcenmanagement zu erreichen und die Entscheidungsfindung zu beschleunigen, um ihr Wachstum zu fördern. Konkret: Big Data materialisiert sich in Software, die große Datenmengen sammelt, analysiert und präsentiert. Ein Beispiel dafür sind Preisintelligenz-Tools, die die Preisfestsetzung basierend auf den Marktveränderungen optimieren. Es handelt sich um eine Technologie, die große multinationale Konzerne wie Amazon oder Netflix mehr als umgesetzt haben und die viele Einzelhändler bereits in ihre geführten Ecommerce einbinden, um die vorteile, die es mit sich bringt, zu nutzen. Einige der Vorteile, erklären wir Ihnen hier:

Big Data zur Verbesserung Ihrer Geschäftsleitung

1.- Es ermöglicht Ihnen, Marktveränderungen zu antizipieren

Durch Big Data können Sie eine vorausschauende Analyse von Angebot und Nachfrage durchführen, um die Bewegungen Ihres Wettbewerbs zu antizipieren und jederzeit die am besten geeignete Preisstrategie definieren. Es ist besonders nützlich für die Trenderkennung und für die Planung einer Rabattaktionskampagne. Aus diesem Grund werden das Kundenverhalten und der Einkaufsverlauf berücksichtigt.

2.- Sie erhalten Echtzeit-Feedback

Big-Data-Tools sammeln Informationen in Echtzeit, um qualitativ hochwertige Daten zu erhalten. Dies ermöglicht es, Feedback zu den umgesetzten Maßnahmen zu erhalten und schnell auf Probleme oder drastische Marktveränderungen zu reagieren.

3.- Verbessern Sie die Logistik Ihres Ecommerce

Big Data ermöglicht es Ihnen auch, eine effizientere Lagerbestandsverwaltung und Versand Ihres Online-Shops zu erreichen. Die Datenanalyse bietet Ihnen wertvolle Informationen, z.B. welche Produkte am meisten in einem bestimmten Tag oder Zeitplan verkauft werden oder welche Routenlieferungen durchgeführt werden, um die billigste und schnellste Verteilung zu garantieren, ein Vorteil, der sowohl für das Unternehmen als auch für den Verbraucher einen Mehrwert hat.

4.- Kostensenkung

Einerseits führen die Tools von Big Data auch zu einer größeren Informationsfülle, sodass Mitarbeiter und Anwender jederzeit auf aktualisierte Daten jedes Produkts zugreifen können. Dies erhöht die Produktivität des Unternehmens, was gleichzeitig zu einer Kostensenkung führt. Auf der anderen Seite stellt die Implementierung dieser Software, die in der Regel in der Cloud funktioniert, Einsparungen für das Unternehmen dar, wodurch große Datenspeicherinfrastrukturen vermieden werden.

5.- Besseres Einkaufserlebnis für Nutzer

Innerhalb der Vorteile von Big Data gibt es die Möglichkeit, das Verhalten und die Vorlieben der Nutzer im Detail kennen zu lernen, um ihnen Empfehlungen für personalisierte Produkte anzubieten und die Conversion-Rate zu erhöhen. Gleichzeitig wird die Kundenzufriedenheit mit der Marke verbessert.

Big Data, die auf Ihre Marketing-Aktionen angewendet werden

6.- Sie führen eine bessere Segmentierung Ihrer Datenbank durch

Eine größere Menge an Informationen über jeden Kunden erleichtert die Segmentierung der Benutzer, so dass Sie jede einzelne Kommunikation mit den Produkten, Nachrichten und den effektivsten Call-to-Actions senden können. In diesen Informationen finden Sie sowohl ihre Präferenzen als auch die Phase des Einkaufsprozesses, in der sie sich befinden.

7.- Sie erhalten eine höhere Kundenloyalitäret

Ähnlich wie beim vorherigen Vorteil wird es einfacher sein, die Kunden Ihres Ecommerce zu gewinnen, wenn Sie wissen, was Sie jedem von ihnen anbieten können, damit sie der Marke treu bleiben. Diese Personalisierung kann sowohl für Kommunikations- und Produktangebote als auch für interaktive Markierungskampagnen gelten, die ein größeres Engagement generieren.

8.- Sie können die Kaufabbruchsrate Ihres Ecommerce reduzieren

Mit den Informationen, die durch das Tool generiert werden, können Sie Muster erkennen, die den Kunden folgen, bevor sie den Warenkorb abbrechen, oder warum sie sich entscheiden, einen Artikel nicht in den Warenkorb aufzunehmen. Dank dieser Informationen kann man dies vermeiden wie z.B. durch das Senden einer E-Mail mit einem begrenzten Zeitfenster für den Verkauf.

9.- Sie erhalten Informationen aus Social Media

Aus sozialen Netzwerken können Sie interessante Informationen extrahieren, auf deren Grundlage Sie Ihre organischen und bezahlten Kampagnen optimieren können. Sie können Kundenmeinungen über diese Kanäle verfolgen, die möglichen Bewertungen durch Influencer oder den Grad der Benutzerinteraktion mit den Profilen des Ecommerce bewerten.

10.- Stärkung Ihres Markenimage

Dank der Echtzeit-Datenerfassung können Sie auch herausfinden, ob Ihre Kampagnen Sympathie bei Ihrem Publikum erzeugen, oder im Gegenteil, wenn es notwendig ist, Änderungen vorzunehmen. Diese schnellere Entscheidungsfindung ist der Schlüssel, um das Brand-Image zu stärken und eine größere Anzahl von Neukunden zu erhalten.

Eine der Funktionalitäten, die die Erreichung all dieser Vorteile ermöglichen, ist die Fähigkeit, die Big-Data-Software selbst zu erlernen. Abgesehen von den gesammelten Daten generieren diese Tools Lernmodelle, die die Ergebnisse perfektionieren. Wenn wir über die Preisgestaltung sprechen, wird die Anhäufung historischer Informationen über den Markt und den Wettbewerb das Instrument jedes Mal zur effektivsten Preisempfehlung führen. Diese Tools können in eine vollständige Preissuite integriert werden, die die Geschäftsverwaltung optimiert.

Alles über das Thema Big Data

Fach- und Führungskräfte vieler Branchen nutzen tägliche die IDG-Medien, um sich über aktuelle Neuigkeiten im IT- und Digitalisierungssegment zu informieren. Die Autoren im IDG-Expertennetzwerk tragen mit ihren Artikeln zu diesen Inhalten bei.

Das IDG Expertennetzwerk wendet sich nicht an Hersteller oder Service-Anbieter, um Marketing oder Werbung für Firmen, Produkte oder Dienstleistungen zu platzieren. Firmen, die an dieser Art einer Veröffentlichung interessiert sind, wenden sich bitte an

Kommen Sie zu uns – als Experte

Data-Mining – Wikipedia

Unter Data-Mining [ˈdeɪtə ˈmaɪnɪŋ] (von englisch data mining, aus englisch data ‚Daten‘ und englisch mine ‚graben‘, ‚abbauen‘, ‚fördern‘)[1] versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere „Big Data“ bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen. Solche Datenbestände werden aufgrund ihrer Größe mittels computergestützter Methoden verarbeitet. In der Praxis wurde der Unterbegriff Data-Mining auf den gesamten Prozess der sogenannten „Knowledge Discovery in Databases“ (englisch für Wissensentdeckung in Datenbanken; KDD) übertragen, der auch Schritte wie die Vorverarbeitung und Auswertung beinhaltet, während Data-Mining im engeren Sinne nur den eigentlichen Verarbeitungsschritt des Prozesses bezeichnet.[2]

Die Bezeichnung Data-Mining (eigentlich etwa „Abbau von Daten“) ist etwas irreführend, denn es geht um die Gewinnung von Wissen aus bereits vorhandenen Daten und nicht um die Generierung von Daten selbst.[3] Die prägnante Bezeichnung hat sich dennoch durchgesetzt. Die reine Erfassung, Speicherung und Verarbeitung von großen Datenmengen wird gelegentlich ebenfalls mit dem Buzzword Data-Mining bezeichnet. Im wissenschaftlichen Kontext bezeichnet es primär die Extraktion von Wissen, das „gültig (im statistischen Sinne), bisher unbekannt und potentiell nützlich“[4] ist „zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“.[5] Fayyad definiert es als „ein[en] Schritt des KDD-Prozesses, der darin besteht, Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern“.[2]

Das Schließen von Daten auf (hypothetische) Modelle wird als Statistische Inferenz bezeichnet.

Abgrenzung von anderen Fachbereichen [ Bearbeiten | Quelltext bearbeiten ]

Viele der im Data-Mining eingesetzten Verfahren stammen eigentlich aus der Statistik, insbesondere der multivariaten Statistik und werden oft nur in ihrer Komplexität für die Anwendung im Data-Mining angepasst, oft dabei zu Ungunsten der Genauigkeit approximiert. Der Verlust an Genauigkeit geht oft mit einem Verlust an statistischer Gültigkeit einher, so dass die Verfahren aus einer rein statistischen Sicht mitunter sogar „falsch“ sein können. Für die Anwendung im Data-Mining sind oft jedoch der experimentell verifizierte Nutzen und die akzeptable Laufzeit entscheidender als eine statistisch bewiesene Korrektheit.

Ebenfalls eng verwandt ist das Thema maschinelles Lernen, jedoch ist bei Data-Mining der Fokus auf dem Finden neuer Muster, während im maschinellen Lernen primär bekannte Muster vom Computer automatisch in neuen Daten wiedererkannt werden sollen. Eine einfache Trennung ist hier jedoch nicht immer möglich: Werden beispielsweise Assoziationsregeln aus den Daten extrahiert, so ist das ein Prozess, der den typischen Data-Mining-Aufgaben entspricht; die extrahierten Regeln erfüllen aber auch die Ziele des maschinellen Lernens. Umgekehrt ist der Teilbereich des unüberwachten Lernens aus dem maschinellen Lernen sehr eng mit Data-Mining verwandt. Verfahren aus dem maschinellen Lernen finden oft im Data-Mining Anwendung und umgekehrt.

Die Forschung im Bereich der Datenbanksysteme, insbesondere von Indexstrukturen spielt für das Data-Mining eine große Rolle, wenn es darum geht, die Komplexität zu reduzieren. Typische Aufgaben wie Nächste-Nachbarn-Suche können mit Hilfe eines geeigneten Datenbankindexes wesentlich beschleunigt werden und die Laufzeit eines Data-Mining-Algorithmus dadurch verbessert werden.

Das Information Retrieval (IR) ist ein weiteres Fachgebiet, das von Erkenntnissen des Data-Mining profitiert. Hier geht es vereinfacht gesprochen um die computergestützte Suche nach komplexen Inhalten, aber auch um die Präsentation für den Nutzer. Data-Mining-Verfahren wie die Clusteranalyse finden hier Anwendung, um die Suchergebnisse und ihre Präsentation für den Nutzer zu verbessern, beispielsweise indem man ähnliche Suchergebnisse gruppiert. Text Mining und Web Mining sind zwei Spezialisierungen des Data-Mining, die eng mit dem Information Retrieval verbunden sind.

Die Datenerhebung, also das Erfassen von Informationen in einer systematischen Art und Weise, ist eine wichtige Voraussetzung, um mit Hilfe von Data-Mining gültige Ergebnisse bekommen zu können. Wurden die Daten statistisch unsauber erhoben, so kann ein systematischer Fehler in den Daten vorliegen, der anschließend im Data-Mining-Schritt gefunden wird. Das Ergebnis ist dann unter Umständen keine Konsequenz der beobachteten Objekte, sondern verursacht durch die Art, in welcher die Daten erfasst wurden.

Deutsche Bezeichnung [ Bearbeiten | Quelltext bearbeiten ]

Eine etablierte deutsche Übersetzung für den englischen Terminus Data-Mining existiert bislang nicht.[6]

Es gibt verschiedene Versuche, eine sachlich in allen Aspekten zutreffende deutsche Bezeichnung für den ungenauen englischen Ausdruck zu finden. Der Duden[5] beschränkt sich auf den eingedeutschten Anglizismus „Data-Mining“ (engl. „data mining“). Vorschläge zur Eindeutschung sind beispielsweise „Datenmustererkennung“[7] (was oft als Wiedererkennung bestehender Muster missinterpretiert wird) und „Datenschürfung“ (was der Originalbedeutung nicht vollkommen gerecht wird). Der Fremdwörter-Duden verwendet als wörtliche Übersetzung „Datenförderung“, kennzeichnet dies aber als nicht passende Übersetzung.[8] Auch der gezielte Aufruf nach Vorschlägen durch die Zeitschrift für Künstliche Intelligenz brachte keine überzeugenden Vorschläge.[6] Keiner dieser Bezeichner konnte nennenswerte Verbreitung erreichen, oft da bestimmte Aspekte des Themas wie die Wissensentdeckung verloren gehen, und falsche Assoziationen wie zur Mustererkennung im Sinne von Bilderkennung entstehen.

Gelegentlich wird die deutsche Bezeichnung „Wissensentdeckung in Datenbanken“ (für das englische Knowledge Discovery in Databases) verwendet, die den gesamten Prozess umfasst, der auch den Data-Mining-Schritt enthält. Des Weiteren betont diese Bezeichnung sowohl die wissenschaftlichen Ansprüche, als auch, dass der Prozess in der Datenbank abläuft (und sich eben nicht beispielsweise ein Mensch durch Interpretation eine Meinung aus den Daten bildet).

→ Hauptartikel : Knowledge Discovery in Databases

Data-Mining ist der eigentliche Analyseschritt des Knowledge Discovery in Databases Prozesses. Die Schritte des iterativen Prozesses sind grob umrissen:[4]

Fokussieren: die Datenerhebung und Selektion, aber auch das Bestimmen bereits vorhandenen Wissens

Vorverarbeitung: die Datenbereinigung, bei der Quellen integriert und Inkonsistenzen beseitigt werden, beispielsweise durch Entfernen oder Ergänzen von unvollständigen Datensätzen.

Transformation in das passende Format für den Analyseschritt, beispielsweise durch Selektion von Attributen oder Diskretisierung der Werte

Data-Mining, der eigentliche Analyseschritt

Evaluation der gefundenen Muster durch den Experten und Kontrolle der erreichten Ziele

In weiteren Iterationen kann nun bereits gefundenes Wissen verwendet („in den Prozess integriert“) werden um in einem erneuten Durchlauf zusätzliche oder genauere Ergebnisse zu erhalten.

Aufgabenstellungen des Data-Mining [ Bearbeiten | Quelltext bearbeiten ]

Typische Aufgabenstellungen des Data-Mining sind:[2][4]

Ausreißer-Erkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen

Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten

Klassifikation: bisher nicht Klassen zugeordnete Elemente werden den bestehenden Klassen zugeordnet.

Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“.

Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen

Zusammenfassung: Reduktion des Datensatzes auf eine kompaktere Beschreibung ohne wesentlichen Informationsverlust

Diese Aufgabenstellungen können noch grob gegliedert werden in Beobachtungsprobleme (Ausreißer-Erkennung, Clusteranalyse) und Prognoseprobleme (Klassifikation, Regressionsanalyse).

→ Hauptartikel : Ausreißer

In dieser Aufgabe werden Datenobjekte gesucht, die inkonsistent zu dem Rest der Daten sind, beispielsweise indem sie ungewöhnliche Attributswerte haben oder von einem generellen Trend abweichen. Das Verfahren Local Outlier Factor sucht beispielsweise Objekte, die eine von ihren Nachbarn deutlich abweichende Dichte aufweisen, man spricht hier von „dichtebasierter Ausreißer-Erkennung“.

Identifizierte Ausreißer werden oft anschließend manuell verifiziert und aus dem Datensatz ausgeblendet, da sie die Ergebnisse anderer Verfahren verschlechtern können. In manchen Anwendungsfällen wie der Betrugserkennung sind aber gerade die Ausreißer die interessanten Objekte.

→ Hauptartikel : Clusteranalyse

Bei der Clusteranalyse geht es darum, Gruppen von Objekten zu identifizieren, die sich auf eine gewisse Art ähnlicher sind als andere Gruppen. Oft handelt es sich dabei um Häufungen im Datenraum, woher der Begriff Cluster kommt. Bei einer dichteverbundenen Clusteranalyse wie beispielsweise DBSCAN oder OPTICS können die Cluster aber beliebige Formen annehmen. Andere Verfahren wie der EM-Algorithmus oder k-Means-Algorithmus bevorzugen sphärische Cluster.

Objekte, die keinem Cluster zugeordnet wurden, können als Ausreißer im Sinne der zuvor genannten Ausreißer-Erkennung interpretiert werden.

→ Hauptartikel : Klassifikationsverfahren

Bei der Klassifikation geht es ähnlich der Clusteranalyse darum, Objekte Gruppen (hier als Klassen bezeichnet) zuzuordnen. Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert (Beispielsweise: Fahrräder, Autos) und es werden Verfahren aus dem maschinellen Lernen eingesetzt um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen.

→ Hauptartikel : Assoziationsanalyse

In der Assoziationsanalyse werden häufige Zusammenhänge in den Datensätzen gesucht und meist als Schlussregeln formuliert. Ein beliebtes (wenn auch anscheinend fiktives) Beispiel, das unter anderem in der Fernsehserie Numbers – Die Logik des Verbrechens erwähnt wurde, ist folgendes: bei der Warenkorbanalyse wurde festgestellt, dass die Produktkategorien „Windeln“ und „Bier“ überdurchschnittlich oft zusammen gekauft werden, meist dargestellt in Form einer Schlussregel „Kunde kauft Windeln ⇒ {displaystyle Rightarrow } Kunde kauft Bier“. Die Interpretation dieses Ergebnisses war, dass Männer, wenn sie von ihren Ehefrauen Windeln kaufen geschickt werden, sich gerne noch ein Bier mitnehmen. Durch Platzierung des Bierregals auf dem Weg von den Windeln zur Kasse konnte angeblich[9] der Bierverkauf weiter gesteigert werden.

→ Hauptartikel : Regressionsanalyse

Bei der Regressionsanalyse wird der statistische Zusammenhang zwischen unterschiedlichen Attributen modelliert. Dies erlaubt unter anderem die Prognose von fehlenden Attributswerten, aber auch die Analyse der Abweichung analog zur Ausreißer-Erkennung. Verwendet man Erkenntnisse aus der Clusteranalyse und berechnet separate Modelle für jeden Cluster, so können typischerweise bessere Prognosen erstellt werden. Wird ein starker Zusammenhang festgestellt, so kann dieses Wissen auch gut für die Zusammenfassung genutzt werden.

Da Data-Mining oft auf große und komplexe Datenmengen angewendet wird, ist eine wichtige Aufgabe auch die Reduktion dieser Daten auf eine für den Nutzer handhabbare Menge. Insbesondere die Ausreißer-Erkennung identifiziert hierzu einzelne Objekte, die wichtig sein können; die Clusteranalyse identifiziert Gruppen von Objekten, bei denen es oft reicht, sie nur anhand einer Stichprobe zu untersuchen, was die Anzahl der zu untersuchenden Datenobjekte deutlich reduziert. Die Regressionsanalyse erlaubt es, redundante Informationen zu entfernen und reduziert so die Komplexität der Daten. Klassifikation, Assoziationsanalyse und Regressionsanalyse (zum Teil auch die Clusteranalyse) liefern zudem abstraktere Modelle der Daten.

Mit Hilfe dieser Ansätze wird sowohl die Analyse der Daten als auch beispielsweise deren Visualisierung (durch Stichproben und geringere Komplexität) vereinfacht.

Während die meisten Data-Mining-Verfahren versuchen, mit möglichst allgemeinen Daten umgehen zu können, gibt es auch Spezialisierungen für speziellere Datentypen.

→ Hauptartikel : Textmining

Im Textmining geht es um die Analyse von großen textuellen Datenbeständen. Dies kann beispielsweise der Plagiats-Erkennung dienen oder um den Textbestand zu klassifizieren.

→ Hauptartikel : Web Mining

Beim Webmining geht es um die Analyse von verteilten Daten, wie es Internetseiten darstellen. Für die Erkennung von Clustern und Ausreißern werden hier aber nicht nur die Seiten selbst, sondern insbesondere auch die Beziehungen (Hyperlinks) der Seiten zueinander betrachtet. Durch die sich ständig ändernden Inhalte und die nicht garantierte Verfügbarkeit der Daten ergeben sich zusätzliche Herausforderungen. Dieser Themenbereich ist auch eng mit dem Information Retrieval verbunden.

→ Hauptartikel : Zeitreihenanalyse

In der Zeitreihenanalyse spielen die temporalen Aspekte und Beziehungen eine große Rolle. Hier können mittels spezieller Distanzfunktionen wie der Dynamic-Time-Warping-Distanz bestehende Data-Mining-Verfahren verwendet werden, es werden aber auch spezialisierte Verfahren entwickelt. Eine wichtige Herausforderung besteht darin, Reihen mit einem ähnlichen Verlauf zu erkennen, auch wenn dieser etwas zeitlich versetzt ist, aber dennoch ähnliche Charakteristika aufweist.

Probleme des Data-Mining [ Bearbeiten | Quelltext bearbeiten ]

Viele der Probleme bei Data-Mining stammen aus einer ungenügenden Vorverarbeitung der Daten oder aus systematischen Fehlern und Verzerrung bei deren Erfassung. Diese Probleme sind oft statistischer Natur und müssen bereits bei der Erfassung gelöst werden: aus nicht repräsentativen Daten können keine repräsentativen Ergebnisse gewonnen werden. Hier sind ähnliche Aspekte zu beachten wie bei der Erstellung einer repräsentativen Stichprobe.

Die im Data-Mining verwendeten Algorithmen haben oft mehrere Parameter, die geeignet zu wählen sind. Mit allen Parametern liefern sie gültige Ergebnisse, und die Parameter so zu wählen, dass die Ergebnisse auch nützlich sind, ist eine Aufgabe des Benutzers. Wählt man beim Clusteranalyse-Algorithmus DBSCAN beispielsweise die Parameter m i n P t s {displaystyle minPts} und ε {displaystyle varepsilon } klein, so findet der Algorithmus eine fein aufgelöste Struktur, neigt aber auch dazu, Cluster in kleine Stücke zu zerteilen. Wählt man die Parameter größer, so findet er nur noch die Hauptcluster, die jedoch schon bekannt sein können, und dadurch auch nicht hilfreich. Weiterentwickelte Methoden haben oft weniger Parameter oder diese Parameter sind leichter zu wählen. Beispielsweise ist OPTICS eine Weiterentwicklung von DBSCAN, die den Parameter ε {displaystyle varepsilon } weitgehend eliminiert.

Die Bewertung von Data-Mining-Ergebnissen stellt den Benutzer vor das Problem, dass er einerseits neue Erkenntnisse gewinnen möchte, andererseits Verfahren dann nur schwer automatisiert bewerten kann. Bei Prognoseproblemen wie der Klassifikation, Regressionsanalyse und Assoziationsanalyse lässt sich hier die Prognose auf neuen Daten zur Bewertung verwenden. Bei Beschreibungsproblemen wie der Ausreißer-Erkennung und der Clusteranalyse ist dies schwieriger. Cluster werden meist intern oder extern bewertet, also anhand ihrer mathematischen Kompaktheit oder ihrer Übereinstimmung mit bekannten Klassen.[10] Die Ergebnisse von Ausreißer-Erkennungs-Verfahren werden mit bekannten Ausreißern verglichen. Bei beiden stellt sich jedoch die Frage, ob diese Bewertung wirklich zur Aufgabenstellung der „neuen Erkenntnisse“ passt und nicht letztlich die „Reproduktion alter Erkenntnisse“ bewertet.

Als statistische Verfahren analysieren die Algorithmen die Daten ohne Hintergrundwissen über deren Bedeutung. Daher können die Verfahren meist nur einfache Modelle wie Gruppen oder Mittelwerte liefern. Oftmals sind die Ergebnisse als solche nicht mehr nachvollziehbar. Diese maschinell gewonnenen Ergebnisse müssen aber anschließend noch von dem Benutzer interpretiert werden, bevor man sie wirklich als Wissen bezeichnen kann.

Data-Mining in der Industrie [ Bearbeiten | Quelltext bearbeiten ]

Neben den Anwendungen in den verwandten Bereichen der Informatik findet Data-Mining auch zunehmend Einsatz in der Industrie:

Prozessanalyse und -optimierung: Mit Hilfe des Data-Mining lassen sich technische Prozesse analysieren und die Zusammenhänge der einzelnen Prozessgrößen untereinander ermitteln. Dies hilft bei der Steuerung und Optimierung von Prozessen. Erste erfolgreiche Ansätze konnten bereits in der chemischen Industrie und Kunststoffverarbeitung erreicht werden. [11]

Analyse von Produktdaten: auch Daten aus dem Produktlebenszyklus können mittels Data Mining analysiert werden. Diese Daten fallen insbesondere bei Wartung und Service an. Sie lassen sich zur Optimierung und Weiterentwicklung des Produktes verwenden und können dazu beitragen, Innovationen zu generieren[12].

Educational Data Mining [ Bearbeiten | Quelltext bearbeiten ]

Data Mining hat ebenfalls in der Lehre, vor allem der Hochschullehre Einzug erlangt. Im Bildungsbereich spricht man von Educational Data Mining, mit dem in der Pädagogik das Ziel verfolgt wird "aus einer riesigen Datenmenge überschaubare Typen, Profile, Zusammenhänge, Cluster und darauf bezogen typische Abfolgen, Zusammenhänge und kritische Werte zu ermitteln." Aus den ermittelten Daten werden Handlungsempfehlungen abgeleitet, um pädagogische Prozesse planen zu können.[13]

Rechtliche, moralische und psychologische Aspekte [ Bearbeiten | Quelltext bearbeiten ]

Data-Mining als wissenschaftliche Disziplin ist zunächst wertneutral. Die Verfahren erlauben die Analyse von Daten aus nahezu beliebigen Quellen, beispielsweise Messwerte von Bauteilen oder die Analyse von historischen Knochenfunden. Beziehen sich die analysierten Daten jedoch auf Personen, so entstehen wichtige rechtliche und moralische Probleme; typischerweise aber bereits bei der Erfassung und Speicherung dieser Daten, nicht erst bei der Analyse, und unabhängig von der konkret verwendeten Analysemethode (Statistik, Datenbankanfragen, Data-Mining, …).

Rechtliche Aspekte [ Bearbeiten | Quelltext bearbeiten ]

→ Hauptartikel : Datenschutz und Personenbezogene Daten

Daten, die unzulänglich anonymisiert wurden, können möglicherweise durch Datenanalyse wieder konkreten Personen zugeordnet (deanonymisiert) werden. Typischerweise wird man hier jedoch nicht Data-Mining einsetzen, sondern einfachere und spezialisierte Analysemethoden zur Deanonymisierung. Eine derartige Anwendung – und vor allem die unzulängliche Anonymisierung zuvor – sind dann möglicherweise illegal (nach dem Datenschutzrecht). So gelang es Forschern beispielsweise anhand weniger Fragen Nutzerprofile eindeutig in einem sozialen Netzwerk zu identifizieren.[14] Werden beispielsweise Bewegungsdaten nur pseudonymisiert, so kann mit einer einfachen Datenbankanfrage (technisch gesehen kein Data-Mining!) oft der Nutzer identifiziert werden, sobald man seinen Wohnort und Arbeitsplatz kennt: die meisten Personen können anhand der 2–3 Orte, an denen sie am meisten Zeit verbringen, eindeutig identifiziert werden.

Das Datenschutzrecht spricht allgemein von der „Erhebung, Verarbeitung oder Nutzung“ personenbezogener Daten, da diese Problematik nicht erst bei der Verwendung von Data-Mining auftritt, sondern auch bei der Verwendung anderer Analysemethoden (bspw. Statistik). Ein zuverlässiger Schutz vor einer missbräuchlichen Analyse ist nur möglich, indem die entsprechenden Daten gar nicht erst erfasst und gespeichert werden.

Moralische Aspekte [ Bearbeiten | Quelltext bearbeiten ]

Die Anwendung von Data-Mining-Verfahren auf personenbeziehbare Daten wirft auch moralische Fragen auf. Beispielsweise, ob ein Computerprogramm Menschen in „Klassen“ einteilen sollte. Zudem eignen sich viele der Verfahren zur Überwachung und für eine fortgeschrittene Rasterfahndung. So stellt beispielsweise der SCHUFA-Score eine durch Statistik, vielleicht auch Data-Mining, gewonnene Einteilung der Menschen in die Klassen „kreditwürdig“ und „nicht kreditwürdig“ dar und wird entsprechend kritisiert.

Psychologische Aspekte [ Bearbeiten | Quelltext bearbeiten ]

Data-Mining-Verfahren selbst arbeiten wertneutral und berechnen nur Wahrscheinlichkeiten, ohne die Bedeutung dieser Wahrscheinlichkeit zu kennen. Werden Menschen jedoch mit dem Ergebnis dieser Berechnungen konfrontiert, so kann das überraschte, beleidigte oder befremdete Reaktionen hervorrufen. Daher ist es wichtig abzuwägen, ob und wie man jemanden mit derartigen Ergebnissen konfrontiert.

Google gewährt seinen Nutzern Einblick in die für sie ermittelten Zielgruppen[15] – sofern kein Opt-out erfolgt ist – und liegt dabei oft falsch. Eine amerikanische Kaufhauskette kann aber anhand des Einkaufsverhaltens erkennen, ob eine Kundin schwanger ist.[16] Mit Hilfe dieser Information können gezielt Einkaufsgutscheine verschickt werden. Selbst eine Vorhersage des Datums der Geburt ist so möglich.

Softwarepakete für Data-Mining [ Bearbeiten | Quelltext bearbeiten ]

Folgende Literatur liefert einen Überblick über das Gebiet Data-Mining aus Sicht der Informatik.

Aufgaben- und anwendungsspezifische Literatur findet sich in den jeweiligen Artikeln.