Data Science

Explorative Datenanalysen, klassische Statistik, KI, Machine Learning

Aus Daten werden Informationen, Wissen und Entscheidungen

Data Science

Mit den modellierten BI-DWH Datenstrukturen werden diejenigen Informationen generiert, die verbesserte Geschäftsentscheidungen und die beabsichtigten Wettbewerbsvorteile ermöglichen. Der Weg dorthin führt durch explorative Datenanalysen und -visualisierungen, aktuelle Reports hin zu datenbasierenden Vorhersagemodellen, die mit Methoden der künstlichen Intelligenz, Machine Learning oder klassischer statistischer Methoden wie z.B. Regressionsmodelle erstellt werden.

Wir ernten mit diesen Verfahren die Früchte, die über die Business Analyse und die Konsolidierung der Rohdaten in den BI-DWH Datenstrukturen gesät worden sind. Aufgrund meiner Ausbildung und langjährigen Projektarbeit kenne ich diese Verfahren und weiß, unter welchen Voraussetzungen sie einsetzbar sind und welche Erkenntnisse diese liefern können.

Der Einsatz erfolgt in BI-DWH Applikationen durch automatisierte Prozesse, die zum einen in aggregierten KPI-Reports (key perfomance indicators) den Geschäftsverlauf und Portfolioveränderungen anzeigen oder regulatorische Anforderungen, z.B. Basel IV erfüllen. Zum anderen stellen Vorhersagemodelle Wahrscheinlichkeiten oder Affinitäten einzelner Kunden im Hinblick auf Geschäftsereignisse wie Kreditausfall, Vertragskündigung oder Kaufentscheidungen bereit, die dann für ebenfalls automatisierte Geschäftsentscheidungen wie z.B. Kreditanträge oder Direkt Marketing Kampagnen herangezogen werden können.

01

Daten - Informationen - Wissen - Entscheidungen

Die Mühen der Datenaufbereitung haben sich gelohnt

Letztendlich geht es um bessere Geschäftsentscheidungen und Strategien, die mit Data Science erschlossen werden. Was die Fachbereiche schon lange z.B. über Kunden, Lieferanten oder Produkte wissen wollten, kann jetzt in jedem Detaillierungsgrad in Sekunden bereitgestellt werden. Absatz, Rentabiliät oder Trends werden deskriptiv in Reports und explorativen Graphiken automatisch bereitgestellt. Risiko- oder Kaufwahrscheinlichkeit einzelner Kunden, ermittelt über Vorhersagemodelle oder Klassifikationen, optimieren die Qualität von Kreditportfolios oder Direkt-Marketing Kampagnen.

Analytik - das Ziel im Blick

Die fachlichen Fragestellungen bestimmen die Art der Analyse-Verfahren. Will man z.B. wissen, ob signifikante Unterschiede zwischen Kundengruppen bestehen, so kann z.B. der t-Test, die ANOVA (Analysis of Variance) oder der Mann-Whitney-U-Test für nicht-parametrische Daten eingesetzt werden.

Will man ohne konkrete Hypothese wissen, ob in den Daten bestimmte Muster und Strukturen in den Daten erkennbar sind, dann kann z.B. das k-means Cluster-Verfahren eingesetzt werden. Es optimiert die Homogenität innerhalb einer Kundensegmentierung bei maximaler Trennschärfe zwischen den Segmenten. 

Statistische und Machine Learning Verfahren sind immer an bestimmte Datenvoraussetzungen gebunden, um zuverlässige Ergebnisse liefern zu können. Ein Modell, das z.B. mit einen neuronalen Netz erstellt wurde muss nicht nur statistischen Kriterien genügen, sondern auch mit den darin befindlichen Merkmalen und Gewichtungen eine fachliche Pausibilität aufweisen. Weniger  Parameter sind zuverlässiger als zu komplexe Modelle (Overfitting).

Einen Beitrag für die geeignete Auswahl und Erstellung der Analytik kann ich aus vielen praktischen Kundenprojekten beisteuern.

Explorative Analyen

Wie sind einzelne Merkmale, z.B. in Kundengruppen verteilt? Welche Zusammenhänge gibt es zwischen den Merkmalen? Lassen sich Trends in der zeitlichen Betrachtung erkennen? Gibt es Ausreißerwerte oder andere Datenanomalien? Diese deskriptiven Statistiken beschreiben verständlich die Portfolios.

Statistische Verfahren

Sind beobachtete Unterschiede, z.B. zwischen Kundengruppen zufällig, oder liegt statistische Signifikanz vor? Aus diesen schließenden Statistiken können Entscheidungen abgeleitet werden. Neben der Beurteilung von Gruppenunterschieden werden Vorhersagen und Klassifikationen auf Kundenebene getroffen.

Künstliche Intelligenz

Automatisierte Verbesserungen der Performance von Vorhersagemodellen und Klassifikationen können durch Lernalgorithmen erzielt werden. In gezielten Lern- und Testzyklen werden Modellmerkmale mit aktuellen Daten trainiert und anschließend an Testdaten derselben Kohorte evaluiert. Dies verhindert ein "Overfitting" der Modelle durch Kreuzvalidierung an.

Beratung und Einsatz analytischer Verfahren
aus der Praxis ...

Die richtige Analytik für Ihre fachlichen Fragen.