Februar 2019
Data Science

Am Mittwoch 27. Februar fand bei Hinderling Volkart der 10. Digital-Shift Event zum Thema Data Science statt. All zu oft kommt bei Entscheidungen das HiPPO Modell zum Tragen (highest paid person’s opinion). Im Gegensatz dazu bietet Data Science eine Möglichkeit, Entscheidungen auf eine wissenschaftliche Grundlagen zu stützen. Seitdem immer grössere Datenmengen genutzt werden können und Methoden wie Maschine Learning zunehmend präzisere Aussagen machen können, finden tiefgreifende Veränderungen in der Entscheidungskultur statt.

Thomas Ebermann von Liip führte ins Thema ein. Er ging auf die Frage ein, was braucht ein Unternehmen, um datenbasiert entscheiden zu können. Im Unternehmen müssen erstmals sehr viele Vorbedingungen erfüllt sein, bevor Methoden wie Machine Learning zum Einsatz kommen. Es kann sein, dass man ungenügend Daten hat, um Probleme zu klären wie, “Was wollen die Kunden”. Es kann auch sein, dass man zwar sehr viele Daten hat, aber in einer Hierarchie arbeitet, wo andere die Entscheidungsträger sind; oder in einer Kultur, wo man eine Aufgabe “schon immer so gelöst hat”. Und zuletzt kann es sein, dass ein Unternehmen einfach keine Zeit für Data Science findet. Ein Data Scientist vereint die Kompetenzen eines Statistikers, eines Informatikers und Domain-spezifisches Wissen eines Experten in einer Person. Der Data Scientist Stack besteht aus:

  • Data Science gut kommunizieren
  • Automation & Experimente
  • Nützliches Reporting der Daten
  • Stabile Produktion Pipeline

So liefert er einem Unternehmen Grundlagen, um Entscheidungen zu treffen und hilft, für die Zukunft zu planen. Die wichtigste Fähigkeit ist, auf Grund von Problemstellungen und Daten, Insights zu generiert, z.B. wieso kommt das Produkt nicht an in diesem Markt. Wenn Data Science nur für Effizienz-Gewinnung eingesetzt wird, verschenkt man sein wichtigstes Potenzial: Mit Data Science kann man überhaupt entscheiden, ob man etwas machen sollte. Denn das dümmste was im Unternehmen passieren kann, ist, dass man etwas sehr effizient abarbeitet, was man aber gar nicht machen müsste. Darum beschreibt der Grundsatz “Practice over Theory” kurz und bündig die Geisteshaltung eines Unternehmen, das Data Science betreibt. So können die Mitarbeitende “einfach mal machen”, denn so ergeben sich Daten, worauf Entscheide getroffen werden können und man muss nicht die verstaubten Theoriebücher hervor kramen. Für Thomas Ebermann gibt es einen Kultur Stack:

  • Daten-Reife erlangen
  • Offenheit, Transparenz, Ethik, Prinzipien…
  • Lernen zu experimentieren
  • Lernen aufgrund von Daten zu handeln und mit der Frage anfangen
  • An den Wert von Daten glauben

Allerdings können Daten einem schnell sein Bauchgefühl suggerieren, was nicht umbedingt stimmt, wenn man sich nicht mehr ins Thema vertieft. Auch ein Stolperstein kann sein, wenn Menschen die Datenpunkte sind. Da gilt das Heisenbergsche Prinzip, das heisst, wenn man ein Datenpunkt beobachtet, verändert sich dieser. Menschen lernen oft sehr schnell, ein messendes System zu missbrauchen.

Daniel Meister von Datahouse verschafft uns Einblicke ins Thema, woran innerhalb einer Organisation Data Science Projekte misslingen. Eine Google Suche “data science project failure rate” ergibt ungefähr 396.000.000 Resultate, wobei viele eine Gartner Studie zitieren, die besagt, dass 85% dieser Projekte fehlschlagen.

Schon in der ersten Phase bei der Business-Analyse kann einiges schief laufen, weil oft der Fokus am falschen Ort liegt. Die Frage muss jederzeit ganz klar lauten: “Wo lässt sich unser (Kern-)Geschäft tatsächlich noch optimieren? Welche zusätzlichen Informationen sind dafür notwendig? Gibt es eine realistische Chance diese Daten zu erhalten?” Das Projekt droht schon an der Aufgabenstellung zu scheitern, wenn die Frage mehr in die folgende Richtung geht: “Facebook macht Millionen Gewinn mit passender Werbung neben Urlaubsbildern. Haben wir auch Bilder, die wir mit Deep Learning verarbeiten können?”

Um die Wahrscheinlichkeit des Scheiterns eines Data Science Projekts zu minimieren, sollte folgendes gegeben sein:

  • Einfacher Zugriff auf vollständige, korrekte und relevante Daten
  • Gute Mischung von Experten und Entscheidungsträgern aus verschiedenen Bereichen
  • Klare Fragestellung / Zielsetzung und ständiger kritischer Austausch dazu

Data Science vereint Statistik, Informatik und Domain-spezifisches Wissen, daher gibt es in jedem Fach Fehlerquellen. Häufige Fehlerquellen sind zudem falsche oder fehlerhafte Daten, fehlende Expertisen/Kompetenzen-Mischung im Team oder keine klaren Fragen, die zu beantworten sind. In der IT gibt es aktuell sehr viele einfach zu nutzende Werkzeuge für Data Science, aber es ist eine Herausforderung für die vorliegende Fragestellung das geeignete Tool zu wählen. Auch ein bekanntes Problem in der Software Entwicklung ist, mehr Komplexität zu implementieren als zwingend notwendig. In der Statistik kann man zu sehr zusammenfassen, so dass das Ergebnis eine falsche Interpretation zu lässt. Beim Domain-spezifischen Experten-Wissen kann man schlicht von einer unzutreffenden Fragestellung ausgehen. Diese Stolpersteine gelten auch ausserhalb von Data Science Projekten.

In der Diskussion wurde die Frage gestellt, wie man Leuten begnegnet, die nicht datenbasiert entscheiden. Und zwar sollte man ganz langsam und vorsichtig auf sie eingehen und ernst nehmen. Durch den Dialog lernen beide Seiten. Auch kam die Frage auf, wie man das Heisenbergsche Prinzip begegnet, wo Menschen die transparenten Daten für ihre eigenen Ziele ändern (“game the system”). Wahrscheinlich sollte man pragmatisch handeln und trotzdem messen, oder vielleicht mit noch mehr Transparenz begegnen. Die Alternative dazu wäre gar nicht zu messen, aber dann fehlen die Entscheidungsgrundlagen.

Zusammenfassend wird klar: Um Data Science richtig einzusetzen, muss ein Unternehmen fähig sein, eine Brücke zwischen dem Ziel (zB Unternehmensstrategie) und den Möglichkeiten des Werkzeugs (Data Science) herzustellen. Nur dann kann Data Science unternehmenskritische Fragen beantworten, aus denen Strategien oder Handlungen abgeleitet werden können. Es gibt nicht wenige Beispiele, wo Unternehmen riesige Beträge für Data Science ausgeben, ohne das Verständnis, diese Mittel effektiv einzusetzen.

Wir sehen, dass eine stille Revolution im Gange ist, denn schlussendlich spielt die Unternehmenskultur eine wichtige Rolle. Ist man gewillt, an die Aussagekraft von Daten zu glauben und baut man darum eine transparente Firmenkultur auf, die Handlungen analysierbar und Erfolg und Misserfolg nachvollziehbar macht? Oder hat man lieber intransparente Prozesse wo Hierarchie und Politik den Ausschlag geben?

Liip Data Science Stack
Slides Thomas Ebermann
Slides Daniel Meister