Verschwendest du Geld für Big Data?

Verschwendest du Geld für Big Data?

Die Verbreitung von KI-Lösungen hat Big Data in aller Munde gebracht, aber Sie können wahrscheinlich einen weniger kostspieligen Weg finden, um nützliche, umsetzbare Erkenntnisse zu gewinnen.

Im vergangenen Oktober verlieh die Bank von Schweden ihren jährlichen Preis für Wirtschaftswissenschaften im Gedenken an Alfred Nobel an drei US-amerikanische Wirtschaftswissenschaftler für ihre Beiträge zur Arbeitswirtschaft und Ökonometrie. Joshua Angrist, Guido Imbens und David Card sind zugegebenermaßen für die meisten Datenexperten keine bekannten Namen. Aber das wichtigste Thema der Arbeit dieser drei Ökonomen (und das ihres häufigen Mitarbeiters Alan Krueger, der den Preis sicherlich auch erhalten hätte, wenn er nicht 2019 auf tragische Weise ums Leben gekommen wäre) dürfte bekannt sein. Sie haben gezeigt, dass statistische Analysen Schätzungen der kausalen Erklärungen hinter den Mustern in den Daten liefern können.

Diese vier Forscher haben im Wesentlichen die "Glaubwürdigkeitsrevolution" in der Ökonometrie eingeleitet. Das Hauptaugenmerk dieser Bewegung lag auf der Frage, wie empirische Forschung am besten gestaltet werden kann, um mithilfe statistischer Daten kausale Erklärungen zu finden. Ihre Arbeit zum Forschungsdesign lieferte nicht nur Einblicke in die Gründe für das Auftreten verschiedener Dinge, sondern bietet auch eine Alternative zum derzeitigen Trend, riesige Mengen unterschiedlicher Daten zu sammeln, um Algorithmen zu trainieren, die die für die Regelmäßigkeiten der Daten verantwortlichen Faktoren herausfiltern.

Diese Alternative bietet eine besonders praktikable Methode zur Beantwortung entscheidungsrelevanter Fragen im Verhältnis zu den Kosten für die Einrichtung einer Big-Data-Infrastruktur. Führt ein Wechsel des Anbieters von 401k zu Änderungen bei der Altersvorsorge der Mitarbeiter? Welches Website-Design führt zu mehr Online-Käufen? Welche Arten von nicht-monetären Leistungen helfen am besten, die Mitarbeiterfluktuation zu verringern?

Diese und viele andere Fragen erfordern keine datenwissenschaftlichen Methoden, um empirische Erkenntnisse zu gewinnen. Vielmehr kann eine gut durchdachte Forschung, die auf experimentellem Denken basiert, aussagekräftige Erkenntnisse zu geringeren Kosten liefern.

DIE GLAUBWÜRDIGKEITSREVOLUTION UND EXPERIMENTELLES DESIGN

Das Hauptaugenmerk der Glaubwürdigkeitsrevolution liegt auf der Frage, wie empirische Forschung am besten gestaltet werden kann, um kausale Erklärungen mit Hilfe statistischer Daten zu finden. Ihre Arbeit zum Forschungsdesign hat nicht nur Aufschluss darüber gegeben, warum verschiedene Dinge auftreten können, sondern auch eine Alternative zu dem derzeitigen Trend vorgeschlagen, riesige Mengen unterschiedlicher Daten zu sammeln, um Algorithmen zu trainieren, die die für Datenregelmäßigkeiten verantwortlichen Faktoren herausfiltern sollen.

Datenanalyse wird teuer

Viele Unternehmen unterschätzen einfach die Kosten für den Auf- oder Ausbau ihrer Data-Science- und KI-Fähigkeiten. Ihr häufiger Fehler ist die Annahme, dass Daten, die für Finanz- oder andere Compliance-Reporting-Prozesse gesammelt und verbreitet werden, einfach erweitert werden können, um Datensätze zu generieren, die groß genug sind, um KI-basierte Algorithmen für prädiktive Inferenzen zu trainieren.

Diese Art der gegenseitigen Befruchtung ist in der Regel unmöglich. Daten, die für Compliance- oder Berichtszwecke gesammelt werden, sind in der Regel auf die Abteilung oder den Geschäftsbereich zugeschnitten, die/der sie benötigt. Daten, die für KI-gestützte Analysen gesammelt werden, erfordern dagegen eine allgemeine Hierarchie der erforderlichen Komponenten für die regelmäßige, unternehmensweite oder sogar unternehmensexterne Datenerfassung, -verarbeitung und -verbreitung. Es müssen nicht nur Daten in verschiedenen Teilen eines Unternehmens gesammelt und strukturiert werden, sondern auch Daten von außerhalb des Unternehmens (z. B. Volkszählungszahlen, Arbeitslosenstatistiken oder andere bundesweite, staatliche oder lokale Kennzahlen) gesammelt, aktualisiert und zusammengestellt werden, damit sie in die unternehmensspezifische Datenarchitektur passen.

Darüber hinaus müssen diese Daten speziell für die Verwendung bei prädiktiven Schlussfolgerungen und nicht für die Endverwendung in einem Dashboard oder einer Excel-Tabelle konzipiert sein. All dies bedeutet, dass jeder Teil dieser Hierarchie von KI-Anforderungen seine eigenen Herausforderungen mit sich bringt. Selbst für die datenversiertesten Unternehmen kann es schwierig sein, diese Herausforderungen effizient und kostengünstig zu meistern.

Und selbst wenn es den Unternehmen gelingt, ihre Datenerfassungsprozesse so weit zu rationalisieren und zu skalieren, dass sie mit Hilfe von Big Data zu regulierten Schätzungen und Vorhersagen gelangen, könnten sie sich durch die Qualität der ursprünglichen Methoden, mit denen die Daten gesammelt wurden, eingeschränkt sehen. Eine schlechte Datenqualität lässt sich nicht durch das Sammeln weiterer Daten von schlechter Qualität überwinden. Verzerrte Stichproben, schlecht definierte Metriken und falsch oder unangemessen angewandte Methoden sind alles Probleme, die sich nicht allein durch eine funktionierende Datenproduktionspipeline lösen lassen.

Experimentieren ohne Big Data

Unsere Glaubwürdigkeitsrevolutionäre können dazu beitragen, eine Alternative zu diesen groß angelegten, schwer zu implementierenden Datenprozessen zu schaffen. Auch wenn die Einrichtung einer entsprechenden Datenerfassungsarchitektur zur Unterstützung von Big-Data-Erkenntnissen kurzfristig (oder überhaupt) nicht machbar ist, sollten Unternehmen ihre Fähigkeit, empirische Daten zu sammeln und glaubwürdige Erkenntnisse zu gewinnen, nicht abschreiben. Die diesjährigen Nobelpreisträger wurden nicht zuletzt deshalb ausgezeichnet, weil sie herausgefunden haben, wie störende Zufallsereignisse die zufällige klinische Zuordnung von Patienten zu Behandlungs- und Kontrollgruppen imitieren können.

Natürlich lässt sich ein zufälliges, störendes Ereignis nicht im Voraus planen. Aber aufgrund des idiosynkratischen Charakters dieser Ereignisse (Beispiele hierfür sind Pandemien, Kriege, Terroranschläge oder Naturkatastrophen) wirken die unterschiedlichen Auswirkungen, die Gruppen von Menschen aufgrund ihrer Exposition gegenüber dem Ereignis verspüren, wie ein gesellschaftsweiter Mechanismus der zufälligen Zuteilung, ähnlich wie bei klinischen Studien. Der Schlüssel zur Klärung von Kausalfragen ist der Vergleich des Verhaltens ähnlicher Personengruppen vor und nach dem Ereignis. Dieser Ansatz beruht auf der Annahme, dass diese Quasi-Behandlungs- und Quasi-Kontrollgruppen ohne das Ereignis ähnliche Ergebnisse erzielt hätten wie vor der Störung.

Ein klassisches Problem in der sozialwissenschaftlichen Forschung ist die Wechselwirkung zwischen der Anzahl der in einem bestimmten Gebiet eingesetzten Polizeibeamten und der Entwicklung der Kriminalitätsrate in diesem Gebiet, um diese Methoden in einen Zusammenhang zu stellen. Die Schwierigkeit, herauszufinden, ob sich die Polizeipräsenz auf die Kriminalität auswirkt, ergibt sich daraus, dass die Zuweisung von mehr Polizeibeamten in einem Gebiet als Reaktion auf erhöhte Kriminalitätsraten in diesem Bereich erfolgen könnte. Würde ein Forscher in diesem Fall einfach eine statistische Analyse der Zunahme der Polizeipräsenz auf die Kriminalitätsrate durchführen, wäre die Korrelation zwischen den beiden Variablen positiv.

Der kausale Zusammenhang wird durch die statistische Analyse jedoch eher verschleiert als geklärt. Die positive Korrelation deutet darauf hin, dass die Aufstockung der Polizei einen Anstieg und nicht einen Rückgang der Kriminalität verursacht hat. Dies ist nicht nur irreführend, sondern beantwortet auch die falsche Frage, nämlich: Was geschah, nachdem die Polizei neu eingesetzt wurde? Die richtige Frage für die Schätzung eines direkten Effekts ist, was mit den Kriminalitätsraten geschehen wäre, wenn die Polizei nicht versetzt worden wäre.

Natürliches Experimentieren

Zwei Wirtschaftswissenschaftler versuchten, die letztgenannte Frage zu beantworten, indem sie ein natürliches, störendes Ereignis als Stellvertreter für die zufällige Zuweisung von mehr Polizeistreifen behandelten. Jonathan Klick und Alex Tabarrok argumentierten, dass Änderungen im Homeland Security Advisory System (HSAS), dem farbcodierten Darstellungsschema, mit dem die Behörden über die Bedrohung durch Terroranschläge informiert werden, genau ein solches störendes Ereignis für die Polizeipräsenz darstellen. Sie schätzten, dass der Anstieg der Polizeipräsenz aufgrund der Erhöhung der HSAS-Bedrohungsstufe - ein Anstieg, der nicht mit den örtlichen Kriminalitätsraten zusammenhing - dennoch zu einem Rückgang der Kriminalitätsraten führte. Indem sie sich diese zufälligen Zu- und Abnahmen der Wahrscheinlichkeit von Terroranschlägen zunutze machten (zufällig in dem Sinne, dass niemand vorhersagen konnte, wann sie eintreten würden), konnten Klick und Tabarrok die zirkuläre Logik des "Henne-Ei"-Problems von Polizei und Kriminalitätsrate durchbrechen und den direkten Effekt aufzeigen, dass eine Erhöhung der Polizeipatrouillen zu einem Rückgang der Kriminalitätsrate in den betroffenen Gebieten führte.

David Card, einer der diesjährigen Preisträger, lieferte ein weiteres Beispiel für die Verwendung eines "natürlichen Experiments", um die wirtschaftlichen Ergebnisse zu beleuchten. Card untersuchte die Auswirkungen auf Löhne und Arbeitslosigkeit nach der Mariel-Bootstour von 1980, die mit Fidel Castros Ankündigung vom 20. April 1980 begann, dass alle Kubaner, die das Land verlassen wollten, dies per Boot im kubanischen Hafen von Mariel tun konnten. Über 120.000 Kubaner wanderten aus, von denen sich 60.000 zwischen Mai und September 1980 in Miami niederließen. Dieser plötzliche Zustrom von zumeist gering qualifizierten jungen Männern stellte, so Card, ein natürliches Experiment dar, denn obwohl die Bootsflucht in keiner Weise mit den Arbeitsmarktbedingungen in Miami zusammenhing, hätte sie dennoch enorme Auswirkungen auf die Arbeitskräfte in Miami haben müssen.

Die Wirtschaftstheorie besagt, dass ein plötzlicher Anstieg des Arbeitskräfteangebots ohne einen entsprechenden Anstieg der Nachfrage nach Arbeitskräften zu niedrigeren Löhnen und höherer Arbeitslosigkeit führen sollte, da neue Arbeitskräfte darum kämpfen, eine abnehmende Zahl von bestehenden Arbeitsplätzen zu besetzen. Diese Auswirkungen wären besonders akut bei Arbeitsplätzen, die gering qualifizierte junge Männer beschäftigen, und vor allem bei nichtkubanischen Arbeitnehmern, die denselben demografischen Kategorien angehören wie die Mariel-Emigranten.

Card verglich die Lohn- und Arbeitslosenquoten in Miami von 1979 bis 1985. Er verglich diese Raten auch mit identischen demografischen Gruppen von Arbeitnehmern in einer Auswahl anderer amerikanischer Städte, die keine Auswirkungen des Flüchtlingszustroms auf den Arbeitsmarkt erlebten. Die Ergebnisse von Card waren insofern schockierend, als sich die Lohn- und Arbeitslosigkeitstrends in Miami vor und nach der Ankunft der Mariel-Flüchtlinge kaum von denen in anderen Städten unterschieden. Card nannte mehrere mögliche Gründe für das Ausbleiben eines starken Effekts. Die nachhaltige Wirkung von Cards Arbeit besteht jedoch darin, dass er Pionierarbeit geleistet hat, indem er Überlegungen darüber anstellte, wie man natürlich auftretende Ereignisse in einer quasi-experimentellen Weise nutzen kann, um die Ursachen möglicher Auswirkungen zu untersuchen.

Gute Versuchsprotokolle

Ob es sich nun um eine politische Flüchtlingssituation, eine Änderung des Schulpflichtalters oder die räumliche Nähe von Arbeitsmärkten mit unterschiedlichen Mindestlohngesetzen handelt, die Identifizierung von Zufallsquellen, die eine zufällige Zuweisung in klinischen Studien annähernd nachahmen können, stellt eine hervorragende Möglichkeit dar, vermeintlich kausale Effekte zu quantifizieren.

Natürliche experimentelle Methoden haben jedoch ihren Preis. Sie beruhen auf der Annahme, dass die zu schätzenden Effekte durch den natürlichen Prozess innerhalb von Populationen tatsächlich randomisiert wurden. Die explizite Randomisierung, die vor klinischen Studien durchgeführt wird, wird durch diese Annahme ersetzt, und es gibt keine statistische Methode, mit der sichergestellt werden kann, dass diese Annahme zutrifft.

Im Fall der Polizeiarbeit besteht diese Annahme darin, dass ein Anstieg der farblich gekennzeichneten HSAS nicht mit einem Anstieg der Kriminalitätsrate im District of Columbia verbunden ist. Im Fall der Mariel-Bootstransporte wird angenommen, dass die Arbeiter in Miami vor 1980 nicht mit den Mariel-Emigranten in Verbindung stehen. Beide Beispiele verdeutlichen, dass diese Annahmen zur Bestimmung der kausalen Auswirkungen diskutiert werden können und sollten.

Was wäre zum Beispiel, wenn die Stadtpolizei von DC enge Beziehungen zu den U.S. Marshals, zum Personal des Heimatschutzministeriums oder zu Mitgliedern der Streitkräfte im Pentagon unterhält? Was ist, wenn die kubanische Bevölkerung von Miami familiäre oder finanzielle Beziehungen zu politischen Flüchtlingen unterhält, die versuchen, Kuba zu verlassen und Arbeit zu finden? Das Ausmaß, in dem die natürliche Zuordnung der Gruppen zu den Bedingungen nicht zufällig ist, wird sich in einer erhöhten Wahrscheinlichkeit widerspiegeln, dass die statistischen Schätzungen verwirrt sind und den vorgeschlagenen kausalen Effekt untergraben.

Eigene Experimente erstellen

Dennoch gibt es eine klare Möglichkeit für Unternehmen, die die Auswirkungen verschiedener Maßnahmen, die sie ergreifen können, quantifizieren möchten. Die Annahmen der natürlichen Randomisierung, auf die sich quasi-experimentelle Methoden stützen, können umgangen werden, wenn Unternehmen mit ihren eigenen Geschäftsprozessen nach dem Zufallsprinzip experimentieren können. Dabei werden verschiedene Gruppen von Einzelpersonen nach dem Zufallsprinzip verschiedenen Behandlungen und Kontrollen zugewiesen.

Um z. B. die Auswirkungen verschiedener Vermarktungsmethoden für ein neues Produkt auf den Umsatz zu schätzen, könnte ein Unternehmen nach dem Zufallsprinzip verschiedene Werbeformate für bekannte Kunden, für verschiedene Märkte oder für verschiedene Standorte innerhalb der Märkte zuweisen. Man muss nicht mehr davon ausgehen, dass die Zuweisung zufällig erfolgte, weil das Unternehmen sein eigenes Experiment aktiv gestaltet hat, indem es bestimmte Behandlungs- und Kontrollbedingungen zugewiesen hat, als wäre es der Arzt in einer medizinischen Studie.

Dies entspricht nicht ganz dem Goldstandard einer tatsächlichen klinischen Studie, da die Kunden auf den Märkten keine Gruppen in Laborumgebungen sind, in denen mildernde Faktoren genau kontrolliert werden können. Die Kunden können auch an andere Unternehmen oder Märkte verloren gehen, und die Personen, die den Behandlungs- und Kontrollgruppen zugewiesen werden, sind möglicherweise nie bekannt, z. B. wenn sowohl Behandlungs- als auch Kontrollgruppen geografische Gebiete oder Ladenstandorte umfassen.

Dennoch sind zuverlässige Schlussfolgerungen möglich, da die Industrie und die Unternehmen ihre eigenen Prozesse kontrollieren können. Obwohl es sich also nicht um eine Zufallsstudie handelt, können kleine Experimente mit zufälliger Zuweisung tiefere und verlässlichere Einblicke liefern, als dies selbst mit natürlichen experimentellen Methoden möglich ist.

Verlassen Sie sich nicht allein auf Daten

Anstatt vermehrt in eine neue Dateninfrastruktur zu investieren oder zu versuchen, unterschiedliche Datensysteme, deren inkompatible Designs unterschiedlichen Unternehmenszwecken dienen, zusammenzufügen, kann es sich lohnen (im Hinblick auf die aufgewendeten Gelder und Arbeitsstunden sowie auf potenzielle Systemfehler), genau darüber nachzudenken, wie man Tests der zugrunde liegenden Prozesse konzipiert, um potenzielle kausale Effekte herauszufinden. Unabhängig davon, ob man davon ausgeht, dass eine plötzliche Veränderung in der Politik oder im Prozess ein Quasi-Experiment zur Schätzung der Ergebnisse oder ein intern konzipiertes randomisiertes Experiment darstellt, können die potenziellen Vorteile einer besseren Schätzungsqualität und einer kausalen Erklärung dafür, warum etwas aufgetreten ist, die Nachteile des Versuchs, KI-basierte Lösungen einzuführen, wenn diese entweder zu kostspielig oder schlichtweg unmöglich zu implementieren sind, überwiegen.

Mehr Aufmerksamkeit für die potenziellen Ursachen von Effekten, die Planung von Experimenten zu ihrer Ermittlung und die potenziellen Vor- und Nachteile für die Geschäftsprozesse, die sich aus der Durchführung dieser kleinen Experimente ergeben, können wertvolle Erkenntnisse zu den Kosten liefern. Wenn man weiß, was was verursacht hat, kann man natürlich auch darüber nachdenken, welche Prozesse mehr oder weniger effektiv sind. Die meisten algorithmischen Big-Data-Schätzungen sind eine "Black Box" und ausschließlich prädiktiv. Sie können keine Fragen darüber beantworten, wie und warum Dinge entstehen.

Das Denken in Experimenten, sei es das zufällige Abschalten der Ausgaben eines Marketingkanals, die Zuweisung verschiedener Zeiterfassungssysteme an eine zufällige Untergruppe von Arbeitsplätzen oder der Vergleich der Krankheitszeiten von Arbeitnehmern in verschiedenen Staaten mit unterschiedlichen Urlaubsregelungen, kann den Entscheidungsträgern relevante Erkenntnisse liefern, die ihnen auch Gründe für ihre Entscheidungen liefern.

Außerdem hat die KI (noch) keinen Nobelpreis gewonnen.

Das könnte dich auch interessieren