Wozu sind all diese Daten gut?

Daten mögen das neue Öl sein, aber das macht ihre Sammlung nicht per se wertvoll. Unternehmen tun gut daran, sich an Goodharts Gesetz zu halten, um zu vermeiden, dass eine datengetriebene Denkweise ihre übergeordneten Ziele verfälscht.

Der britische Wirtschaftswissenschaftler Charles Goodhart prägte 1975 einen berühmten Ausspruch, um die britische Geldpolitik zu beschreiben. Goodharts Gesetz besagt, dass "jede beobachtete statistische Regelmäßigkeit dazu neigt, zusammenzubrechen, sobald sie zu Kontrollzwecken unter Druck gesetzt wird", wie er selbst sagte. Dankenswerterweise hat die Anthropologin Marilyn Strathern den Originaltext aus dem Ökonomischen in dieses prägnante Diktum übersetzt:

"Wenn eine Maßnahme zu einem Ziel wird, hört sie auf, eine gute Maßnahme zu sein."

Dieses Sprichwort ist heute wahrer als je zuvor. Die Kosten für die Datenerfassung sind in den letzten 15 Jahren drastisch gesunken, während die Speicher- und Verarbeitungskapazität von Computern im Einklang mit dem Mooreschen Gesetz explodiert ist. Goodharts ursprüngliche Erkenntnis ist in einer datengesteuerten Welt von enormer Bedeutung. Wenn gesammelte Daten für die Zuweisung von Strafen und Belohnungen verwendet werden, ist es wahrscheinlich, dass die aus diesen Daten gewonnenen Erkenntnisse überbewertet, irreführend oder betrügerisch sind. Und warum? Weil Menschen in Organisationen, wenn sie die Anreize dazu haben, auf die Erfassung von Kennzahlen auf eine Weise reagieren, die die Bedeutung der Kennzahlen grundlegend verändert.

DATEN AUS TESTS MIT HOHEN ANFORDERUNGEN

Ein berühmtes Beispiel aus jüngster Zeit für die Ersetzung von Verwaltungsentscheidungen durch standardisierte numerische Leistungskennzahlen oder für das, was Jerry Muller als "Metrikfixierung" bezeichnet, ist die Verwendung von "wertsteigernden" Tests für Lehrer- und Schulleistungen durch Schulsysteme. Diese Art von Tests gibt vor, die Effektivität des Inputs für die Leistung eines Schülers im Unterricht angemessen zu erfassen und gleichzeitig alle Faktoren zu berücksichtigen, die sich auf die Testleistung des Schülers auswirken und außerhalb der Kontrolle des Lehrers und der Schule liegen. Diese Praxis wird auch als "High-Stakes"-Tests bezeichnet, da die Verwaltungen in vielen Bezirken die Testergebnisse nutzen, um Mitarbeiter für Beförderungen, Gehaltserhöhungen und andere finanzielle Aufwendungen zu bewerten.

Trotz ihres datengesteuerten Charakters können diese Praktiken dazu dienen, den diagnostischen Wert von Tests für Lehrer und Schulen zu untergraben, wenn es darum geht, Lehrpläne, Unterrichtsstunden und die Aufteilung der Unterrichtszeit so zu gestalten, dass die Schüler besser gefördert werden. Wenn Einstellungsentscheidungen, Gehaltsanreize und andere Vergeltungsmaßnahmen an Testergebnisse geknüpft sind, besteht für Lehrer und Schulen ein klarer Anreiz, einen großen Teil oder sogar die Mehrheit der Unterrichtszeit auf die Vermittlung von Teststrategien statt auf den Fachstoff zu verwenden. Selbst innerhalb der Parameter des von den Tests abgedeckten Fachmaterials gehen die meisten Testfragen zugunsten leicht quantifizierbarer Fragen im Multiple-Choice-Stil an tieferen Konzepten vorbei. Diese Aktualität ist kurzfristig leicht zu messen (und zu bestrafen oder zu belohnen), geht aber auf Kosten des langfristigen Lernens: Die meisten Schülerinnen und Schüler vergessen Algebra und Geometrie innerhalb von fünf Jahren nach dem Abschluss der High School und fast die gesamte Mathematik, die sie innerhalb von 25 Jahren gelernt haben. Schlimmer noch, die Privilegierung von Tests mit hohen Anforderungen kann auch zu negativen Ergebnissen wie "Creaming" führen, der Praxis, bei der schwächere Schüler als behindert eingestuft werden, damit sie aus dem Pool der getesteten Schüler entfernt werden können, oder sogar zu offenem Betrug.

COMPSTAT-METRIKEN

Ein weiterer Bereich, in dem Belohnungen und Bestrafungen auf der Grundlage von Datenerhebungen institutionelle Anreize verzerrt und zu perversen Ergebnissen geführt haben, ist die Polizeiarbeit. Im Jahr 1994 führte das New York Police Department CompStat (kurz für Compare Statistics) ein, um Verbrechensmuster über GPS zu verfolgen. Das NYPD wollte die CompStat-Daten nutzen, um die knappen Polizeiressourcen anteilig auf die problematischsten Gebiete der Stadt zu verteilen. Das Programm war zunächst erfolgreich und trug dazu bei, die Gewaltverbrechensrate in New York Mitte der 1990er Jahre drastisch zu senken. Im Laufe der Zeit wurden die CompStat-Kennzahlen jedoch als Leistungsmaßstab bei Entscheidungen über die Bezahlung, Beförderung und Entlassung von Polizisten verwendet.

Schlimmer noch: Die Stadtregierung setzte die NYPD auf der Grundlage der CompStat-Daten immer stärker unter Druck, die Kriminalitätsrate zu senken. Die Anreize der NYPD, die Daten zu verfälschen, wurden offensichtlich. Die Behörde stufte entweder schwere Straftaten zu geringfügigen Vergehen herab, um die Hauptverbrechensrate zu senken, oder sie überprüfte geringfügige, leicht zu verhaftende Verstöße, um die Verhaftungsstatistiken nach oben zu treiben. Auf diese Weise wurden die Daten manipuliert, da jede Verhaftung, von einer geringfügigen Anklage wegen Drogenbesitzes bis hin zu einer größeren Verhaftung eines bekannten Gewaltverbrechers, in der CompStat-Statistik genau gleich gewichtet wurde. Wie bei dem Beispiel aus dem Bildungswesen wurde die Messung der Kriminalität selbst zu dem Objekt, an dem die Menschen den Erfolg oder Misserfolg der Polizei und der politischen Führung beurteilten. Diese Verschiebung untergrub unweigerlich das ursprüngliche Ziel von CompStat, das darin bestand, der NYPD mitzuteilen, in welchen Gebieten die Polizeiressourcen am dringendsten benötigt wurden.

MILITÄRISCHE UND POLITISCHE DATEN

Auch das Militär der Vereinigten Staaten ist dem Goodhart'schen Gesetz zum Opfer gefallen. Die Sammlung von Informationen durch das Militär kann für das Verständnis der weitreichenden Auswirkungen militärischer Interventionen von entscheidender Bedeutung sein. Gute Daten über die Einsatz- und Umweltbedingungen liefern auch wichtige Rückmeldungen darüber, welche Strategien und Taktiken in Konflikten mehr oder weniger effektiv sind. Wenn diese Daten jedoch zu den Maßstäben werden, nach denen die Kampfführung beurteilt wird, wird der Informationsgehalt dieser Daten durch die gleichen perversen Anreize untergraben, die dazu führen, dass Daten verzerrt werden, um günstige Werbe- oder Verwaltungsergebnisse zu erzielen.

Während des Vietnamkriegs war die Zahl der Toten eine solche Kennzahl. Die Zahl der vietnamesischen Toten war die wichtigste Statistik, die das Militär sammelte, da sie ein nützliches Mittel war, um die amerikanische Öffentlichkeit davon zu überzeugen, dass die USA die Oberhand hatten. Die Zahl der Toten war die von US-Verteidigungsminister Robert McNamara geschätzte Kennzahl, auch wenn die meisten Feldkommandeure ihr als Index für den Erfolg auf dem Schlachtfeld nicht trauten. Trotz ihrer Einwände spielte die Zahl der Toten bei Beförderungsentscheidungen und Militäraufträgen während des gesamten Konflikts eine große Rolle. Noch perverser war jedoch, dass amerikanische Soldaten manchmal getötet wurden, als sie versuchten, die vietnamesischen Verluste nach Schlachten zu quantifizieren, um die Zahl der Gefallenen zu erhöhen.

In seinem Buch The Pentagon and the Art of War (Das Pentagon und die Kunst des Krieges) vertrat Edward Luttwak die Ansicht, dass Statistiken wie die Zahl der Gefallenen, die Zahl der Gefechtsvorfälle und andere nicht-territoriale Maßstäbe für den militärischen Erfolg nutzlos sind, wenn es darum geht festzustellen, ob Kampagnen letztendlich erfolgreich waren. Die einzigen Variablen, die für den militärischen Sieg von Bedeutung seien, seien nicht messbar, da es unmöglich sei, die Kampfbereitschaft des Gegners zu quantifizieren, so Luttwak. Er sagte weiter, dass die Konzentration auf die kurzfristige Quantifizierung militärischer Messgrößen auf Kosten des für den Sieg erforderlichen langfristigen strategischen Denkens gehe.

Ein weiterer Bereich, in dem die kurzfristige Fixierung auf Maßstäbe den langfristigen (und häufig unmöglich zu quantifizierenden) Erfolg untergräbt, ist die internationale Entwicklung. Programme, die am ehesten den Löwenanteil der Auslandshilfe erhalten, sind diejenigen, die sich am leichtesten von Überwachungsbehörden wie dem U.S. Office of Management and Budget oder dem Government Accounting Office analysieren lassen. Dies gilt trotz der Tatsache, dass Programme mit leicht quantifizierbaren Ergebnissen in der Gegenwart langfristig am wenigsten effektiv sind. Wenn es um Themen wie die Verbesserung der Regierungsfähigkeiten in Übergangsdemokratien oder die Schaffung von Bürgervertrauen und Normen für den öffentlichen Dienst in skeptischen Bevölkerungsgruppen geht, ist es einfach nicht realistisch, gute statistische Messwerte über den Fortschritt im Laufe einiger Monate oder Jahre zu erwarten. Aus diesem Grund vergeuden Hilfsorganisationen wie die U.S. Agency for International Development knappe Ressourcen mit der Erhebung und Verbreitung sinnloser Kennzahlen wie der Zahl der von Mitarbeitern absolvierten Schulungen oder der Zahl der Konferenzen, an denen Mitarbeiter von Hilfsorganisationen teilnehmen, um ihre jährliche Finanzierung zu rechtfertigen. Diese Zeit- und Geldverschwendung geht auf Kosten längerfristiger, effektiverer Strategien zur Förderung der weltweiten Entwicklung.

Das Goodhartsche Gesetz wirkt sich auch auf die Nachfrageseite der Auslandshilfe aus. Die Entwicklungsländer wissen, dass die finanzielle Unterstützung häufig an makroökonomische Ergebnisse gebunden ist. Für diese Länder besteht daher ein klarer Anreiz, statistische Indikatoren wie das Pro-Kopf-Bruttonationaleinkommen (BNE), die Bevölkerungszahl, ausländische Direktinvestitionen und andere Messgrößen, die von den Vereinten Nationen und anderen internationalen Gremien bei der Entscheidung über die Verteilung der Hilfe verwendet werden, zu verfälschen.

Die Forscher fanden heraus, dass genau dieses Muster der "Datenverwaltung für Hilfsmaßnahmen" bei den Pro-Kopf-BNE-Zahlen von Ländern auftrat, die für eine Unterstützung durch die Weltbank in Frage kamen. Die Forscher analysierten die Diskrepanzen zwischen den online veröffentlichten Daten der Länder und den gedruckten Ausgaben der BNE-Zahlen derselben Länder in denselben Zeiträumen. Da elektronische Daten von den nationalen statistischen Ämtern viel leichter revidiert werden können, traten Diskrepanzen zwischen den BNE-Zahlen im gedruckten Weltbank-Atlas und den aktuelleren Online-Daten nur in den Ländern auf, die sich zum Zeitpunkt der Antragstellung genau an der Schwelle für den Erhalt von Weltbankmitteln befanden. Nachdem die Weltbank die Beihilfeanträge für diese Länder bearbeitet hatte, verschwanden die Diskrepanzen.

DATEN UND WISSENSCHAFT

Wenn die Falschmeldung von Ergebnissen stark von Belohnungsversprechen beeinflusst wird, ist die wissenschaftliche Forschung ein weiteres Opfer von Goodharts Gesetz. In der Tat ist das gesamte Problem der Replikationskrise in den meisten Bereichen der empirischen akademischen Forschung zu einem nicht geringen Teil auf dieses Gesetz zurückzuführen. Die berüchtigtsten Beispiele für die Fixierung von Forschern und Zeitschriften, die ihre Arbeiten veröffentlichen, sind der "h-Index" bzw. der "Journal Impact Factor". Beide Indizes geben vor, die Gesamtwirkung empirischer Arbeiten auf ihr Wissensgebiet zu messen. Beide Indizes beruhen jedoch auf der Anzahl der Zitate und dem Umfang der Veröffentlichungen von Forschern und Herausgebern. Sowohl der h-Index als auch der Zeitschriften-Impact-Faktor schaffen konstruktionsbedingt Anreize für wissenschaftliche Forscher, Forschungsarbeiten zu begraben, die keine Ergebnisse zeigen oder die wahrscheinlich dem vorherrschenden Konsens entsprechen. Ebenso besteht kein Anreiz, die Ergebnisse anderer wissenschaftlicher Forschung zu wiederholen oder zu reproduzieren. Gute Wissenschaft ist auf Replikationen angewiesen, um neue Ergebnisse im Laufe der Zeit zu bestätigen, wenn mehr Informationen zur Verfügung stehen, aber Replikationsstudien haben keine oder nur minimale Auswirkungen auf h-Indizes und Impact-Faktoren im Vergleich zu neuen, auffälligen Erkenntnissen, die zwar zweifelhaft sind, aber gegen den aktuellen Konsens verstoßen.

Richard McElreath und Paul Smaldino bezeichnen dieses Phänomen als die "natürliche Selektion schlechter Wissenschaft". Sie fanden heraus, dass Anreize für die Menge der Ergebnisse gegenüber der Qualität der Ergebnisse zu Forschung mit abnehmender Qualität und hohen Falschentdeckungsraten führen. Auch Stuart Ritchie zeigt in seinem Buch Science Fictions auf, wie falsch ausgerichtete Metriken in Verbindung mit institutionellen Anreizen, die eine schlechte Qualität der wissenschaftlichen Forschung begünstigen, das öffentliche Vertrauen untergraben, auf dem die wissenschaftliche Forschung beruht. Ritchie weist darauf hin, dass Wissenschaftler und Zeitschriften aufgrund der Zitations- und Veröffentlichungszahlen, auf denen sowohl die h-Indizes als auch die Impact-Faktoren der Zeitschriften basieren, unter dem Druck stehen, Zitationsringe zu bilden, in denen die Arbeiten der jeweils anderen unabhängig von ihrer Qualität ständig zitiert werden.

DIE BEDEUTUNG VON BIG DATA

Wie all diese Fälle zeigen, können Daten selbst mit den besten Absichten bis zur Unbrauchbarkeit manipuliert werden, wenn sie zu ihrem eigenen Zweck werden. Bei der Erhebung von Daten oder der Erstellung von Metriken ist es daher von entscheidender Bedeutung, eine Reihe von Fragen darüber zu stellen, wie und warum diese Messwerte möglicherweise irreführend sein könnten, aber auch, wie sie aufschlussreich sein könnten. Jerry Muller schlägt in seinem Buch The Tyranny of Metrics eine Reihe von wichtigen Fragen vor. Im Mittelpunkt dieser Checkliste steht die Frage nach der Nützlichkeit der gesammelten Informationen im Kontext des Umfelds, in dem sie erhoben werden sollen. Insbesondere erwähnt er die Frage, wie die Menschen in einer Organisation, die gemessen werden sollen, auf diese Messung reagieren könnten. Diese Frage ist umso wichtiger, wenn Belohnung und Bestrafung direkt mit den Messwerten verbunden sind. In diesem Sinne ist es auch wichtig, sich zu überlegen, wer die Messgrößen entwickelt und zu welchem Zweck sie erhoben werden.

Metriken sind am nützlichsten in Situationen mit geringem Risiko, in denen sie von Praktikern verwendet werden, um zu erhellen, welche groß angelegten Prozesse am Werk sein könnten, oder um Erkenntnisse über Prozessverbesserungen zu gewinnen. Es ist auch von entscheidender Bedeutung, die sekundären Auswirkungen von Messungen innerhalb von Organisationen zu berücksichtigen. Eine Konzentration auf kurzfristige Messungen kann auf Kosten langfristiger Ziele gehen. Fazit: Wenn Messgrößen mit institutionellen Anreizen zur Verzerrung, Falschdarstellung oder Verfälschung verwoben werden, um Belohnungen zu erhalten oder Strafen zu vermeiden, müssen Organisationen den zeitlosen Rat von Charles Goodhart beherzigen.