Crayon
Fair AI
Description
Annalisa Cadonna von Crayon redet in ihrem devjobs.at TechTalk über den unachtsamen Umgang mit AI und welche Verantwortung bei Data Scientists liegt um faire AI Modelle zu schaffen.
Beim Videoaufruf stimmst Du der Datenübermittlung an YouTube und der Datenschutzerklärung zu.
Video Zusammenfassung
In Fair AI zeigt Annalisa Cadonna (Crayon), wie gesellschaftliche, technische, Monitoring- und rechtliche Hürden zu Bias in KI führen, veranschaulicht durch Beispiele aus der Arbeitsvermittlung und einem COVID-19-Notenalgorithmus, der benachteiligte Schüler schlechter stellte und verworfen wurde. Sie skizziert einen umsetzbaren Prozess: Diskriminierungspotenziale mit Stakeholdern identifizieren, Daten und Modelle auditieren, Fairness über Pre-/In-/Post-Processing herstellen und Fairnessmetriken kontinuierlich neben AUC/Precision/Recall überwachen. Cadonna definiert Demographic Parity und fehlerbalancierte Metriken und verweist auf Toolkits wie IBM AIF360 und Microsoft Fairlearn; so können Teams fairere Modelle bauen, Vertrauen stärken und sich auf kommende rechtliche Anforderungen vorbereiten.
Fair AI bei Crayon: Wie Annalisa Cadonna systematische Verzerrungen erkennt, misst und mindert
Kontext: Warum „Fair AI“ jetzt zur Ingenieursaufgabe wird
In ihrer Session „Fair AI“ zeigte Annalisa Cadonna (Senior Data Scientist, Crayon) eine klare, praxisnahe Route durch ein Thema, das längst nicht mehr nur ethische Leitbilder betrifft, sondern harte Ingenieursentscheidungen: Wie erkennen, messen und mindern wir Verzerrungen (Bias) in datengetriebenen Systemen? Die Perspektive ist konsequent technisch gedacht – mit konkreten Schritten, Metriken und Werkzeugen – und zugleich verankert in Verantwortung und Wirkung.
Cadonna ordnet den aktuellen Auftrieb der künstlichen Intelligenz in drei Treiber ein: große Datenmengen, Cloud-Technologien mit breiter Verfügbarkeit von Rechenressourcen sowie methodische Fortschritte (insbesondere im Sprach- und Bildverstehen). Genau diese Breite des Einsatzes – vom Sprachassistenten bis zur Bank-App – erhöht den Druck, Fairness nicht als nachgelagertes „Nice-to-have“, sondern als integralen Bestandteil des gesamten AI-Lebenszyklus zu behandeln. Der Grundton: Wenn AI in Alltagsentscheidungen und öffentliche Dienste hineinwirkt, trägt das Engineering Team Verantwortung für Transparenz, Messbarkeit und bewusste Trade-offs.
Kerneinsicht: Fairness ist keine singuläre Kennzahl und kein einmaliger Projektpunkt. Sie ist ein Prozess – vor, während und nach dem Modelltraining – der Technik, Stakeholder-Dialog, Monitoring und rechtliche Anforderungen verbindet.
Zwei Fallstudien: Wenn historische Muster zu systematischer Benachteiligung werden
Cadonna eröffnet mit zwei Beispielen, die zeigen, wie schnell AI-gestützte Entscheidungen gesellschaftliche Verzerrungen aus historischen Daten übernehmen und verstärken können.
1) Öffentlicher Arbeitsvermittlungsdienst (RIMS) in Ostia
Ein öffentlicher Arbeitsvermittlungsdienst in Ostia („RIMS“) nutzte ein logistisch-regressives Modell, um die Erfolgswahrscheinlichkeit einzelner Arbeitssuchender einzuschätzen. Auf Basis dieser Wahrscheinlichkeit wurden die Personen in Gruppen eingeteilt, um Ressourcen zu verteilen: Hohe Erfolgswahrscheinlichkeit (braucht wenig Unterstützung), niedrige (Unterstützung sei „vergeudet“) und ein mittleres Segment, auf das man fokussierte.
Problem: Das Modell arbeitete auf historischen Daten – und damit auf verankerten gesellschaftlichen Verzerrungen. Gruppen, die historisch benachteiligt waren, erschienen im Modell als „weniger erfolgsversprechend“, obwohl alle anderen Merkmale vergleichbar waren. Cadonna nennt exemplarisch Frauen, ältere Menschen oder Nicht-EU-Bürgerinnen und -Bürger. Der Effekt war eine algorithmische Verstärkung bestehender Ungleichheiten – exakt das, was Fairness-Maßnahmen verhindern sollen.
2) Algorithmische Benotung während der COVID-19-Pandemie
Während der Pandemie konnten Abschlussprüfungen nicht regulär stattfinden. Ein Algorithmus wurde eingeführt, um Abschlussnoten zu prognostizieren – basierend auf bisherigen Schülerleistungen, aber auch auf Daten der besuchten Schulen. Das Ergebnis: Schülerinnen und Schüler öffentlicher Schulen, besonders in benachteiligten Bezirken, erhielten systematisch niedrigere Noten als von ihren Lehrkräften prognostiziert; private bzw. „gute“ Schulen wurden begünstigt. In der Europäischen Union wurde diese algorithmische Benotung schließlich nicht eingesetzt.
Diese Beispiele zeigen die Mechanik hinter algorithmischer Benachteiligung: Modelle lernen aus historischen Mustern, auch aus den problematischen. Wird das nicht erkannt und gegengesteuert, geraten gerade öffentliche oder großflächige Anwendungen auf eine unfaire Bahn – mit realen Konsequenzen für Betroffene.
Vier zentrale Hürden: Gesellschaft, Technik, Monitoring und Recht
Cadonna strukturiert die praktischen Herausforderungen in vier Kategorien, die wir als Engineering-Guideline für Fair-AI-Projekte mitnehmen.
1) Gesellschaftliche Dimension
- Verstehen, wie eine AI-Entscheidung das Leben von Menschen beeinflusst.
- Betroffene und Stakeholder einbeziehen: Wer sind Nutzerinnen und Nutzer? Wer sind die indirekt Betroffenen? Welche Gruppen tragen das Risiko für Fehlentscheidungen?
- Kontext klären: Welche historischen, strukturellen Verzerrungen spiegeln sich in den Daten wider?
2) Technische Dimension
- Daten prüfen: Sind die Trainingsdaten unausgewogen oder historisch verzerrt?
- Modellverhalten analysieren: Verstärkt das Modell vorhandene Verzerrungen? Welche Kennzahlen zeigen das?
- Trade-offs erkennen: Eine Verbesserung der Fairness kann die reine Modellleistung (z. B. AUC, Präzision, Recall) reduzieren. Der Umgang damit ist eine bewusste Designentscheidung, keine Nebensache.
3) Monitoring
- Fairness-Metriken gehören in das kontinuierliche Monitoring – gleichberechtigt zu Business- und Performance-Kennzahlen.
- Daten- und Konzeptdrift betreffen auch Fairness. Modelle können im Betrieb fair starten und später ins Ungleichgewicht geraten – Monitoring fängt diese Effekte auf.
4) Rechtliche Anforderungen
- Je stärker AI individuelle Lebenswege beeinflusst, desto enger ist der gesetzliche Rahmen.
- Regionale und internationale Regulierung ist relevant – Cadonna verweist konkret auf die von der Europäischen Kommission im April vorgelegte AI-Regulierungsinitiative. Wer Fairness systematisch mitdenkt, ist regulatorisch besser vorbereitet.
Crayons Ansatz: Fair by Design über den gesamten AI-Lebenszyklus
Crayon beteiligt sich an „Fair by Design“, einem Kooperationsprojekt mit Universitäten und Unternehmen, gefördert von der österreichischen Innovationsagentur FFG. Das Ziel: neueste Forschung in praxistaugliche Fair-AI-Lösungen überführen – nicht nur im Training, sondern davor und danach.
Cadonna fasst das Vorgehen in vier Hauptschritte:
1) Potenzial für Diskriminierung identifizieren
- Kontinuierliche Kommunikation mit Business, Fachexperten und Stakeholdern.
- Konkrete Fragen stellen: Wo entstehen Entscheidungen, die Menschen betreffen? Welche Attribute könnten sensible Gruppen kennzeichnen? Wo könnte indirekte Diskriminierung auftauchen (z. B. über Proxy-Variablen)?
2) Daten und Modelle auf Fairness prüfen
- Datensichtung: Repräsentativität, Balance, Datenqualität, historischer Kontext.
- Fairness-Audit am Modell: neben klassischen Leistungskennzahlen immer auch Fairness-Kennzahlen erheben.
3) Fairness sicherstellen (Bias-Minderung)
- Vorverarbeitung (Preprocessing): Transformieren, ausbalancieren oder anreichern, um strukturelle Verzerrungen in den Daten abzumildern.
- In-Processing: Anpassungen innerhalb des Trainings (z. B. Parameter-Tuning) mit Fairness-Zielgrößen.
- Nachverarbeitung (Postprocessing): Korrigierende Schritte auf Modelloutputs, um Fairness-Kriterien zu erfüllen.
4) Fairness-Metriken kontinuierlich überwachen
- Die Datenlage ändert sich; auch Modelle altern. Fairness-Checks gehören in denselben Betriebsablauf wie A/B-Tests, Alarmierungen und regelmäßige Evaluationszyklen.
Fairness messbar machen: Demographische Parität und Fehlerparität
Die Kernfrage für Engineering-Teams: Welche Metriken sind geeignet, um Fairness im Projekt nutzbar zu steuern? Cadonna unterscheidet zwei Familien von Metriken, die in der Praxis häufig angewandt werden.
Demographische Parität
- Ausgangspunkt ist ein Klassifikationsszenario mit positivem und nicht-positivem Ergebnis (z. B. „gewähren“ vs. „nicht gewähren“).
- Demographische Parität fordert, dass in zwei (oder mehreren) Gruppen dieselbe Quote positiver Entscheidungen erzielt wird – unabhängig von der Fehlerstruktur.
- Relevanz: Wenn Zugänge oder Chancen gleich verteilt sein sollen, ist Parität eine intuitive Zielgröße. Sie ist jedoch kein Qualitätsmaß im engeren Sinne, da sie Modellfehler nicht berücksichtigt.
Performance- und Balancemetriken (Fehlerparität)
- Diese Metriken verlangen, dass Fehler zwischen Gruppen nicht wesentlich auseinanderlaufen. Gemeint sind zum Beispiel gruppenweise Fehlerraten.
- Relevanz: In vielen realen Szenarien, insbesondere auch in der Computer Vision, kann Gleichheit der Fehlerstrukturen wichtiger sein als gleiche positive Quoten.
Cadonnas praktische Linie: Fairness wird nicht an einer einzigen Zahl festgemacht. Stattdessen gehört ein Set von Metriken auf das Dashboard – neben AUC, Präzision und Recall – um Trade-offs transparent zu machen und Entscheidungen zu begründen.
Werkzeuge: Auditing und Bias-Minderung mit AIF360 und Fairlearn
Die Tool-Landschaft lässt sich grob in zwei Richtungen einteilen:
- Auditing-Bibliotheken: Sie prüfen bestehende Modelle, berechnen Fairness-Metriken und zeigen, ob und wo Ungleichgewichte vorhanden sind.
- Bibliotheken zur Bias-Minderung: Sie bieten Verfahren für Vorverarbeitung, In-Processing und Postprocessing.
Cadonna hebt zwei Pakete für die Minderung hervor, die eine aktive Community besitzen und in vielen Projekten praktikabel sind:
- AIF360 (IBM)
- Fairlearn (Microsoft)
Diese Bibliotheken ermöglichen es, Fairness-Ziele explizit zu machen und in den Trainings- bzw. Auswertungsablauf einzubetten. Wichtig bleibt: Tools ersetzen nicht die konzeptionelle Arbeit an Zielen, Metriken und Prozessen – sie operationalisieren sie.
Warum Fairness sich lohnt: Vertrauen, sozialer Nutzen und Regulierungssicherheit
Fair-AI-Arbeit zahlt auf drei Ebenen ein:
- Vertrauen: Kundinnen und Kunden, aber auch die breite Öffentlichkeit, fassen eher Vertrauen in AI-Systeme, wenn Transparenz, Messbarkeit und Korrekturbereitschaft erkennbar sind. Das erleichtert die Adoption.
- Sozialer Return: Faire Systeme vermeiden Benachteiligungen und können Ungleichheiten reduzieren – besonders dort, wo AI großflächige Entscheidungen beeinflusst.
- Regulierung: Wer Fairness früh mitdenkt, ist besser auf neue Gesetzeslagen vorbereitet. Cadonna verweist auf die von der Europäischen Kommission im April vorgeschlagene AI-Regulierung als Orientierungspunkt.
Verantwortung des Data-Science-Teams: Nicht schweigen, sondern anleiten
Cadonna betont die Rolle von Data Scientists im Unternehmen. Entscheidungen über Daten- und AI-Nutzung werden oft im technischen Team vorbereitet und verantwortet. Daraus ergibt sich eine klare Pflicht:
- Potenzielle Diskriminierung ansprechen: „Wir können nicht schweigen.“ Wenn Risiken sichtbar sind, müssen sie in die Diskussion.
- Business schulen und begleiten: Fairness-Überlegungen gehören neben Business-KPIs und technischen Metriken in jedes Projekt-Review. Teams brauchen eine gemeinsame Sprache für diese Trade-offs.
- Aktuell bleiben: sich zu Forschung, Community und Regulierungslage auf dem Laufenden halten – Fairness ist ein dynamisches Feld.
Praktische Leitlinien für Engineering-Teams
Auf Basis der Session lassen sich umsetzbare Schritte ableiten, die sich in bestehende MLOps-Setups integrieren lassen.
1) Fairness-Epics und -Risiken früh im Backlog verankern
- Projektziele so formulieren, dass sensible Dimensionen identifiziert werden können.
- Stakeholder-Workshops einplanen: Wo liegen Auswirkungen auf Personen? Welche Gruppen sind besonders betroffen?
2) Auditierbare Datenpipelines aufsetzen
- Datenprofiling für relevante Gruppen: Repräsentativität und Datenqualität prüfen.
- Historische Verzerrungen dokumentieren: Welche Muster sind zu erwarten? Wo drohen Proxy-Effekte?
3) Fairness-Metriken gemeinsam mit Performance-KPIs definieren
- Demographische Parität und Fehlerparität je nach Anwendungslage priorisieren.
- Mess- und Reportingzyklen festlegen: Fairness gehört in dieselben Dashboards wie AUC, Präzision und Recall.
4) Bias-Minderung stufenweise implementieren
- Vorverarbeitung: Datenbalancierung oder -transformationen prüfen, wenn die Datengrundlage schief ist.
- In-Processing: Trainingsregeln und Parameter an Fairness-Ziele koppeln.
- Nachverarbeitung: Output-Kalibrierungen vor Livegang testen, wenn Parität oder Fehlerraten nicht passen.
5) Kontinuierliches Monitoring und Alarmierung
- Drift-Detection auch für Fairness-Metriken etablieren.
- Regemäßige Re-Evaluierungen planen: Modell und Datenlage verändern sich, Fairness muss nachgezogen werden.
6) Rechtliche Anforderungen mitdenken
- Je nach Domäne (Finanzen, Arbeit, Bildung, öffentliche Dienste) können zusätzliche Pflichten gelten.
- Frühzeitige Abstimmung mit Compliance spart spätere Umbauten.
Fazit: Fair AI als kontinuierlicher Engineering-Prozess
„Fair AI“ – in der Session von Annalisa Cadonna (Crayon) – ist weniger moralischer Appell als konkrete Handlungsanweisung. Die gezeigten Beispiele (RIMS in Ostia, algorithmische Benotung während COVID-19) machen deutlich, wie schnell AI faktische Ungleichheiten verschärfen kann. Der Gegenentwurf besteht aus klaren Schritten: potenzielle Diskriminierung identifizieren, Daten und Modelle prüfen, Bias mindern (vor, während, nach dem Training) und Fairness-Metriken laufend überwachen.
Dazu kommt der organisatorische Rahmen: kontinuierliche Stakeholder-Kommunikation, geschärftes Bewusstsein im Business, aktive Auseinandersetzung mit Forschung, Tools und Regulierung.
Crayon fasst das Selbstverständnis in einem Leitgedanken zusammen: Technologie soll Gutes bewirken. Damit dieses Ziel in AI-Projekten Realität wird, braucht es ein Team, das Fairness zum festen Bestandteil des Engineering-Prozesses macht – messbar, überprüfbar und dauerhaft im Blick.