Ich hatte ein Modell, dem niemand vertraute.
Ein Gradient-Boosting-Klassifikator für Kreditrisiken, Genauigkeit bei 91 Prozent, AUC bei 0,94. Auf dem Papier stark. Aber das Risikoteam wollte wissen, warum das Modell bestimmte Anträge ablehnte, und da begann das eigentliche Problem. Ich habe drei Monate damit verbracht, LIME und SHAP systematisch zu vergleichen, und die Ergebnisse waren ernüchternder als erwartet.
Was LIME in der Praxis bedeutet
LIME erklärt einzelne Vorhersagen, indem es lokal ein lineares Ersatzmodell anpasst. Klingt sauber. Ist es in vielen Fällen nicht. Bei meinen Tests mit dem Kreditdatensatz (rund 18.000 Datenpunkte, 23 Features) schwankten die Feature-Gewichtungen bei wiederholten Aufrufen mit identischen Eingaben um bis zu 30 Prozent. Das liegt an der stochastischen Stichprobenziehung. Für ein Audit-Gespräch mit Regulatoren ist das eine ernste Schwäche.
SHAP verhält sich stabiler, kostet aber
TreeSHAP löste das Stabilitätsproblem vollständig. Gleiche Eingabe, gleiche Ausgabe, mathematisch konsistent. Der Preis: Bei einem XGBoost-Modell mit 500 Bäumen und 100.000 Datenpunkten brauchte die vollständige SHAP-Berechnung auf meinem Rechner knapp 40 Minuten. Für Batch-Erklärungen akzeptabel, für Echtzeit-Entscheidungen nicht.
Was ich letztlich eingebaut habe: SHAP für regulatorische Berichte und stichprobenartige Audits, LIME für schnelle Entwicklerfeedback-Schleifen während des Trainings. Keine der beiden Methoden ist universell besser. Die Frage ist immer, wer die Erklärung braucht und in welchem Zeitfenster.
XAI ist kein Feature, das man am Ende hinzufügt. Es verändert, wie man das Modell von Anfang an baut.