Ich habe lange geglaubt, das sei ein akademisches Problem.
Dann arbeitete ich an einem Vorhersagemodell für Maschinenausfälle in einem mittelgroßen Produktionsbetrieb. Das beste Modell nach allen Metriken war ein gestacktes Ensemble aus drei verschiedenen Basismodellen. AUC 0,97, Recall bei kritischen Ausfällen fast vollständig. Das Wartungsteam lehnte es ab. Nicht wegen der Leistung, sondern weil sie nicht verstehen konnten, wann und warum es Alarm schlug.
Was das Wartungsteam brauchte
Keine Heatmaps, keine SHAP-Waterfall-Plots. Sie wollten wissen: Welche Sensorwerte haben den Ausschlag gegeben und passen diese zur Maschine, die gerade unter Last stand. Das ist eine sehr konkrete Frage, die ein komplexes Ensemble nur schlecht beantworten kann, selbst mit nachgelagerter XAI.
Wir haben am Ende ein einzelnes Entscheidungsbaummodell mit Tiefe 6 deployed, AUC 0,91, das direkt aus seiner Struktur erklärbar war. Sechs Prozentpunkte AUC-Verlust, aber vollständige Akzeptanz im Team und tatsächliche Nutzung in der Praxis.
Was das bedeutet
Ein Modell, dem niemand vertraut, wird nicht genutzt, egal wie gut es auf dem Testset ist. Das ist kein weicher Faktor. Ruben Thalmann, der Schichtleiter in dem Betrieb, brachte es gut auf den Punkt: Ein Modell, das ich nicht hinterfragen kann, ist für mich nicht da, auch wenn es statistisch besser ist. Diese Aussage hat mich dazu gebracht, Erklärbarkeit als Designziel zu behandeln und nicht als nachgelagertes Audit-Feature.