Attention Maps überzeugten mich nicht sofort, bis ich diesen Fehler machte

Attention Maps überzeugten mich nicht sofort, bis ich diesen Fehler machte

Dorothea Wulf, eine Kollegin aus dem NLP-Team, zeigte mir ein Attention-Muster, das auf den ersten Blick perfekt aussah.

Unser Textklassifikator für Kundenbeschwerden schien genau auf die richtigen Schlüsselwörter zu achten. Die Heatmap war sauber, intuitiv, überzeugend. Wir haben das Modell in Produktion gebracht. Zwei Wochen später stellten wir fest, dass es bei Beschwerden mit ironischem Ton systematisch versagte, weil die Attention auf oberflächliche Signalwörter zeigte, nicht auf semantischen Kontext.

Das grundlegende Missverständnis mit Attention

Attention-Gewichte zeigen, worauf das Modell achtet. Sie erklären nicht kausal, warum eine Entscheidung getroffen wurde. Das ist ein feiner aber wesentlicher Unterschied. Jain et al. haben das 2019 formal argumentiert und Wiegreffe und Pinter haben prompt widersprochen. Die Debatte ist nicht abgeschlossen. Für Praktiker bedeutet das: Attention-Visualisierungen sind ein Einstiegspunkt, kein Endpunkt.

Was wir danach geändert haben: Wir haben Integrated Gradients zusätzlich implementiert, um Attribution auf Token-Ebene sauber zu trennen. Das Verfahren ist rechnerisch aufwendiger, aber es liefert Ableitungen die direkt mit dem Modelloutput verknüpft sind, nicht nur mit internen Aktivierungen.

Die eigentliche Lektion

XAI-Methoden für neuronale Netze sind selbst Modelle mit eigenen Annahmen und Grenzen. Wer sie unkritisch als Wahrheit behandelt, bekommt eine zusätzliche Fehlerquelle ins System. Ich zeige jetzt bei jedem Onboarding neuer Teammitglieder zuerst diesen Fall, bevor wir über Methoden sprechen.