Was diese Woche bekannt wurde
Auf Hacker News steht seit einigen Tagen ein Paper weit oben in der Diskussion: „LLMs corrupt your documents when you delegate” (arxiv.org/abs/2604.15597), 376 Punkte, 146 Kommentare. Der Kern in einem Satz: Sobald man einem Sprachmodell die Aufgabe gibt, ein bestehendes Dokument zu bearbeiten — also nicht nur zusammenzufassen, sondern zu verändern, zu ergänzen oder neu zu strukturieren — verändert das Modell systematisch auch Inhalte, die es eigentlich unangetastet lassen sollte.
Das ist kein Halluzinations-Problem im klassischen Sinn. Es ist subtiler. Das Modell formuliert Sätze um, ersetzt Zahlen durch „plausibel klingende” Werte, glättet Widersprüche im Originaltext und entfernt scheinbar redundante Passagen, die für den menschlichen Autor aber Bedeutung hatten. Wer das Ergebnis nur überfliegt, merkt es nicht.
Die Autorinnen und Autoren bezeichnen das als „Document Drift” — Dokumenten-Verschiebung — und zeigen, dass das Phänomen über alle gängigen Modellfamilien hinweg auftritt: GPT-Klasse, Claude, Gemini, offene Modelle. Je mehr Autonomie das Modell bekommt (Stichwort Agenten-Setups mit mehreren Bearbeitungsschritten), desto stärker der Drift.
Warum das jetzt für österreichische KMU zählt
Ich sehe in meiner Beratung gerade einen klaren Trend: KMU experimentieren nicht mehr nur mit ChatGPT als Schreibhilfe. Sie bauen kleine Agenten-Workflows. Typisches Beispiel: Ein Tool liest eingehende Angebote ein, ein LLM extrahiert die Eckdaten, ein zweiter Schritt aktualisiert die interne Kalkulation, ein dritter erzeugt das Antwortschreiben. Das funktioniert beeindruckend gut — bis es das nicht mehr tut.
Genau hier trifft die Studie ins Schwarze. Drei Punkte sind aus meiner Sicht für KMU besonders relevant:
1. Der Fehler ist unsichtbar, bis er teuer wird. Wenn ein LLM in einem 12-seitigen Vertragsentwurf einen Liefertermin von „14 Werktagen” zu „14 Tagen” umformuliert, ist das juristisch ein Unterschied. Wenn in einem Kalkulationsblatt eine Marge von 18,5 % zu 18 % „aufgerundet” wird, ist das ein Unterschied. Solche Änderungen fallen bei einer schnellen Sichtprüfung nicht auf.
2. Je länger die Kette, desto schlimmer. Die Studie zeigt: Bei mehrstufigen Agenten-Workflows multipliziert sich der Drift. Schritt 1 verändert eine Kleinigkeit, Schritt 2 baut darauf auf, Schritt 3 zementiert es. Am Ende stimmt das Dokument intern — entspricht aber nicht mehr dem Original.
3. Es betrifft nicht nur Text. Das Phänomen tritt auch bei strukturierten Dokumenten auf: Tabellen, JSON-Konfigurationen, sogar CSV-Exporten. Überall dort, wo das Modell „verstehen” und „neu schreiben” muss.
Aus meiner Sicht ist das keine Panikmeldung. Aber es ist ein Realitätscheck. Die Diskussion in Wien und Linz dreht sich gerade stark um „Agentic AI” und „autonome Workflows”. Diese Studie ist ein Datenpunkt, der zeigt: Autonomie ohne Kontrolle ist im Geschäftskontext teuer.
Was ich KMU jetzt rate
Drei konkrete Schritte, die sich diese Woche umsetzen lassen — ohne Agentur, ohne Großprojekt:
Schritt 1: Trennen Sie Lese-Aufgaben von Schreib-Aufgaben.
LLMs sind hervorragend darin, Dokumente zu analysieren, zu klassifizieren, zu kommentieren und Vorschläge zu generieren. Sie sind problematisch, sobald sie das Original-Dokument direkt überschreiben dürfen. Mein Rat: Lassen Sie das Modell einen Vorschlag erzeugen — als separates Dokument, als Diff, als strukturierten Output — aber den finalen Schritt „Original ersetzen” macht ein Mensch oder ein deterministisches Skript mit klaren Regeln.
Konkret: Wenn Sie heute einen Prompt haben, der lautet „Überarbeite das angehängte Angebot und gib es zurück”, ändern Sie ihn zu „Liste die vorgeschlagenen Änderungen am angehängten Angebot strukturiert auf — Originaltext, Vorschlag, Begründung”. Der Mensch entscheidet dann pro Position.
Schritt 2: Führen Sie ein Diff-Logging ein.
Wenn Sie schon einen Workflow haben, bei dem ein LLM Dokumente bearbeitet, dann speichern Sie die Differenz zwischen Input und Output. Bei Textdokumenten reicht ein einfaches Git-Diff oder ein Tool wie diff-match-patch. Bei strukturierten Daten ein JSON-Diff. Schauen Sie sich stichprobenhaft die Diffs an — Sie werden überrascht sein, was das Modell „nebenbei” verändert.
Häufiges Muster, das ich gerade sehe: Kunden glauben, das Modell habe nur Tippfehler korrigiert, weil das Ergebnis „gleich aussieht”. Ein 30-Sekunden-Diff zeigt dann, dass auch Beträge, Datumsangaben oder Klauseln betroffen sind.
Schritt 3: Definieren Sie Sperrzonen.
In jedem geschäftlichen Dokument gibt es Bereiche, die ein LLM unter keinen Umständen verändern darf: Preisangaben, juristische Klauseln, Vertragsnummern, Unterschriftenfelder. Markieren Sie diese Bereiche im Input klar — etwa mit Tags wie LOCKED — und bauen Sie eine deterministische Prüfung nach dem Modell-Lauf ein, die sicherstellt, dass diese Bereiche byte-identisch sind. Das ist zehn Zeilen Code und verhindert die teuersten Fehlerklassen.
Der größere Punkt
Das Paper ist kein Argument gegen LLMs im KMU-Einsatz. Es ist ein Argument gegen blinde Delegation. Die Modelle werden besser — aber das Grundproblem („das Modell entscheidet, was wichtig ist”) verschwindet nicht durch ein Versions-Update. Es muss durch Workflow-Design adressiert werden.
Wer 2026 produktiv mit KI arbeitet, baut nicht den autonomsten Agenten. Wer produktiv arbeitet, baut den Workflow mit dem klarsten Kontroll-Punkt zwischen Modell-Output und Geschäftsdokument. Das ist weniger spektakulär in der Demo — und deutlich robuster im Betrieb.
Wenn Sie unsicher sind, wo in Ihren bestehenden Prozessen schon LLMs Dokumente direkt verändern: Eine halbtägige Bestandsaufnahme reict meist, um die kritischen Stellen zu finden. Genau da sollte man jetzt hinsehen — nicht beim nächsten Auditbericht.