Was diese Woche passiert ist
Timothy Gowers, Mathematiker und Fields-Medaillist, hat in seinem Blog einen ausführlichen Praxisbericht zu ChatGPT 5.5 Pro veröffentlicht. Der Beitrag landete auf Hacker News mit über 600 Punkten und 445 Kommentaren — ein Indikator, dass die Tech-Community genau hinschaut.
Gowers testet das Modell nicht an Benchmarks, sondern an einem konkreten Forschungsproblem. Sein Befund, verkürzt: 5.5 Pro liefert auf hohem Niveau, macht aber weiterhin Fehler, die ein Fachmensch sofort erkennt — und ein Laie eben nicht. Das Modell argumentiert flüssig, zieht plausible Zwischenschritte und liegt trotzdem an entscheidenden Stellen daneben.
Das ist keine Sensationsmeldung. Aber genau deshalb ist sie interessant.
Warum das jetzt für KMU zählt
Seit den 5er-Releases häufen sich in meiner Beratungspraxis zwei Fragen: „Sollen wir auf das neue Modell upgraden?” und „Können wir damit endlich Aufgabe X automatisieren, die letztes Jahr noch nicht ging?”
Der Gowers-Bericht ist ein nüchterner Datenpunkt gegen beide Extremreaktionen.
Extrem 1: „Die neuen Modelle sind schon fast AGI, wir können alles delegieren.” Nein. Wenn ein Top-Mathematiker an einem Fachproblem strukturelle Fehler findet, dann findet Ihre Steuerberaterin, Ihr Anwalt, Ihre Konstrukteurin die analogen Fehler in ihren Fachgebieten auch. Die Modelle sind besser geworden, aber das Muster bleibt: souveräne Sprache, fallweise falscher Inhalt. Wer das in einen unbeaufsichtigten Workflow steckt, kauft sich Risiken ein, die er später teuer bezahlt.
Extrem 2: „Solange Halluzinationen vorkommen, ist das alles unbrauchbar.” Auch nein. Gowers beschreibt durchaus, dass das Modell ihm beim Denken hilft — als Sparring-Partner, als Ideengeber, als jemand, der schnell mögliche Ansätze skizziert. Genau das ist der Modus, in dem KMU heute echten Nutzen ziehen.
Aus meiner Sicht ist die zentrale Lehre des Berichts nicht „5.5 Pro ist gut” oder „5.5 Pro ist schlecht”. Sie lautet: Das Delta zwischen den Generationen wird kleiner, das Delta zwischen guter und schlechter Anwendung im Unternehmen wird größer.
Konkret: Wer 2024 mit GPT-4 keinen Wert gehoben hat, wird mit 5.5 Pro auch keinen heben. Das Modell ist nicht das Bottleneck. Das Bottleneck sind Prozesse, Datenzugriff, Review-Schritte und die Frage, welche Aufgaben überhaupt sinnvoll an ein Sprachmodell delegierbar sind.
Was das für die Modell-Wahl bedeutet
Ein häufiges Muster in KMU-Projekten: Es wird monatelang debattiert, ob man GPT-5, 5.5 Pro, Claude oder Gemini nimmt — und am Ende läuft die Lösung in 80 Prozent der Fälle mit jedem dieser Modelle vergleichbar gut. Die Unterschiede sind real, aber sie wirken sich oft erst an den Rändern aus: bei langen Kontexten, bei strikter Strukturtreue, bei sehr spezifischen Fachdomänen.
Für die meisten KMU-Use-Cases — Angebotsentwürfe, E-Mail-Triagierung, Protokoll-Zusammenfassungen, interne Wissenssuche, Code-Snippets — ist die Modellklasse wichtiger als das konkrete Modell. Und ein Pro-Tier kostet pro Sitzplatz ein Mehrfaches des Standard-Tiers.
Mein Rat: Testen Sie den Mehrwert eines Pro-Modells an Ihren tatsächlichen Aufgaben, nicht an Demo-Prompts. Geben Sie zwei oder drei Mitarbeitenden für vier Wochen Zugang, lassen Sie sie täglich vergleichen — gleiche Aufgabe, beide Modelle, kurze Notiz, welches Ergebnis besser war und warum. Nach vier Wochen haben Sie eine Entscheidungsgrundlage, die mehr wert ist als jeder Benchmark.
Drei konkrete Schritte für diese Woche
1. Reality-Check im Team. Fragen Sie diese Woche in einer 30-Minuten-Runde: Wo nutzt jemand bei uns ein KI-Modell für etwas, das die Person fachlich nicht selbst beurteilen kann? Das sind Ihre Risikostellen — unabhängig davon, welches Modell läuft. Dort braucht es entweder einen Review-Schritt oder einen Rückzug aus diesem Use-Case.
2. Upgrade-Frage entkoppeln. Trennen Sie zwei Entscheidungen, die oft vermischt werden: a) Welches Modell nutzen wir? b) Welche Aufgaben lassen wir KI machen? Frage b) ist deutlich wichtiger und unabhängig vom Modell. Wer mit der Antwort auf b) klar ist, beantwortet a) in zehn Minuten.
3. Eine Aufgabe diese Woche neu prüfen. Nehmen Sie genau einen Workflow, den Sie vor 12 Monaten als „geht mit KI noch nicht” abgehakt haben — und testen Sie ihn mit einem aktuellen Modell. Nicht alle, einen. Die Modelle haben sich bewegt, manche Use-Cases sind jetzt im grünen Bereich. Andere weiterhin nicht. Sie wissen es erst, wenn Sie es prüfen.
Was ich aus dem Gowers-Bericht mitnehme
Die ehrlichen Praxisberichte von Leuten, die ein Modell wirklich an seinem Anschlag testen, sind aktuell wertvoller als die offiziellen Release-Folien. Gowers ist nicht der einzige, der so etwas öffentlich macht — aber die Kombination aus fachlicher Tiefe und nüchternem Ton ist selten.
Für KMU heißt das: Lesen Sie solche Berichte. Nicht, um eine Modell-Entscheidung daran festzumachen, sondern um ein realistisches Bild zu bekommen, wo die Werkzeuge wirklich stehen. Zwischen Marketing und Untergangsstimmung gibt es eine breite Mitte, in der seit Monaten ordentliche Produktivitätsgewinne entstehen — bei den Firmen, die Prozesse statt Modelle in den Mittelpunkt stellen.