Die falsche Frage zuerst ausräumen
Viele KMU-Entscheider fragen: „Welche Lösung ist besser?” Das ist die falsche Frage. Die richtige lautet: Bei welchem Volumen und welchen Anforderungen kippt die Rechnung?
Ich sehe in Beratungsgesprächen immer wieder dasselbe Muster: Ein Betrieb zahlt 800 Euro im Monat für OpenAI-API-Zugriff, hört von Self-Hosting und denkt sofort an Einsparungen. Oder umgekehrt: jemand investiert in eigene Hardware, obwohl 50 Euro monatliche API-Kosten vollkommen ausreichend wären.
Beide Fehler kosten Geld. Deshalb rechnen wir hier durch.
Was die OpenAI-API wirklich kostet
Die direkten Kosten sind transparent. GPT-4o kostet derzeit rund 2,50 USD pro Million Input-Token und 10 USD pro Million Output-Token (Stand Ende 2025). GPT-4o mini liegt bei 0,15 USD bzw. 0,60 USD.
Typisches Beispiel: Ein KMU verarbeitet täglich 500 Kundenanfragen, je 300 Token Input und 200 Token Output. Das ergibt monatlich rund 4,5 Millionen Input-Token und 3 Millionen Output-Token. Mit GPT-4o: etwa 41 USD Input plus 30 USD Output, also rund 70 USD pro Monat. Mit GPT-4o mini: unter 5 USD.
Dazu kommen indirekte Kosten, die oft vergessen werden:
- Entwicklungsaufwand für API-Integration, Fehlerbehandlung, Rate-Limit-Management
- Abhängigkeit vom Anbieter: Preisänderungen, Verfügbarkeitsausfälle, Modellabkündigungen
- Datenschutz: Je nach Vertrag und Branche können sensible Daten nicht über externe APIs laufen
Der letzte Punkt ist für viele österreichische KMU entscheidend — besonders im Gesundheits-, Rechts- und Finanzbereich.
Was Self-Hosting wirklich kostet
Hier liegt die größte Rechenfalle. Die Hardware steht einmalig im Budget, die laufenden Kosten werden unterschätzt.
Hardware-Investition: Ein praxistauglicher Setup für mittelgroße Modelle (7B bis 13B Parameter) beginnt bei einer NVIDIA RTX 4090 (ca. 1.800 EUR) oder einer A100-Karte für professionellen Einsatz (gebraucht ab 8.000 EUR, neu 15.000+ EUR). Für größere Modelle wie Llama 3 70B braucht man mehrere GPUs oder spezialisierte Hardware — Budgets von 20.000 bis 50.000 EUR sind dann realistisch.
Dazu kommt der Server selbst: 3.000 bis 8.000 EUR für ein vernünftiges System mit ausreichend RAM (64 GB aufwärts) und NVMe-Storage.
Laufende Kosten:
- Strom: Eine RTX 4090 zieht unter Last rund 400 Watt. Bei 24/7-Betrieb und 0,25 EUR/kWh: ca. 70 EUR pro Monat — nur für die GPU.
- Kühlung: In einem normalen Büro nicht zu unterschätzen. Klimaanlage oder Serverraum kosten.
- Internet-Anbindung: Für intern genutzten Traffic kein Problem. Für externe Zugriffe braucht man stabile Uplinks.
Personalaufwand — der am häufigsten unterschätzte Faktor:
Häufiges Muster: Ein KMU geht davon aus, dass das bestehende IT-Personal den Betrieb eines LLM-Servers „nebenbei” übernimmt. In der Praxis bedeutet Self-Hosting:
- Initiale Einrichtung: 20 bis 60 Stunden je nach Kenntnisstand
- Modell-Updates, Sicherheits-Patches, Monitoring: 4 bis 8 Stunden pro Monat
- Fehlerdiagnose bei Ausfällen: schwer planbar, aber realistisch 1 bis 2 Vorfälle pro Quartal
Rechnet man IT-Stunden intern mit 60 bis 80 EUR (Vollkostenrechnung), kommt man schnell auf 300 bis 600 EUR monatlichen Personalaufwand — auch wenn der Mitarbeiter nicht ausschließlich damit beschäftigt ist.
Modellqualität: Open-Source-Modelle wie Llama 3, Mistral oder Qwen sind gut — aber für viele Aufgaben nicht auf dem Niveau von GPT-4o. Das ist kein Pauschalurteil, sondern aufgabenabhängig. Bei strukturierter Datenextraktion, einfachen Klassifikationen oder internen FAQ-Systemen ist die Lücke gering. Bei komplexem Reasoning, mehrsprachigen Nuancen oder kreativem Schreiben ist sie spürbar.
Die Break-even-Rechnung
Ich rechne hier mit einem realistischen Self-Hosting-Szenario: RTX 4090-Setup, 24/7-Betrieb, internes IT-Personal.
Fixe monatliche Kosten Self-Hosting:
- Hardware-Abschreibung (1.800 EUR GPU + 4.000 EUR Server, 3 Jahre): ca. 160 EUR
- Strom: ca. 80 EUR (GPU + Server)
- Personalaufwand: ca. 400 EUR
- Sonstiges (Backup, Monitoring-Tools): ca. 30 EUR
- Gesamt: rund 670 EUR pro Monat
Den API-Kosten gegenübergestellt: Der Break-even liegt bei monatlichen API-Ausgaben von mindestens 600 bis 700 EUR — das entspricht etwa 250 bis 300 Millionen GPT-4o-mini-Token pro Monat oder rund 6 bis 7 Millionen GPT-4o-Token.
In der Praxis bedeutet das: Ein KMU mit normaler Nutzung — ein paar hundert Anfragen täglich, internes Dokumenten-Chatbot, E-Mail-Klassifikation — kommt selten über 50 bis 150 EUR API-Kosten pro Monat. Self-Hosting rechnet sich in diesem Bereich nicht.
Wann kippt die Rechnung?
Self-Hosting wird wirtschaftlich interessant, wenn:
- Die API-Kosten konstant über 800 EUR pro Monat liegen
- Datenschutzanforderungen externe APIs ausschließen (dann ist es keine Kostenfrage, sondern eine Pflichtfrage)
- Das Unternehmen bereits IT-Personal hat, das die Infrastruktur ohne Zusatzaufwand betreiben kann
- Spezifisches Fine-Tuning auf eigene Daten notwendig ist — was mit externen APIs nur eingeschränkt möglich ist
Cloud-gehostete Open-Source-Modelle als Mittelweg
Es gibt eine Option, die in der Diskussion oft fehlt: Anbieter wie Together AI, Groq, Replicate oder Fireworks AI hosten Open-Source-Modelle zu deutlich günstigeren Preisen als OpenAI — ohne eigene Hardware.
Typisches Beispiel: Llama 3 70B über Together AI kostet rund 0,88 USD pro Million Token (Input+Output kombiniert). Das ist ein Bruchteil der GPT-4o-Kosten bei vergleichbarer Leistung für viele Standardaufgaben.
Dieser Mittelweg bietet:
- Keine Hardware-Investition
- Kein Betriebsaufwand
- Günstigere Tokenpreise
- Aber: Daten verlassen trotzdem das eigene Haus
Für Datenschutz-sensible Anwendungsfälle hilft das nicht. Für kostengetriebene Optimierung ist es oft die klügste Option.
Meine Einschätzung
Ich empfehle Self-Hosting für KMU fast nie als ersten Schritt. Die Einstiegshürde — technisch, finanziell, personell — ist zu hoch für den Nutzen, den die meisten Betriebe in der ersten Phase ziehen.
Der sinnvolle Weg: Mit API starten, Volumen und Anforderungen messen, nach 6 bis 12 Monaten Realdaten eine fundierte TCO-Rechnung aufstellen. Wer dann bei 800+ EUR monatlichen API-Kosten landet oder klare Datenschutzgründe hat, sollte Self-Hosting oder zumindest private Cloud-Deployments ernsthaft prüfen.
Was ich hingegen deutlich öfter empfehle: günstigere Modelle über API nutzen. Typisches Muster: Ein Betrieb setzt standardmäßig GPT-4o ein, obwohl GPT-4o mini für 80 % der Aufgaben ausreicht. Das allein reduziert Kosten um Faktor 15 bis 20 — ohne Infrastruktur-Aufwand.
Checkliste: Wann lohnt Self-Hosting?
- [ ] Monatliche API-Kosten über 800 EUR (stabil, nicht einmalig)
- [ ] Datenschutz schließt externe Verarbeitung aus
- [ ] Internes IT-Personal mit Linux/Docker/GPU-Kenntnissen vorhanden
- [ ] Bereitschaft zur Hardware-Investition von mindestens 6.000 EUR
- [ ] Akzeptanz, dass Modellqualität in manchen Bereichen unter GPT-4 liegt
- [ ] Langfristiger Betrieb geplant (Abschreibung über 3 Jahre)
Wenn weniger als vier dieser Punkte zutreffen: API-first-Strategie, optimierte Modellwahl, fertig.