← Alle Beiträge
03.12.2025 · 5 min

Self-Hosting vs. API: Wann sich ein eigenes KI-Modell rechnet

API oder eigenes Modell? Eine ehrliche TCO-Rechnung für KMU: Hardware, Wartung, Personal — und wo der Break-even wirklich liegt.

Die falsche Frage zuerst ausräumen

Viele KMU-Entscheider fragen: „Welche Lösung ist besser?” Das ist die falsche Frage. Die richtige lautet: Bei welchem Volumen und welchen Anforderungen kippt die Rechnung?

Ich sehe in Beratungsgesprächen immer wieder dasselbe Muster: Ein Betrieb zahlt 800 Euro im Monat für OpenAI-API-Zugriff, hört von Self-Hosting und denkt sofort an Einsparungen. Oder umgekehrt: jemand investiert in eigene Hardware, obwohl 50 Euro monatliche API-Kosten vollkommen ausreichend wären.

Beide Fehler kosten Geld. Deshalb rechnen wir hier durch.

Was die OpenAI-API wirklich kostet

Die direkten Kosten sind transparent. GPT-4o kostet derzeit rund 2,50 USD pro Million Input-Token und 10 USD pro Million Output-Token (Stand Ende 2025). GPT-4o mini liegt bei 0,15 USD bzw. 0,60 USD.

Typisches Beispiel: Ein KMU verarbeitet täglich 500 Kundenanfragen, je 300 Token Input und 200 Token Output. Das ergibt monatlich rund 4,5 Millionen Input-Token und 3 Millionen Output-Token. Mit GPT-4o: etwa 41 USD Input plus 30 USD Output, also rund 70 USD pro Monat. Mit GPT-4o mini: unter 5 USD.

Dazu kommen indirekte Kosten, die oft vergessen werden:

  • Entwicklungsaufwand für API-Integration, Fehlerbehandlung, Rate-Limit-Management
  • Abhängigkeit vom Anbieter: Preisänderungen, Verfügbarkeitsausfälle, Modellabkündigungen
  • Datenschutz: Je nach Vertrag und Branche können sensible Daten nicht über externe APIs laufen

Der letzte Punkt ist für viele österreichische KMU entscheidend — besonders im Gesundheits-, Rechts- und Finanzbereich.

Was Self-Hosting wirklich kostet

Hier liegt die größte Rechenfalle. Die Hardware steht einmalig im Budget, die laufenden Kosten werden unterschätzt.

Hardware-Investition: Ein praxistauglicher Setup für mittelgroße Modelle (7B bis 13B Parameter) beginnt bei einer NVIDIA RTX 4090 (ca. 1.800 EUR) oder einer A100-Karte für professionellen Einsatz (gebraucht ab 8.000 EUR, neu 15.000+ EUR). Für größere Modelle wie Llama 3 70B braucht man mehrere GPUs oder spezialisierte Hardware — Budgets von 20.000 bis 50.000 EUR sind dann realistisch.

Dazu kommt der Server selbst: 3.000 bis 8.000 EUR für ein vernünftiges System mit ausreichend RAM (64 GB aufwärts) und NVMe-Storage.

Laufende Kosten:

  • Strom: Eine RTX 4090 zieht unter Last rund 400 Watt. Bei 24/7-Betrieb und 0,25 EUR/kWh: ca. 70 EUR pro Monat — nur für die GPU.
  • Kühlung: In einem normalen Büro nicht zu unterschätzen. Klimaanlage oder Serverraum kosten.
  • Internet-Anbindung: Für intern genutzten Traffic kein Problem. Für externe Zugriffe braucht man stabile Uplinks.

Personalaufwand — der am häufigsten unterschätzte Faktor:

Häufiges Muster: Ein KMU geht davon aus, dass das bestehende IT-Personal den Betrieb eines LLM-Servers „nebenbei” übernimmt. In der Praxis bedeutet Self-Hosting:

  • Initiale Einrichtung: 20 bis 60 Stunden je nach Kenntnisstand
  • Modell-Updates, Sicherheits-Patches, Monitoring: 4 bis 8 Stunden pro Monat
  • Fehlerdiagnose bei Ausfällen: schwer planbar, aber realistisch 1 bis 2 Vorfälle pro Quartal

Rechnet man IT-Stunden intern mit 60 bis 80 EUR (Vollkostenrechnung), kommt man schnell auf 300 bis 600 EUR monatlichen Personalaufwand — auch wenn der Mitarbeiter nicht ausschließlich damit beschäftigt ist.

Modellqualität: Open-Source-Modelle wie Llama 3, Mistral oder Qwen sind gut — aber für viele Aufgaben nicht auf dem Niveau von GPT-4o. Das ist kein Pauschalurteil, sondern aufgabenabhängig. Bei strukturierter Datenextraktion, einfachen Klassifikationen oder internen FAQ-Systemen ist die Lücke gering. Bei komplexem Reasoning, mehrsprachigen Nuancen oder kreativem Schreiben ist sie spürbar.

Die Break-even-Rechnung

Ich rechne hier mit einem realistischen Self-Hosting-Szenario: RTX 4090-Setup, 24/7-Betrieb, internes IT-Personal.

Fixe monatliche Kosten Self-Hosting:

  • Hardware-Abschreibung (1.800 EUR GPU + 4.000 EUR Server, 3 Jahre): ca. 160 EUR
  • Strom: ca. 80 EUR (GPU + Server)
  • Personalaufwand: ca. 400 EUR
  • Sonstiges (Backup, Monitoring-Tools): ca. 30 EUR
  • Gesamt: rund 670 EUR pro Monat

Den API-Kosten gegenübergestellt: Der Break-even liegt bei monatlichen API-Ausgaben von mindestens 600 bis 700 EUR — das entspricht etwa 250 bis 300 Millionen GPT-4o-mini-Token pro Monat oder rund 6 bis 7 Millionen GPT-4o-Token.

In der Praxis bedeutet das: Ein KMU mit normaler Nutzung — ein paar hundert Anfragen täglich, internes Dokumenten-Chatbot, E-Mail-Klassifikation — kommt selten über 50 bis 150 EUR API-Kosten pro Monat. Self-Hosting rechnet sich in diesem Bereich nicht.

Wann kippt die Rechnung?

Self-Hosting wird wirtschaftlich interessant, wenn:

  1. Die API-Kosten konstant über 800 EUR pro Monat liegen
  2. Datenschutzanforderungen externe APIs ausschließen (dann ist es keine Kostenfrage, sondern eine Pflichtfrage)
  3. Das Unternehmen bereits IT-Personal hat, das die Infrastruktur ohne Zusatzaufwand betreiben kann
  4. Spezifisches Fine-Tuning auf eigene Daten notwendig ist — was mit externen APIs nur eingeschränkt möglich ist

Cloud-gehostete Open-Source-Modelle als Mittelweg

Es gibt eine Option, die in der Diskussion oft fehlt: Anbieter wie Together AI, Groq, Replicate oder Fireworks AI hosten Open-Source-Modelle zu deutlich günstigeren Preisen als OpenAI — ohne eigene Hardware.

Typisches Beispiel: Llama 3 70B über Together AI kostet rund 0,88 USD pro Million Token (Input+Output kombiniert). Das ist ein Bruchteil der GPT-4o-Kosten bei vergleichbarer Leistung für viele Standardaufgaben.

Dieser Mittelweg bietet:

  • Keine Hardware-Investition
  • Kein Betriebsaufwand
  • Günstigere Tokenpreise
  • Aber: Daten verlassen trotzdem das eigene Haus

Für Datenschutz-sensible Anwendungsfälle hilft das nicht. Für kostengetriebene Optimierung ist es oft die klügste Option.

Meine Einschätzung

Ich empfehle Self-Hosting für KMU fast nie als ersten Schritt. Die Einstiegshürde — technisch, finanziell, personell — ist zu hoch für den Nutzen, den die meisten Betriebe in der ersten Phase ziehen.

Der sinnvolle Weg: Mit API starten, Volumen und Anforderungen messen, nach 6 bis 12 Monaten Realdaten eine fundierte TCO-Rechnung aufstellen. Wer dann bei 800+ EUR monatlichen API-Kosten landet oder klare Datenschutzgründe hat, sollte Self-Hosting oder zumindest private Cloud-Deployments ernsthaft prüfen.

Was ich hingegen deutlich öfter empfehle: günstigere Modelle über API nutzen. Typisches Muster: Ein Betrieb setzt standardmäßig GPT-4o ein, obwohl GPT-4o mini für 80 % der Aufgaben ausreicht. Das allein reduziert Kosten um Faktor 15 bis 20 — ohne Infrastruktur-Aufwand.

Checkliste: Wann lohnt Self-Hosting?

  • [ ] Monatliche API-Kosten über 800 EUR (stabil, nicht einmalig)
  • [ ] Datenschutz schließt externe Verarbeitung aus
  • [ ] Internes IT-Personal mit Linux/Docker/GPU-Kenntnissen vorhanden
  • [ ] Bereitschaft zur Hardware-Investition von mindestens 6.000 EUR
  • [ ] Akzeptanz, dass Modellqualität in manchen Bereichen unter GPT-4 liegt
  • [ ] Langfristiger Betrieb geplant (Abschreibung über 3 Jahre)

Wenn weniger als vier dieser Punkte zutreffen: API-first-Strategie, optimierte Modellwahl, fertig.

Newsletter

Ein Newsletter, unbegrenztes Wissen.

Jede Woche die aktuellsten News zum Thema künstliche Intelligenz für den Einsatz in Ihrem Unternehmen.