Local vs Cloud Check (Teil 1): vLLM vs. Ollama vs. TGI im Praxisvergleich

Serien-Navigation · Local vs Cloud Check

Serie: Local vs Cloud Check (Teil 1 von 3)

Die Frage „lokal oder cloud?“ klingt einfach, ist in der Praxis aber selten eine Entweder-oder-Entscheidung. In fast allen Teams endet es bei einem Mischmodell – die eigentliche Arbeit ist deshalb nicht die Tool-Auswahl, sondern ein klarer Entscheidungsrahmen. Dieser Beitrag ist Teil 1 einer Serie und liefert genau diesen Rahmen.

Darum die Standardantwort meistens falsch ist

Viele Entscheidungen werden aus dem Bauch getroffen: „Cloud ist schneller“ oder „Lokal ist günstiger“. Beides kann stimmen – und beides kann komplett falsch sein, sobald man echten Betrieb betrachtet. Entscheidend sind nicht Werbeversprechen, sondern dein konkreter Workflow: Promptlänge, Parallelität, Datenschutzanforderungen, Fehlertoleranz und Team-Know-how.

Ein typischer Fehler: Man vergleicht nur Latenz unter Idealbedingungen. Im Alltag zählen zusätzlich Queue-Verhalten, Cold Starts, Token-Kosten bei Lastspitzen, Betriebsaufwand für Updates und wie gut sich Ausfälle abfedern lassen.

Das 5-Faktoren-Modell für Local vs Cloud

1) Daten- und Compliance-Lage: Welche Daten dürfen raus? Wo sind harte Grenzen?
2) Lastprofil: Gleichmäßiger Traffic oder Peaks? Interaktiv oder Batch?
3) Kostenstruktur: Planbare Grundlast vs. variable Verbrauchskosten.
4) Betriebsfähigkeit: Kann dein Team Runtime, Updates, Monitoring und Incident-Handling tragen?
5) Qualitätsziel: Reicht ein kleines lokales Modell oder brauchst du regelmäßig Top-Cloud-Qualität?

Wenn du diese fünf Punkte klar beantwortest, wird die Entscheidung sehr viel nüchterner – und in den meisten Fällen landet man bei einem Hybrid-Design statt bei „nur lokal“ oder „nur cloud“.

Praxismuster, die sich bewährt haben

Local-first, Cloud-escape: Standardanfragen lokal, komplexe Fälle gehen kontrolliert in die Cloud.
Cloud-first, Local-guard: Hohe Qualitätsanforderung in der Cloud, sensible Teilstrecken lokal.
Split by workload: Echtzeit lokal, schwere Analyse- oder Batchläufe cloudbasiert.

Wichtig ist, dass Routing-Regeln transparent und messbar sind. Sobald du nicht mehr weißt, wann welches Modell wo lief, verlierst du Kostenkontrolle und Qualitätsnachvollziehbarkeit.

Was du diese Woche wirklich tun kannst

Definiere 3 reale Referenz-Workflows aus deinem Alltag.
Messe für beide Wege (local/cloud): TTFT, P95, Kosten pro sinnvoller Antwort.
Lege eine einfache Fallback-Policy fest (wann Escalation in Cloud, wann lokal bleiben).
Dokumentiere die Entscheidung inkl. Annahmen, damit spätere Änderungen nachvollziehbar bleiben.

Damit hast du in wenigen Tagen keine Bauchentscheidung mehr, sondern ein belastbares Entscheidungssetup.

Ausblick: Teil 2 und Teil 3

Teil 2: Kosten- und Latenzmodell (inkl. Break-even-Denke für Hybrid).
Teil 3: Betriebs-Playbook: Monitoring, Fallback, Incident-Handling, Ownership.