Artikel
Alle Beiträge rund um lokale LLMs, Infrastruktur und Security – mit Fokus auf Praxis statt Buzzwords.
Kategorien
- Agentic AI (43)
- Basics (1)
- LLM News (68)
- LLM Operations (12)
- Observability (2)
- Security (4)
- Serien (3)
-
Serie LLM Ops Stack (Teil 2): Observability, Fallbacks und Kostenkontrolle
Serie: LLMs produktiv betreiben (Teil 2 von 2) Serien-Navigation: Teil 1 · Teil 2 Im zweiten Teil geht es um die Realität nach dem Go-live: inkonsistente Antwortqualität, Spitzenlast,…
-
LiteLLM-Vorfall zeigt die neue Angriffsfläche für Agentic Ops
Wenn ein AI-Gateway wie LiteLLM in der Lieferkette getroffen wird, ist das nicht nur ein Security-Thema – das ist ein Betriebsrisiko für jedes Team mit Agenten, Automationen oder…
-
Local vs Cloud Check (Teil 2): Kosten, Latenz und der reale Break-even
Serien-Navigation · Local vs Cloud Check Teil 1 · Teil 2 · Teil 3 Serie: Local vs Cloud Check (Teil 2 von 3) Teil 2 vertieft Kosten-, Latenz-…
-
Serie MCP im Enterprise (Teil 1): Vom Agenten-Hype zur Infrastruktur
Serien-Navigation · MCP im Enterprise Teil 1 (aktuell) · Teil 2 (in Arbeit) · Teil 3 (in Arbeit) Zur Serienübersicht → Serie: MCP im Enterprise-Betrieb (Teil 1 von…
-
Microsoft veröffentlicht Agent Governance Toolkit für autonome AI-Agenten
Autonome Agenten können heute nicht nur chatten, sondern reale Aktionen auslösen: Tools aufrufen, Workflows starten, Infrastruktur anfassen. Genau dort liegt das Risiko – und genau dort setzt Microsofts…
-
MLPerf Inference v6.0 zeigt, wo Inference-Stacks jetzt wirklich gewinnen
Inference-Benchmarks sind nicht sexy — aber sie entscheiden gerade, welche AI-Stacks in Produktion bestehen. Mit MLPerf Inference v6.0 hat MLCommons diese Woche die bislang größte Überarbeitung der Suite…
-
Gemma 4 macht Local-First plötzlich enterprise-tauglich
Google hat mit Gemma 4 ein Update veröffentlicht, das für Teams mit Local-/Edge-Fokus mehr ist als nur ein Modell-Refresh. Der eigentliche Hebel ist die Kombination aus zwei Dingen:…
-
Inference wird zum Betriebssystem: Dynamo, 1M-Context-Shift, Runtime-Routing
Die letzten Tage zeigen ein klares Muster: Der LLM-Markt liefert weniger „Big Bang“-Modelle, dafür deutlich mehr produktionsnahe Infrastruktur und Runtime-Änderungen. Für Teams heißt das: weniger Hype-Slides, mehr Betriebsdisziplin.…
-
Serie LLM Ops Stack (Teil 1): Basis für produktiven Betrieb
Stand: April 2026 In den letzten Monaten habe ich viel damit gearbeitet, lokale LLMs von „läuft auf meinem Rechner“ auf „läuft stabil im Alltag“ zu bringen. Der Unterschied…