Lokaler LLM-Glossar

Lokaler LLM-Glossar

Hier sammle ich Begriffe, die in der Praxis rund um lokale LLMs ständig auftauchen. Kurz erklärt, ohne unnötigen Theorie-Overhead.

A–D

  • A4B: „Active 4B“ – ungefähr 4 Milliarden aktive Parameter pro Token bei MoE-Modellen.
  • API: Schnittstelle, über die du ein Modell programmatisch ansprichst.
  • BF16: 16-Bit Zahlenformat (BFloat16), oft stabiler als klassisches FP16.
  • CUDA: NVIDIAs GPU-Plattform. Viele LLM-Tools bauen darauf auf.
  • Dense: Modellarchitektur, bei der alle Parameter bei jedem Token aktiv sind.

G–L

  • GGUF: Weit verbreitetes Format für lokale Inferenz (vor allem mit llama.cpp).
  • GPTQ / AWQ: Quantisierungsverfahren, oft im GPU-Kontext genutzt.
  • KV-Cache: Zwischenspeicher für Attention-Werte; wird bei langen Kontexten schnell groß.
  • llama.cpp: Performante Inferenz-Engine für lokale Modelle.
  • LM Studio: GUI für lokale Modelle.

M–Q

  • MoE: „Mixture of Experts“ – pro Token werden nur Teile des Modells aktiviert.
  • NF4 / INT4: Sehr speichersparende Quantisierung, kann aber Qualität kosten.
  • Ollama: Einfaches Tool, um Modelle lokal zu starten und zu verwalten.
  • Prefill (PP): Verarbeitung der Eingabe, bevor die eigentliche Ausgabe startet.
  • Q4 / Q5 / Q6: Abstufungen bei Quantisierung (Qualität vs. Speicher).

T–V

  • TTFT: „Time to First Token“ – wie schnell die erste sichtbare Antwort kommt.
  • tok/s: Tokens pro Sekunde, grobe Geschwindigkeitsmetrik.
  • TGI: Text Generation Inference (Serving-Stack von Hugging Face).
  • vLLM: Sehr schneller Inferenz-Server, besonders auf NVIDIA stark.
  • VRAM: Grafikspeicher – oft der größte limitierende Faktor bei lokalen Setups.

Hinweis: Das Glossar wird regelmäßig erweitert, sobald neue Begriffe in meinen Projekten auftauchen.