Lokaler LLM-Glossar
Hier sammle ich Begriffe, die in der Praxis rund um lokale LLMs ständig auftauchen. Kurz erklärt, ohne unnötigen Theorie-Overhead.
A–D
- A4B: „Active 4B“ – ungefähr 4 Milliarden aktive Parameter pro Token bei MoE-Modellen.
- API: Schnittstelle, über die du ein Modell programmatisch ansprichst.
- BF16: 16-Bit Zahlenformat (BFloat16), oft stabiler als klassisches FP16.
- CUDA: NVIDIAs GPU-Plattform. Viele LLM-Tools bauen darauf auf.
- Dense: Modellarchitektur, bei der alle Parameter bei jedem Token aktiv sind.
G–L
- GGUF: Weit verbreitetes Format für lokale Inferenz (vor allem mit llama.cpp).
- GPTQ / AWQ: Quantisierungsverfahren, oft im GPU-Kontext genutzt.
- KV-Cache: Zwischenspeicher für Attention-Werte; wird bei langen Kontexten schnell groß.
- llama.cpp: Performante Inferenz-Engine für lokale Modelle.
- LM Studio: GUI für lokale Modelle.
M–Q
- MoE: „Mixture of Experts“ – pro Token werden nur Teile des Modells aktiviert.
- NF4 / INT4: Sehr speichersparende Quantisierung, kann aber Qualität kosten.
- Ollama: Einfaches Tool, um Modelle lokal zu starten und zu verwalten.
- Prefill (PP): Verarbeitung der Eingabe, bevor die eigentliche Ausgabe startet.
- Q4 / Q5 / Q6: Abstufungen bei Quantisierung (Qualität vs. Speicher).
T–V
- TTFT: „Time to First Token“ – wie schnell die erste sichtbare Antwort kommt.
- tok/s: Tokens pro Sekunde, grobe Geschwindigkeitsmetrik.
- TGI: Text Generation Inference (Serving-Stack von Hugging Face).
- vLLM: Sehr schneller Inferenz-Server, besonders auf NVIDIA stark.
- VRAM: Grafikspeicher – oft der größte limitierende Faktor bei lokalen Setups.
Hinweis: Das Glossar wird regelmäßig erweitert, sobald neue Begriffe in meinen Projekten auftauchen.