Lokaler LLM-Glossar

Lokaler LLM-Glossar

Hier sammle ich Begriffe, die in der Praxis rund um lokale LLMs ständig auftauchen. Kurz erklärt, ohne unnötigen Theorie-Overhead.

A–D

A4B: „Active 4B“ – ungefähr 4 Milliarden aktive Parameter pro Token bei MoE-Modellen.
API: Schnittstelle, über die du ein Modell programmatisch ansprichst.
BF16: 16-Bit Zahlenformat (BFloat16), oft stabiler als klassisches FP16.
CUDA: NVIDIAs GPU-Plattform. Viele LLM-Tools bauen darauf auf.
Dense: Modellarchitektur, bei der alle Parameter bei jedem Token aktiv sind.

G–L

GGUF: Weit verbreitetes Format für lokale Inferenz (vor allem mit llama.cpp).
GPTQ / AWQ: Quantisierungsverfahren, oft im GPU-Kontext genutzt.
KV-Cache: Zwischenspeicher für Attention-Werte; wird bei langen Kontexten schnell groß.
llama.cpp: Performante Inferenz-Engine für lokale Modelle.
LM Studio: GUI für lokale Modelle.

M–Q

MoE: „Mixture of Experts“ – pro Token werden nur Teile des Modells aktiviert.
NF4 / INT4: Sehr speichersparende Quantisierung, kann aber Qualität kosten.
Ollama: Einfaches Tool, um Modelle lokal zu starten und zu verwalten.
Prefill (PP): Verarbeitung der Eingabe, bevor die eigentliche Ausgabe startet.
Q4 / Q5 / Q6: Abstufungen bei Quantisierung (Qualität vs. Speicher).

T–V

TTFT: „Time to First Token“ – wie schnell die erste sichtbare Antwort kommt.
tok/s: Tokens pro Sekunde, grobe Geschwindigkeitsmetrik.
TGI: Text Generation Inference (Serving-Stack von Hugging Face).
vLLM: Sehr schneller Inferenz-Server, besonders auf NVIDIA stark.
VRAM: Grafikspeicher – oft der größte limitierende Faktor bei lokalen Setups.

Hinweis: Das Glossar wird regelmäßig erweitert, sobald neue Begriffe in meinen Projekten auftauchen.