GPU-Kernel-Optimierung: Über Nacht schnellerer Code dank autonomem Agenten-Loop

Schlechte GPU-Kernel sind einer der härtesten Flaschenhälse in produktiven LLM-Setups. Selbst erfahrene ML-Ingenieure brauchen oft Wochen oder Monate, um einen MatMul-Kernel wirklich auszureizen — während sich Modelle und Workloads in der Zwischenzeit weiter verändern.

RightNow AI stellt mit AutoKernel ein Framework vor, das diesen Prozess einem autonomen LLM-Agenten überlässt. Die Idee ist simpel: schreiben, messen, behalten oder verwerfen — und das hunderte Male hintereinander.

Der Kern: Keep oder Revert, Iteration für Iteration

AutoKernel arbeitet auf einem zentralen File (kernel.py), das der Agent in jeder Iteration verändert. Ein fester Benchmark-Harness prüft Korrektheit und misst den Durchsatz per Triton do_bench. Ist das Ergebnis besser, bleibt die Änderung. Ist es schlechter, wird sauber per Git zurückgesetzt.

Eine Iteration dauert rund 90 Sekunden:

~30 Sekunden Korrektheitscheck
~30 Sekunden Benchmark
~30 Sekunden Reasoning + Codeänderung

Damit schafft das System ungefähr 40 Experimente pro Stunde — über Nacht 300 bis 400 Versuche über mehrere Kernel hinweg.

Korrektheit zuerst: Fünfstufiger Test-Harness

AutoKernel wäre ohne Validierung wertlos. Jeder Kandidat muss einen fünfstufigen Harness bestehen, bevor Performance überhaupt gezählt wird: Rauchtests, Shape-Sweeps, numerische Stabilität, Determinismus und Edge-Case-Abdeckung.

Ergebnisse auf NVIDIA H100

RMSNorm: 5,29x über PyTorch Eager, 2,83x über torch.compile
Softmax: 2,82x über Eager, 3,44x über torch.compile
Cross-Entropy: 2,21x über Eager, 2,94x über torch.compile

In einem Community-Deployment erreichte ein AutoKernel-optimierter Kernel sogar Platz 1 im vectorsum_v2-B200-Leaderboard.

Darum das für Ops-Teams wichtig ist

Für Teams mit eigenem Triton-/CUDA-Stack (z. B. Inference-Engines wie vLLM oder interne Export-Pipelines) kann so ein Agenten-Loop den Optimierungszyklus deutlich verkürzen. Statt wenigen manuellen Hypothesen pro Tag bekommst du hunderte maschinell evaluierte Varianten mit sauberem Keep/Revert-Verlauf.

Wichtig bleibt: AutoKernel ersetzt keine Architekturentscheidungen. Aber es kann den operativen Engpass „zu wenig Kernel-Optimierungszeit“ stark entspannen.

Quellen
arXiv: https://arxiv.org/abs/2603.21331
GitHub: https://github.com/rightnow-ai/autokernel

GPU-Kernel-Optimierung: Über Nacht schnellerer Code dank autonomem Agenten-Loop

Der Kern: Keep oder Revert, Iteration für Iteration

Korrektheit zuerst: Fünfstufiger Test-Harness

Ergebnisse auf NVIDIA H100

Darum das für Ops-Teams wichtig ist

Das passt auch noch dazu

Comments

Leave a Reply Cancel reply

More posts

Breaking: AWS erklärt Amazon Nova Act als HIPAA-eligible

Breaking: OpenAI wird im Gartner-Umfeld als Leader für Agentic Coding positioniert

Breaking: Amazon Bedrock AgentCore soll die Context-Window-Grenze aufbrechen

Breaking: NVIDIA bringt Nemotron-Diffusion-LLMs auf Hugging Face