Schlechte GPU-Kernel sind einer der härtesten Flaschenhälse in produktiven LLM-Setups. Selbst erfahrene ML-Ingenieure brauchen oft Wochen oder Monate, um einen MatMul-Kernel wirklich auszureizen — während sich Modelle und Workloads in der Zwischenzeit weiter verändern.
RightNow AI stellt mit AutoKernel ein Framework vor, das diesen Prozess einem autonomen LLM-Agenten überlässt. Die Idee ist simpel: schreiben, messen, behalten oder verwerfen — und das hunderte Male hintereinander.
Der Kern: Keep oder Revert, Iteration für Iteration
AutoKernel arbeitet auf einem zentralen File (kernel.py), das der Agent in jeder Iteration verändert. Ein fester Benchmark-Harness prüft Korrektheit und misst den Durchsatz per Triton do_bench. Ist das Ergebnis besser, bleibt die Änderung. Ist es schlechter, wird sauber per Git zurückgesetzt.
Eine Iteration dauert rund 90 Sekunden:
- ~30 Sekunden Korrektheitscheck
- ~30 Sekunden Benchmark
- ~30 Sekunden Reasoning + Codeänderung
Damit schafft das System ungefähr 40 Experimente pro Stunde — über Nacht 300 bis 400 Versuche über mehrere Kernel hinweg.
Korrektheit zuerst: Fünfstufiger Test-Harness
AutoKernel wäre ohne Validierung wertlos. Jeder Kandidat muss einen fünfstufigen Harness bestehen, bevor Performance überhaupt gezählt wird: Rauchtests, Shape-Sweeps, numerische Stabilität, Determinismus und Edge-Case-Abdeckung.
Ergebnisse auf NVIDIA H100
- RMSNorm: 5,29x über PyTorch Eager, 2,83x über
torch.compile - Softmax: 2,82x über Eager, 3,44x über
torch.compile - Cross-Entropy: 2,21x über Eager, 2,94x über
torch.compile
In einem Community-Deployment erreichte ein AutoKernel-optimierter Kernel sogar Platz 1 im vectorsum_v2-B200-Leaderboard.
Darum das für Ops-Teams wichtig ist
Für Teams mit eigenem Triton-/CUDA-Stack (z. B. Inference-Engines wie vLLM oder interne Export-Pipelines) kann so ein Agenten-Loop den Optimierungszyklus deutlich verkürzen. Statt wenigen manuellen Hypothesen pro Tag bekommst du hunderte maschinell evaluierte Varianten mit sauberem Keep/Revert-Verlauf.
Wichtig bleibt: AutoKernel ersetzt keine Architekturentscheidungen. Aber es kann den operativen Engpass „zu wenig Kernel-Optimierungszeit“ stark entspannen.
Quellen
arXiv: https://arxiv.org/abs/2603.21331
GitHub: https://github.com/rightnow-ai/autokernel

Leave a Reply