GPU-Kernel-Optimierung: Über Nacht schnellerer Code dank autonomem Agenten-Loop

Schlechte GPU-Kernel sind einer der härtesten Flaschenhälse in produktiven LLM-Setups. Selbst erfahrene ML-Ingenieure brauchen oft Wochen oder Monate, um einen MatMul-Kernel wirklich auszureizen — während sich Modelle und Workloads in der Zwischenzeit weiter verändern.

RightNow AI stellt mit AutoKernel ein Framework vor, das diesen Prozess einem autonomen LLM-Agenten überlässt. Die Idee ist simpel: schreiben, messen, behalten oder verwerfen — und das hunderte Male hintereinander.

Der Kern: Keep oder Revert, Iteration für Iteration

AutoKernel arbeitet auf einem zentralen File (kernel.py), das der Agent in jeder Iteration verändert. Ein fester Benchmark-Harness prüft Korrektheit und misst den Durchsatz per Triton do_bench. Ist das Ergebnis besser, bleibt die Änderung. Ist es schlechter, wird sauber per Git zurückgesetzt.

Eine Iteration dauert rund 90 Sekunden:

  • ~30 Sekunden Korrektheitscheck
  • ~30 Sekunden Benchmark
  • ~30 Sekunden Reasoning + Codeänderung

Damit schafft das System ungefähr 40 Experimente pro Stunde — über Nacht 300 bis 400 Versuche über mehrere Kernel hinweg.

Korrektheit zuerst: Fünfstufiger Test-Harness

AutoKernel wäre ohne Validierung wertlos. Jeder Kandidat muss einen fünfstufigen Harness bestehen, bevor Performance überhaupt gezählt wird: Rauchtests, Shape-Sweeps, numerische Stabilität, Determinismus und Edge-Case-Abdeckung.

Ergebnisse auf NVIDIA H100

  • RMSNorm: 5,29x über PyTorch Eager, 2,83x über torch.compile
  • Softmax: 2,82x über Eager, 3,44x über torch.compile
  • Cross-Entropy: 2,21x über Eager, 2,94x über torch.compile

In einem Community-Deployment erreichte ein AutoKernel-optimierter Kernel sogar Platz 1 im vectorsum_v2-B200-Leaderboard.

Darum das für Ops-Teams wichtig ist

Für Teams mit eigenem Triton-/CUDA-Stack (z. B. Inference-Engines wie vLLM oder interne Export-Pipelines) kann so ein Agenten-Loop den Optimierungszyklus deutlich verkürzen. Statt wenigen manuellen Hypothesen pro Tag bekommst du hunderte maschinell evaluierte Varianten mit sauberem Keep/Revert-Verlauf.

Wichtig bleibt: AutoKernel ersetzt keine Architekturentscheidungen. Aber es kann den operativen Engpass „zu wenig Kernel-Optimierungszeit“ stark entspannen.


Quellen
arXiv: https://arxiv.org/abs/2603.21331
GitHub: https://github.com/rightnow-ai/autokernel

Das passt auch noch dazu

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *