LLM-as-Judge: Wie automatisierte AI-Evaluation funktioniert

Die Evaluation von AI-Ausgaben ist eines der schwierigsten Probleme in der angewandten AI. Menschliche Evaluation ist der Goldstandard, aber sie ist langsam, teuer und skaliert nicht. JieGous Bakeoff-System nutzt LLM-as-Judge — eine Technik, bei der ein Sprachmodell die Ausgabe eines anderen bewertet — um Qualitätsbewertung mit statistischer Strenge zu automatisieren.

So funktioniert es unter der Haube.

Das grundlegende Setup

In einem Bakeoff verarbeiten zwei Varianten (Recipes, Modelle oder Workflows) denselben Satz Eingaben. Jede produziert eine Ausgabe. Ein unabhängiger LLM-Judge — getrennt von den bewerteten Modellen — bewertet jede Ausgabe auf vordefinierten Dimensionen.

Der Judge sieht beide Ausgaben (anonymisiert als “Ausgabe A” und “Ausgabe B”) zusammen mit der ursprünglichen Eingabe und den Bewertungskriterien. Er produziert eine strukturierte Bewertung für jede Dimension: Qualität, Genauigkeit, Relevanz, Vollständigkeit und einen Gesamtgewinner.

Warum ein LLM als Judge verwenden?

Die Alternative ist manuelle Evaluation: einen Menschen jedes Ausgabepaar lesen und bewerten lassen. Für kleine Tests (5-10 Eingaben) ist das machbar. Für aussagekräftige statistische Analyse (50-100+ Eingaben) wird es zum Engpass.

LLM-Judges skalieren linear — die Evaluation von 100 Eingabepaaren dauert bei paralleler Ausführung genauso lange wie die von 10. Die Kosten sind vorhersehbar (es sind nur Tokens), und die Evaluation ist konsistent. Das Urteil eines Menschen driftet über eine lange Evaluationssitzung; das eines LLM nicht.

Der Kompromiss ist, dass LLM-Judges bekannte Verzerrungen haben: sie tendieren dazu, längere Ausgaben, formalere Sprache und Ausgaben zu bevorzugen, die ihrer eigenen Trainingsverteilung entsprechen. JieGou mindert dies durch Randomisierung der Präsentationsreihenfolge (A/B-Position) und Unterstützung von Multi-Judge-Konsens.

Multi-Judge-Konsens

Für Evaluationen mit hohem Einsatz unterstützt JieGou 2-3 unabhängige Judges. Jeder Judge bewertet unabhängig, und das System misst die Inter-Judge-Übereinstimmung mit zwei Rangkorrelationsmetriken:

Kendalls Tau misst den Anteil konkordanter vs. diskordanter Rangpaare zwischen Judges. Ein Tau von 1,0 bedeutet perfekte Übereinstimmung; 0,0 bedeutet keine Korrelation. In der Praxis deuten Tau-Werte über 0,7 auf starke Übereinstimmung hin.

Spearmans Rho misst Rangordnungskorrelation. Es ähnelt Kendalls Tau, ist aber empfindlicher für große Rangunterschiede. Rho-Werte über 0,8 deuten auf starke Übereinstimmung hin.

Wenn Judges signifikant nicht übereinstimmen (niedriges Tau/Rho), markiert das System den Bakeoff zur menschlichen Überprüfung, statt einen Gewinner zu erklären — weil nicht übereinstimmende Judges normalerweise bedeuten, dass die Ausgaben qualitativ nah beieinander liegen oder die Evaluationskriterien mehrdeutig sind.

Statistische Konfidenz

Jede Bewertung in einem Bakeoff enthält:

Mittelwert über alle Eingaben
Standardabweichung, die die Bewertungskonsistenz zeigt
95%-Konfidenzintervall, damit Sie den Bereich der wahren Leistung kennen

Ein Bakeoff, der Variante A mit 7,2 (KI: 6,8-7,6) vs. Variante B mit 7,0 (KI: 6,5-7,5) zeigt, hat überlappende Konfidenzintervalle — der Unterschied ist statistisch nicht signifikant. Sie bräuchten mehr Eingaben oder einen anderen Evaluationsansatz.

Ein Bakeoff, der Variante A bei 8,1 (KI: 7,7-8,5) vs. Variante B bei 6,3 (KI: 5,9-6,7) zeigt, hat nicht überlappende Intervalle — das ist ein klarer Gewinner.

Kostenbetrachtungen

LLM-as-Judge fügt Evaluationskosten zu den Basisausführungskosten hinzu. Jeder Judge-Aufruf verarbeitet beide Ausgaben plus den Bewertungsprompt, was typischerweise 2-4x die Token-Anzahl einer einzelnen Ausgabe ausmacht.

Der Multi-Judge-Modus multipliziert dies: 3 Judges bedeuten 3x die Evaluationskosten. JieGou zeigt geschätzte Kosten, bevor Sie einen Bakeoff starten, damit Sie entscheiden können, ob das Evaluationsbudget es wert ist.

Für kostensensitive Szenarien gibt der Single-Judge-Modus mit mehr Eingaben oft bessere statistische Aussagekraft als der Multi-Judge-Modus mit weniger Eingaben.

Praktische Empfehlungen

Basierend auf unserer Erfahrung mit Tausenden intern durchgeführter Bakeoffs:

Beginnen Sie mit 20-30 Eingaben für ein erstes Signal, dann skalieren Sie auf 50-100 für Produktionsentscheidungen
Verwenden Sie synthetische Eingaben, wenn Sie nicht genug reale Daten haben — sie decken Grenzfälle ab, die reale Daten übersehen könnten
Ein Judge reicht für klare Unterschiede (> 1 Punkt Abstand). Verwenden Sie Multi-Judge für knappe Ergebnisse
Prüfen Sie Konfidenzintervalle vor dem Handeln — überlappende Intervalle bedeuten, Sie brauchen mehr Daten, keine Entscheidung
Variieren Sie Ihre Judges — Claude zur Bewertung von Claude-Ausgaben zu verwenden kann Selbstpräferenz-Verzerrung einführen; anbieterübergreifende Bewertung reduziert dies

Mehr erfahren

Bakeoffs sind in den Pro- und Enterprise-Tarifen verfügbar. Die vollständige Bakeoff-Feature-Seite ansehen für Details zu allen sechs Evaluationsmodi.