Offline-Evaluierung zeigt Ihnen, welche KI-Konfiguration bei Testdaten besser aussieht. A/B-Tests zeigen Ihnen, welche in der Produktion besser funktioniert — mit echten Benutzern und echten Eingaben. JieGous Bakeoff-System unterstützt beides — und dieser Leitfaden behandelt die Live-A/B-Test-Seite.
Wann A/B-Tests durchführen (vs. Offline-Evaluierung)
Offline-Bakeoffs (Vergleich von Ausgaben anhand eines festen Eingabesatzes) eignen sich hervorragend für:
- Initiale Modellauswahl vor dem Launch
- Prompt-Iteration während der Entwicklung
- Vergleich grundlegend verschiedener Ansätze
Live-A/B-Tests sind besser, wenn:
- Sie bereits auf 2 starke Kandidaten eingegrenzt haben
- Produktionseingaben sich von Ihrem Testset auf relevante Weise unterscheiden
- Sie die reale Performance über die Zeit messen möchten
- Stakeholder-Buy-in Produktionsdaten erfordert, nicht Testergebnisse
Einen A/B-Test einrichten
Hier ist der Schritt-für-Schritt-Prozess in JieGou:
Schritt 1: Einen Bakeoff mit A/B-Routing erstellen
Navigieren Sie zum Bakeoff-Bereich und wählen Sie „A/B Test Routing” als Modus. Wählen Sie die zwei Varianten, die Sie vergleichen möchten — das können zwei Recipes, zwei Modellkonfigurationen oder zwei Workflows sein.
Schritt 2: Die Traffic-Aufteilung konfigurieren
Standardmäßig wird der Traffic 50/50 zwischen den Varianten aufgeteilt. Sie können dies anpassen, wenn Sie konservativ vorgehen möchten — zum Beispiel 90/10, um die Exposition gegenüber der experimentellen Variante zu begrenzen und dennoch Daten zu sammeln.
Schritt 3: Auto-Stopp-Bedingungen festlegen
JieGou verwendet Chi-Quadrat-Statistiktests, um zu bestimmen, wann eine Variante signifikant besser als die andere ist. Sie können konfigurieren:
- Minimale Stichprobengröße — Einen Gewinner erst deklarieren, wenn mindestens N Ausführungen durch jede Variante gelaufen sind
- Signifikanzschwelle — Der p-Wert-Schwellenwert für die Deklaration eines Gewinners (Standard: 0,05)
Wenn die Auto-Stopp-Bedingung erfüllt ist, leitet JieGou automatisch 100 % des Traffics zur gewinnenden Variante um und benachrichtigt Sie.
Schritt 4: Ergebnisse überwachen
Während der Test läuft, zeigt das Bakeoff-Dashboard:
- Ausführungszahl pro Variante
- LLM-Judge-Bewertungen im Zeitverlauf
- Aktuelle statistische Signifikanz
- Geschätzte Zeit bis zur Signifikanz basierend auf dem aktuellen Traffic
Schritt 5: Überprüfen und finalisieren
Wenn der Test abgeschlossen ist (entweder durch Auto-Stopp oder manuelle Entscheidung), prüfen Sie die vollständigen Ergebnisse: Score-Verteilungen, Konfidenzintervalle, Kostenvergleich und Unterschiede in der Ausführungszeit. Befördern Sie dann die gewinnende Variante zum Standard.
Konsistenzgarantien
A/B-Routing-Entscheidungen werden in Redis gecacht. Sobald ein bestimmter Ausführungskontext einer Variante zugewiesen ist, bleibt er für die Dauer des Tests bei dieser Variante. Dies verhindert verwirrendes Verhalten, bei dem dasselbe Recipe bei aufeinanderfolgenden Läufen unterschiedliche Ergebnisse liefert.
Was messen
LLM-Judge-Scores sind die primäre Metrik, aber berücksichtigen Sie diese zusätzlichen Signale:
- Ausführungskosten — Eine etwas qualitativ schlechtere Variante, die 60 % weniger kostet, könnte die bessere Produktionswahl sein
- Ausführungszeit — Schnellere Antworten verbessern die Benutzererfahrung, selbst wenn die Qualität gleich ist
- Fehlerrate — Eine Variante, die zu 5 % der Zeit fehlschlägt, ist schlechter als eine, die nie fehlschlägt, selbst wenn ihre Erfolge höher bewertet werden
Praktische Tipps
- Tests mindestens 48 Stunden laufen lassen, um Variationen in den Eingabemustern über verschiedene Tageszeiten und Wochentage hinweg zu erfassen
- Nicht zu viele Dinge gleichzeitig A/B-testen — Modell und Prompt gleichzeitig zu ändern macht es unmöglich, den Unterschied zuzuordnen
- Ihre Hypothese vor dem Start dokumentieren — „Ich erwarte, dass die Claude-Variante bei Nuancen höher bewertet wird, aber 2x mehr kostet” hilft Ihnen zu beurteilen, ob die Ergebnisse umsetzbar sind
- Zuerst Offline-Bakeoffs verwenden, um das Feld einzugrenzen, dann die Top-2-Kandidaten in der Produktion A/B-testen
Verfügbarkeit
A/B-Test-Routing ist in Enterprise-Tarifen verfügbar. Offline-Bakeoffs (Recipe vs. Recipe, Modell vs. Modell) sind in Pro verfügbar. Mehr über alle Bakeoff-Modi erfahren.