Bakeoffs sagen Ihnen, welcher Prompt zu einem bestimmten Zeitpunkt besser ist. Aber Prompts degradieren. Modell-Updates ändern das Verhalten. Eingabeverteilungen verschieben sich. Ein Recipe, das letzten Monat 92 Punkte erzielte, könnte heute 74 erzielen, und Sie werden es nicht wissen, bis ein Kunde sich beschwert.
Sie brauchen kontinuierliches Monitoring, nicht einmalige Evaluation. Das ist, was Quality Guard macht.
Wie Quality Guard funktioniert
Quality Guard wird von der Detailseite eines Recipes aus aktiviert. Einmal aktiviert, sampelt es Produktionsausführungen mit einer konfigurierbaren Rate — Standard 5%, einstellbar von 1% bis 20%. Jede gesampelte Ausführung wird automatisch von einem LLM-Judge mit gewichteten Kriterien bewertet.
Die Bewertung ist Fire-and-Forget: Sie blockiert nie den Abschluss der Ausführung. Ihre Produktionslatenz ist unbeeinflusst. Die Evaluation erfolgt asynchron nach Abschluss der Ausführung.
Zwei Kontrollen halten die Kosten vorhersehbar:
- Tägliches Budget-Cap — Standard 20 Evaluierungen pro Tag, konfigurierbar von 1 bis 100
- Judge-Modell — Standard ist Claude Haiku 4.5 für Kosteneffizienz. Wechseln Sie zu Sonnet für höhere Evaluierungsgenauigkeit, wenn die Einsätze es rechtfertigen
Budget-Tracking wird durch Redis unterstützt mit Fail-Open-Verhalten — wenn Redis vorübergehend nicht verfügbar ist, laufen Evaluierungen weiter, statt stillschweigend auszufallen.
Evaluierungskriterien
Jede gesampelte Ausführung wird von 0 bis 100 mit gewichteten Kriterien bewertet:
| Kriterium | Gewichtung | Was es misst |
|---|---|---|
| Relevanz | 30% | Wie gut die Ausgabe die Eingabe adressiert |
| Vollständigkeit | 25% | Ob alle Aspekte der Anfrage abgedeckt sind |
| Klarheit | 20% | Organisation und Lesbarkeit |
| Genauigkeit | 15% | Faktische Korrektheit, Abwesenheit von Halluzinationen |
| Format | 10% | Einhaltung der erwarteten Ausgabestruktur |
Das sind die Standardwerte. Sie können die Kriterien anpassen, die Gewichtungen ändern und das Judge-Modell pro Recipe wechseln. Ein Recipe, das strukturiertes JSON generiert, könnte Format mit 40% gewichten. Ein Recherchezusammenfassungs-Recipe könnte Genauigkeit mit 35% gewichten.
Baseline-Ermittlung
Wenn Sie Quality Guard erstmals aktivieren, tritt es in eine Sammelphase ein. Evaluierungen akkumulieren sich ohne Drift-Analyse — es gibt noch keine Baseline zum Vergleich.
Nach 20 Evaluierungen (konfigurierbar) wird die Baseline automatisch berechnet. Sie speichert:
- Mittelwert und Standardabweichung der Gesamtscores
- Perzentile: p5, p25, p50, p75, p95
- Pro-Kriterium-Statistiken — Mittelwert und Standardabweichung für jedes einzelne Kriterium
Sobald die Baseline ermittelt ist, wird eine Benachrichtigung an alle konfigurierten Warnungsempfänger gesendet. Von diesem Punkt an wird jede neue Evaluierung gegen die Baseline verglichen.
Sie können die Baseline jederzeit manuell zurücksetzen oder neu berechnen — nützlich nach einer bewussten Prompt-Änderung, von der Sie erwarten, dass sie die Scores verschiebt.
Drift-Erkennung
Quality Guard verwendet ein rollendes Fenster aktueller Evaluierungen (Standard 30, Minimum 5), um zwei Arten von Drift zu erkennen:
Score-Abfälle. Der rollende Mittelwert wird mit dem Baseline-Mittelwert verglichen. Zwei Schwellenwerte lösen Warnungen aus:
- Warnung — 10-Punkte-Abfall von der Baseline (konfigurierbar 5-30)
- Kritisch — 20-Punkte-Abfall von der Baseline (konfigurierbar 10-50)
Varianz-Spitzen. Wenn die rollende Standardabweichung 2x die Baseline-Standardabweichung übersteigt, markiert Quality Guard die Qualität als inkonsistent werdend — selbst wenn sich der Mittelwert nicht geändert hat. Das fängt Situationen ab, in denen ein Recipe zwischen großartigen und schrecklichen Ausgaben wechselt.
Die Mindestanforderung von 5 Evaluierungen für das rollende Fenster verhindert Falsch-Positive durch frühes Rauschen.
Benachrichtigungen
Wenn Drift erkannt wird, benachrichtigt Quality Guard über zwei Kanäle:
In-App-Benachrichtigungen gehen sofort an alle konfigurierten Warnungsempfänger. Jede Benachrichtigung enthält den Schweregrad, den aktuellen rollenden Score, den Baseline-Score und das Ausmaß der Drift.
E-Mail-Warnungen verwenden schwere-farbkodiertes Styling — Rot für kritische Drift, Amber für Warnungen. E-Mails enthalten dieselben Metriken plus einen direkten Link zum Qualitäts-Dashboard des Recipes.
Eine Warnungs-Abklingzeit verhindert Benachrichtigungsmüdigkeit. Der Standard ist 6 Stunden (konfigurierbar von 60 bis 1440 Minuten). Während der Abklingzeit wird Drift weiter verfolgt, aber zusätzliche Warnungen werden unterdrückt. Alle Warnungen sind bestätigbar und werden verfolgt — Sie können sehen, wer was bestätigt hat und wann.
Auto-Remediation
Quality Guard warnt nicht nur. Es handelt.
Prompt-Verfeinerung. Wenn Drift erkannt wird, löst Quality Guard automatisch eine Prompt-Verfeinerungsanalyse aus. Es untersucht die bestbewerteten und schlechtestbewerteten aktuellen Ausführungen, identifiziert Muster in dem, was sich verschlechtert, und schlägt spezifische Prompt-Verbesserungen vor. Rate-Limit: einmal pro 24 Stunden.
Mini-Bakeoffs. Quality Guard kann automatisch einen Mini-Bakeoff auslösen, der den aktuellen Prompt mit den vorgeschlagenen Verbesserungen vergleicht. Das schließt die Schleife — Drift wird erkannt, eine Lösung vorgeschlagen und die Lösung evaluiert, alles ohne manuellen Eingriff. Rate-Limit: einmal pro 7 Tage.
Wissensdatenbank-Erfassung. Hochqualitative Ausgaben (Score >= 85) werden automatisch in die Wissensdatenbank des Recipes aufgenommen und bauen über die Zeit eine Bibliothek exzellenter Beispiele auf.
Few-Shot-Nominierung. Gute Ausgaben (Score >= 80) werden automatisch als Few-Shot-Beispiele für den Prompt des Recipes nominiert. Die besten Ausgaben lehren das Recipe, wie es mehr Ausgaben wie sie produzieren kann.
Qualitäts-Dashboard
Das Qualitäts-Dashboard gibt Ihnen Sichtbarkeit über alle überwachten Recipes.
Trenddiagramm. Eine SVG-Visualisierung zeigt die Score-Linie (Indigo), den Baseline-Mittelwert (gestrichelt grün), das Interquartilbereich-Band (grüne Schattierung) und Drift-Markierungen — rote Kreise für kritisch, Amber für Warnungen. Sie sehen genau, wann sich die Qualität geändert hat und um wie viel.
Recipe-Sparklines. Jedes überwachte Recipe zeigt eine 14-Tage-Trend-Sparkline, einen rollenden 7-Tage-Durchschnitt und einen Trendpfeil (auf, ab oder stabil). Scannen Sie die Liste und erkennen Sie sofort, welche Recipes Aufmerksamkeit brauchen.
Pro-Kriterium-Aufschlüsselung. Gehen Sie in jedes Recipe, um zu sehen, wie einzelne Kriterien trenden. Ein Recipe könnte hohe Relevanz und Vollständigkeit beibehalten, während die Genauigkeit abnimmt — ein Muster, das in einem Gesamtscore unsichtbar ist.
Verbesserungsbericht. Eine Zusammenfassungsansicht über alle Recipes: wie viele sich verbessert haben, wie viele stabil sind, wie viele sich verschlechtert haben. Durchschnittliche Score-Änderung. Ausgelöste Mini-Bakeoffs. Das ist die Ansicht für wöchentliche Team-Reviews.
Wie sich Quality Guard von Bakeoffs unterscheidet
Bakeoffs und Quality Guard lösen verschiedene Probleme:
| Bakeoffs | Quality Guard | |
|---|---|---|
| Timing | Einmalig, auf Abruf | Kontinuierlich, automatisiert |
| Vergleich | Relativ (A vs. B) | Absolut (vs. Baseline) |
| Zweck | Experimentieren und wählen | Überwachen und aufrechterhalten |
| Auslöser | Manuell | Automatisch (Produktions-Sampling) |
Sie ergänzen sich. Quality Guard überwacht. Bakeoffs experimentieren. Wenn Quality Guard Drift erkennt, kann es automatisch einen Bakeoff auslösen, um eine Lösung zu testen. Wenn ein Bakeoff einen Gewinner wählt und Sie ihn deployen, erstellt Quality Guard eine neue Baseline und beobachtet die nächste Regression.
Kostenkontrolle
Quality Guard ist darauf ausgelegt, unbegrenzt ohne unkontrollierte Kosten zu laufen. Drei Mechanismen halten die Ausgaben vorhersehbar:
- Samplingrate — Nur ein Bruchteil der Ausführungen wird evaluiert (Standard 5%)
- Tägliches Budget-Cap — Harte Grenze für Evaluierungen pro Tag (Standard 20)
- Judge-Modell-Wahl — Haiku für kosteneffizientes Monitoring, Sonnet für hochgenaue Evaluation
Bei Standardeinstellungen mit Claude Haiku 4.5 als Judge kostet ein Recipe mit 400 Ausführungen pro Tag ungefähr 20 Judge-Evaluierungen — gut innerhalb des Budget-Caps. Redis-gestütztes Budget-Tracking stellt sicher, dass das Cap über verteilte Worker hinweg durchgesetzt wird.
Verfügbarkeit
Quality Guard ist ab Pro-Plänen und höher verfügbar. Erfahren Sie mehr über Quality Guard und andere Features oder starten Sie Ihre kostenlose Testversion.