Skip to content
Produkt

Test My Recipe: Ergebnisse in Echtzeit sehen, bevor Sie in Produktion gehen

JieGous Test-My-Recipe-Feature generiert synthetische Eingaben, führt Ihr Recipe gegen jede aus und streamt Ergebnisse in Echtzeit über NDJSON zurück -- damit Sie genau wissen, wie ein Recipe performt, bevor es Produktionstraffic berührt.

JT
JieGou Team
· · 5 Min. Lesezeit

Sie haben ein Recipe erstellt. Der Prompt sieht richtig aus. Sie haben es einmal mit einer handgefertigten Eingabe ausgeführt und die Ausgabe sah gut aus. Zeit zum Deployen?

Nicht so schnell. Eine Eingabe ist keine Test-Suite. Das Recipe könnte Ihr sorgfältig geschriebenes Beispiel perfekt handhaben und bei den unordentlichen, unvollständigen, widersprüchlichen Eingaben, die echte Benutzer senden, zusammenbrechen. Ohne systematisches Testen zu deployen ist eine Wette — und die meisten Teams erkennen die Chancen erst, wenn etwas in der Produktion bricht.

Test My Recipe eliminiert das Rätselraten. Generieren Sie realistische Eingaben, führen Sie das Recipe gegen jede aus und beobachten Sie, wie Ergebnisse einströmen, bevor Sie sich zu irgendetwas verpflichten.

Das Problem mit manuellem Testen

Die meisten Teams testen Recipes auf dieselbe Weise: Eingabe tippen, auf Ausführen klicken, Ausgabe lesen, wiederholen. Dieser Ansatz hat drei Probleme.

Es ist langsam. Eingaben von Hand tippen, auf jedes Ergebnis warten und Qualität mental bewerten dauert Minuten pro Test. 20 Variationen zu testen dauert eine Stunde, die Sie nicht haben.

Es ist verzerrt. Sie schreiben Eingaben basierend auf dem, was Sie denken, dass Benutzer senden werden. Ihr mentales Modell der Eingabeverteilung ist falsch — es ist immer falsch. Echte Eingaben enthalten Tippfehler, fehlende Felder, widersprüchliche Anweisungen und Grenzfälle, die Sie sich nie vorgestellt haben.

Es ist nicht wiederholbar. Es gibt keine Aufzeichnung dessen, was Sie getestet haben, was die Ergebnisse waren oder ob sich das Recipe nach Ihrer letzten Prompt-Bearbeitung verbessert hat. Jeder Testzyklus startet bei null.

Realistische Eingaben generieren

Klicken Sie auf den Test Recipe-Button auf der Detailseite eines Recipes und JieGou generiert synthetische Testeingaben für Sie. Die Generierung verwendet das Eingabeschema des Recipes — Feldnamen, Typen, Beschreibungen und bereitgestellte Beispiele — um N realistische Variationen zu produzieren (konfigurierbar von 5 bis 50).

Die generierten Eingaben sind kein zufälliges Rauschen. Sie decken das realistische Spektrum ab: wohlgeformte Eingaben, Grenzfälle mit minimalen Informationen, Eingaben mit widersprüchlichen Anforderungen und Eingaben, die die Grenzen dessen testen, wofür das Recipe konzipiert wurde. Denken Sie daran wie an einen automatisierten QA-Ingenieur, der die Spezifikation Ihres Recipes liest und Testfälle schreibt.

Sie können die generierten Eingaben vor dem Ausführungsstart überprüfen. Löschen Sie irrelevante, bearbeiten Sie andere für spezifische Szenarien oder fügen Sie Ihre eigenen benutzerdefinierten Eingaben hinzu. Das Ziel ist eine Test-Suite, die die Realität widerspiegelt, keine synthetische Übung.

Echtzeit-Streaming mit NDJSON

Sobald Sie den Testlauf starten, führt JieGou das Recipe sequenziell gegen jede Eingabe aus. Ergebnisse werden in Echtzeit über NDJSON (Newline-Delimited JSON) an Ihren Browser gestreamt — jede Zeile ist ein vollständiges JSON-Objekt, das ein Event darstellt.

Das TestMyRecipeModal durchläuft vier Phasen:

  1. Bereit — Bereit zum Konfigurieren und Starten
  2. Generieren — Synthetische Eingaben werden erstellt
  3. Ausführen — Recipe wird gegen jede Eingabe ausgeführt, mit Ergebnissen, die einströmen
  4. Abgeschlossen — Alle Tests fertig, Zusammenfassung verfügbar

Während der Ausführungsphase sehen Sie Ergebnisse einzeln ankommen. Kein Warten, bis der gesamte Batch fertig ist. Kein Spinner, der allen Fortschritt hinter einem einzelnen Ladezustand versteckt. Jedes Ergebnis erscheint, sobald seine Ausführung abgeschlossen ist, sodass Sie Ausgaben lesen können, während spätere Tests noch laufen.

Die Ergebnisse lesen

Wenn der Testlauf abgeschlossen ist, gibt Ihnen die Ergebnisansicht zwei Detailstufen.

Zusammenfassungsstatistiken zeigen das große Bild auf einen Blick: Gesamttests, Erfolgszahl, Fehlerzahl, durchschnittliche Ausführungszeit und durchschnittliche Token-Nutzung. Wenn 18 von 20 Tests erfolgreich waren, aber 2 fehlgeschlagen sind, wissen Sie sofort, dass das Recipe Lücken hat.

Pro-Test-Akkordeons lassen Sie in jede einzelne Ausführung einsteigen. Erweitern Sie einen Test, um die gesendete Eingabe, die vollständige zurückgegebene Ausgabe, die Ausführungszeit, Token-Zahl und Fehlermeldungen zu sehen. Nebeneinander-Vergleich von Eingabe und Ausgabe macht es einfach zu beurteilen, ob das Recipe die Anfrage verstanden und ein nützliches Ergebnis produziert hat.

Audit-Trail-Integration

Jeder Testlauf wird als recipe.tested-Audit-Aktion protokolliert. Die Audit-Aufzeichnung erfasst, wer den Test ausgeführt hat, wann, welches Recipe getestet wurde, wie viele Eingaben generiert wurden und die Erfolgs/Fehler-Aufschlüsselung.

Das dient zwei Zwecken. Erstens erstellt es einen Verantwortlichkeits-Trail für Teams mit Compliance-Anforderungen — Sie können nachweisen, dass Recipes vor dem Deployment getestet wurden. Zweitens gibt es Ihnen eine historische Aufzeichnung der Testaktivität.

Audit-Aufzeichnungen sind im Operations Hub neben anderen Systemaktivitäten sichtbar, sodass Tests Teil derselben operativen Sichtbarkeit wie Ausführung, Genehmigungen und Konfigurationsänderungen sind.

Warum das für Produktionsvertrauen wichtig ist

Die Lücke zwischen “es hat funktioniert, als ich es ausprobiert habe” und “es funktioniert zuverlässig im großen Maßstab” ist, wo die meisten AI-Automatisierungsfehler passieren. Ein Recipe könnte 90% der Eingaben perfekt handhaben, aber bei den anderen 10% Unsinn produzieren. Ohne systematisches Testen wird diese 10%-Fehlerrate erst sichtbar, nachdem echte Benutzer sie erleben.

Test My Recipe schließt diese Lücke, indem es schnell und einfach wird, eine aussagekräftige Test-Suite vor jedem Deployment auszuführen. Eingaben generieren, Ergebnisse einströmen sehen, die Zusammenfassung überprüfen, Probleme beheben und erneut testen. Der gesamte Zyklus dauert Minuten, nicht Stunden.

Kombiniert mit Quality Guard für laufendes Monitoring und Bakeoffs für Prompt-Vergleich vervollständigt Test My Recipe den Qualitätslebenszyklus: testen vor dem Deployen, vergleichen beim Experimentieren, überwachen nach dem Shipping.

Test My Recipe ist in allen Plänen verfügbar. Jetzt ausprobieren.

recipes testing streaming quality developer-experience
Diesen Artikel teilen

Hat Ihnen dieser Artikel gefallen?

Erhalten Sie Workflow-Tipps, Produktupdates und Automatisierungsleitfäden direkt in Ihren Posteingang.

No spam. Unsubscribe anytime.