レシピを構築しました。プロンプトは正しそうです。手作りの入力で1回実行し、出力は良さそうでした。デプロイする準備はできた?
まだ早いです。1つの入力はテストスイートではありません。レシピは丁寧に書いた例は完璧に処理するかもしれませんが、実際のユーザーが送る乱雑で不完全で矛盾した入力では崩壊するかもしれません。体系的なテストなしのデプロイは賭けです — そしてほとんどのチームは本番で何かが壊れるまで確率に気づきません。
Test My Recipeは推測を排除します。リアルな入力を生成し、各入力に対してレシピを実行し、何もコミットする前に結果がストリーミングされるのを確認できます。
手動テストの問題
ほとんどのチームは同じ方法でレシピをテストします:入力を入力し、実行を押し、出力を読み、繰り返す。このアプローチには3つの問題があります。
遅い。 手動で入力を入力し、各結果を待ち、品質を頭で評価するとテストあたり数分かかります。20のバリエーションをテストすると1時間かかります。
偏りがある。 ユーザーが送ると思うものに基づいて入力を書きます。入力分布のメンタルモデルは間違っています — 常にそうです。実際の入力にはタイプミス、欠落フィールド、矛盾する指示、想像もしなかったエッジケースが含まれます。
再現できない。 何をテストしたか、結果がどうだったか、前回のプロンプト編集後にレシピが改善されたかの記録がありません。すべてのテストサイクルがゼロから始まります。
リアルな入力の生成
レシピの詳細ページでTest Recipeボタンをクリックすると、JieGouが合成テスト入力を生成します。生成はレシピの入力スキーマ — フィールド名、型、説明、提供した例 — を使用してN個のリアルなバリエーションを生成(5から50まで設定可能)。
生成された入力はランダムノイズではありません。リアルなスペクトルをカバー:整形された入力、最小限の情報のエッジケース、矛盾する要件の入力、レシピが処理するよう設計されたものの限界を押す入力。レシピの仕様を読んでテストケースを書く自動QAエンジニアと考えてください。
実行開始前に生成された入力をレビューできます。関連しないものを削除、特定のシナリオをターゲットするよう編集、または独自のカスタム入力をセットに追加。目標は合成的な演習ではなく現実を反映するテストスイートです。
NDJSONによるリアルタイムストリーミング
テスト実行を開始すると、JieGouがレシピを各入力に対して順次実行します。結果はNDJSON(改行区切りJSON)を使用してリアルタイムでブラウザにストリームバック — 各行が1つのイベントを表す完全なJSONオブジェクトです。
TestMyRecipeModalは4つのフェーズを経過:
- Idle — 設定と開始の準備完了
- Generating — 合成入力を作成中
- Running — レシピが各入力に対して実行中、結果がストリーミング
- Complete — すべてのテスト完了、サマリー利用可能
Runningフェーズ中、結果が1つずつ到着します。バッチ全体の完了を待つ必要なし。単一のローディング状態の裏にすべての進捗を隠すスピナーなし。各結果は実行完了と同時に表示されるため、後のテストがまだ実行中でも出力のレビューを開始できます。
結果の読み方
テスト実行完了時、結果ビューは2レベルの詳細を提供。
サマリー統計で全体像を一目把握:合計テスト数、成功数、失敗数、平均実行時間、平均トークン使用量。20のうち18が成功で2が失敗なら、レシピに対処すべきギャップがあることが即座に分かります。
テストごとのアコーディオンで個別の実行にドリルダウン。任意のテストを展開して送信された入力、返された完全な出力、実行時間、トークン数、エラーメッセージを確認。入力と出力の並列比較で、レシピがリクエストを理解し有用な結果を生成したか判断しやすくなります。
監査証跡統合
すべてのテスト実行はrecipe.tested監査アクションとしてログされます。監査レコードは誰がテストを実行したか、いつ、どのレシピがテストされたか、何個の入力が生成されたか、成功/失敗の内訳をキャプチャします。
2つの目的があります。第一に、コンプライアンス要件のあるチーム向けにアカウンタビリティ証跡を作成 — レシピがデプロイ前にテストされたことを証明できます。第二に、テスト活動の履歴記録を提供。レシピが本番で異常動作を始めた時、監査ログで最後にいつテストされ結果がどうだったかを確認できます。
本番信頼度のために重要な理由
「試したら動いた」と「スケールで確実に動く」のギャップは、ほとんどのAI自動化の失敗が起きる場所です。レシピは入力の90%を完璧に処理しても残りの10%でナンセンスを生成するかもしれません。体系的なテストなしでは、その10%の失敗率は実際のユーザーが遭遇して初めて可視化されます。
Test My Recipeはこのギャップを埋めます。入力を生成し、結果がストリーミングされるのを確認し、サマリーをレビューし、問題を修正し、再テスト。全サイクルが数時間ではなく数分で完了。
継続的モニタリングのQuality Guard、プロンプト比較のBakeoffと組み合わせて、Test My Recipeは品質ライフサイクルを完成させます:デプロイ前にテスト、実験時に比較、出荷後にモニタリング。
Test My Recipeはすべてのプランで利用可能です。今すぐ試す。