プロンプトエンジニアリングはほとんどのチームにとって試行錯誤です。バージョン履歴なし。イテレーション14とイテレーション11を比較する方法なし。本番品質をプロンプト変更にフィードバックする体系的なループなし。
Prompt Engineering Studioはこれを解決するために構築しました。レシピエディタに直接埋め込まれた折りたたみ可能なパネルです。5つのタブ:Token Budget、Variables、Versions、Few-Shot、Optimizer。
バージョン追跡とDiff比較
すべてのプロンプト変更がFirestoreサブコレクションにバージョンを作成。各バージョンにはバージョン番号、テンプレートテキスト、前バージョンとの類似度スコア(正規化Levenshtein距離)、著者、チェンジログが保存されます。
品質メトリクスはバージョンごとに追跡:合計実行数、成功数、👍数、👎数。Diffビューアは任意の2バージョン間の行単位比較を表示。ロールバックは非破壊的 — 以前のバージョンを復元すると古いコンテンツで新しいバージョンが作成されます。
ライブトークンバジェットビジュアライゼーション
入力中にコンテキストウィンドウ使用率を示すリアルタイムバーチャート。モデル認識 — Claudeでは200Kトークンにスケール、GPT-4oでは128Kに再スケール、Geminiでは1Mに拡張。
Variable Inspector
{{variable}}と{{fragment:name}}参照をリアルタイムで検出。各変数をレシピのinputSchemaと照合し、Matched(緑)、Orphan(黄)、Unused(赤)、Fragment(青)のステータスを割り当てます。
Few-Shot Example管理
成功した実行をキュレートされた例としてピン留め。各例の出力は編集可能。品質スコアリングがランタイムで表示される例を決定。3つの検索戦略:フィードバックベース、最近、類似。
AI駆動オプティマイザー
3つのティアのプロンプト改善:
Tier 1:ユーザートリガー分析
直近50回の成功実行を分析し、構造化された改善提案を返します。各提案にApply(インライン置換)またはA/Bテスト(Bakeoff作成)を選択。
Tier 2:自動トリガー提案
5つ以上の👎が蓄積すると自動的に1-3の改善提案を生成。レシピあたり1時間に1回のレート制限。
Tier 3:品質ドリフト改善
Quality Guardシステムがドリフトを検出した時にトリガー。ミニBakeoffを自動トリガーし、現在のプロンプトと提案された改訂を比較テスト可能。
エディタ内に存在する理由
Studioはページではなくパネルです。プロンプトエンジニアリングは反復的 — 1行変更し、トークンバジェットを確認し、Diffを見て、テストを実行。別ツール間のコンテキスト切り替えはフローを壊します。
Prompt Engineering StudioはProプラン以上で利用可能です。すべての機能を探索または無料トライアルを開始。