Prompt Engineering Studio：プロンプトのバージョン管理、最適化、A/Bテスト

JieGouのPrompt Engineering Studioの内部 -- レシピエディタに埋め込まれた5タブパネルで、バージョン追跡、トークンバジェット、変数検査、Few-Shot管理、AI駆動のプロンプト最適化を提供します。

JieGou Team · 2026年2月23日 · 1 分で読めます

プロンプトエンジニアリングはほとんどのチームにとって試行錯誤です。バージョン履歴なし。イテレーション14とイテレーション11を比較する方法なし。本番品質をプロンプト変更にフィードバックする体系的なループなし。

Prompt Engineering Studioはこれを解決するために構築しました。レシピエディタに直接埋め込まれた折りたたみ可能なパネルです。5つのタブ：Token Budget、Variables、Versions、Few-Shot、Optimizer。

バージョン追跡とDiff比較

すべてのプロンプト変更がFirestoreサブコレクションにバージョンを作成。各バージョンにはバージョン番号、テンプレートテキスト、前バージョンとの類似度スコア（正規化Levenshtein距離）、著者、チェンジログが保存されます。

品質メトリクスはバージョンごとに追跡：合計実行数、成功数、👍数、👎数。Diffビューアは任意の2バージョン間の行単位比較を表示。ロールバックは非破壊的 — 以前のバージョンを復元すると古いコンテンツで新しいバージョンが作成されます。

ライブトークンバジェットビジュアライゼーション

入力中にコンテキストウィンドウ使用率を示すリアルタイムバーチャート。モデル認識 — Claudeでは200Kトークンにスケール、GPT-4oでは128Kに再スケール、Geminiでは1Mに拡張。

Variable Inspector

{{variable}}と{{fragment:name}}参照をリアルタイムで検出。各変数をレシピのinputSchemaと照合し、Matched（緑）、Orphan（黄）、Unused（赤）、Fragment（青）のステータスを割り当てます。

Few-Shot Example管理

成功した実行をキュレートされた例としてピン留め。各例の出力は編集可能。品質スコアリングがランタイムで表示される例を決定。3つの検索戦略：フィードバックベース、最近、類似。

AI駆動オプティマイザー

3つのティアのプロンプト改善：

Tier 1：ユーザートリガー分析

直近50回の成功実行を分析し、構造化された改善提案を返します。各提案にApply（インライン置換）またはA/Bテスト（Bakeoff作成）を選択。

Tier 2：自動トリガー提案

5つ以上の👎が蓄積すると自動的に1-3の改善提案を生成。レシピあたり1時間に1回のレート制限。

Tier 3：品質ドリフト改善

Quality Guardシステムがドリフトを検出した時にトリガー。ミニBakeoffを自動トリガーし、現在のプロンプトと提案された改訂を比較テスト可能。

エディタ内に存在する理由

Studioはページではなくパネルです。プロンプトエンジニアリングは反復的 — 1行変更し、トークンバジェットを確認し、Diffを見て、テストを実行。別ツール間のコンテキスト切り替えはフローを壊します。

Prompt Engineering StudioはProプラン以上で利用可能です。すべての機能を探索または無料トライアルを開始。