Skip to content
エンジニアリング

Prompt Engineering Studio:プロンプトのバージョン管理、最適化、A/Bテスト

JieGouのPrompt Engineering Studioの内部 -- レシピエディタに埋め込まれた5タブパネルで、バージョン追跡、トークンバジェット、変数検査、Few-Shot管理、AI駆動のプロンプト最適化を提供します。

JT
JieGou Team
· · 1 分で読めます

プロンプトエンジニアリングはほとんどのチームにとって試行錯誤です。バージョン履歴なし。イテレーション14とイテレーション11を比較する方法なし。本番品質をプロンプト変更にフィードバックする体系的なループなし。

Prompt Engineering Studioはこれを解決するために構築しました。レシピエディタに直接埋め込まれた折りたたみ可能なパネルです。5つのタブ:Token BudgetVariablesVersionsFew-ShotOptimizer

バージョン追跡とDiff比較

すべてのプロンプト変更がFirestoreサブコレクションにバージョンを作成。各バージョンにはバージョン番号、テンプレートテキスト、前バージョンとの類似度スコア(正規化Levenshtein距離)、著者、チェンジログが保存されます。

品質メトリクスはバージョンごとに追跡:合計実行数、成功数、👍数、👎数。Diffビューアは任意の2バージョン間の行単位比較を表示。ロールバックは非破壊的 — 以前のバージョンを復元すると古いコンテンツで新しいバージョンが作成されます。

ライブトークンバジェットビジュアライゼーション

入力中にコンテキストウィンドウ使用率を示すリアルタイムバーチャート。モデル認識 — Claudeでは200Kトークンにスケール、GPT-4oでは128Kに再スケール、Geminiでは1Mに拡張。

Variable Inspector

{{variable}}{{fragment:name}}参照をリアルタイムで検出。各変数をレシピのinputSchemaと照合し、Matched(緑)、Orphan(黄)、Unused(赤)、Fragment(青)のステータスを割り当てます。

Few-Shot Example管理

成功した実行をキュレートされた例としてピン留め。各例の出力は編集可能。品質スコアリングがランタイムで表示される例を決定。3つの検索戦略:フィードバックベース、最近、類似。

AI駆動オプティマイザー

3つのティアのプロンプト改善:

Tier 1:ユーザートリガー分析

直近50回の成功実行を分析し、構造化された改善提案を返します。各提案にApply(インライン置換)またはA/Bテスト(Bakeoff作成)を選択。

Tier 2:自動トリガー提案

5つ以上の👎が蓄積すると自動的に1-3の改善提案を生成。レシピあたり1時間に1回のレート制限。

Tier 3:品質ドリフト改善

Quality Guardシステムがドリフトを検出した時にトリガー。ミニBakeoffを自動トリガーし、現在のプロンプトと提案された改訂を比較テスト可能。

エディタ内に存在する理由

Studioはページではなくパネルです。プロンプトエンジニアリングは反復的 — 1行変更し、トークンバジェットを確認し、Diffを見て、テストを実行。別ツール間のコンテキスト切り替えはフローを壊します。

Prompt Engineering StudioはProプラン以上で利用可能です。すべての機能を探索または無料トライアルを開始

prompt-engineering optimization versioning a-b-testing few-shot
この記事をシェアする

この記事はお役に立ちましたか?

ワークフローのヒント、製品アップデート、自動化ガイドをメールでお届けします。

No spam. Unsubscribe anytime.