マルチモーダルI/O：AIレシピでの画像、ファイル、オーディオ

JieGouのレシピとワークフローは画像、ドキュメント、オーディオを入力として受け付け、画像を出力として生成できるようになりました。マルチモーダルコンテンツがプロバイダー間とワークフローステップ間でどのように流れるかを解説します。

JieGou Team · 2026年2月23日 · 1 分で読めます

AI自動化はテキストに限定されるべきではありません。チームが毎日行う作業には、スクリーンショット、PDF、スプレッドシート、ボイスメモ、画像が含まれます — テキストボックスの文字だけではありません。

JieGouのレシピとワークフローはマルチモーダル入出力をサポートするようになりました。画像をアップロードしてClaudeに分析を依頼。PDFを添付して構造化データを抽出。オーディオを録音してLLMが処理する前にWhisperに文字起こしさせる。出力の一部として画像を生成。そしてこれらすべてをワークフローステップ間で連鎖。

アップロードできるもの

レシピはテキスト入力と共に3種類のメディアを受け付けるようになりました：

画像 — JPEG、PNG、WebP、GIF。スクリーンショット、製品写真、チャートをアップロードすると、LLMがネイティブに認識します。画像入力はClaude（Anthropic）、GPT-4o（OpenAI）、Gemini（Google） — 3つのプロバイダーすべてがビジョンを標準でサポートしています。

ドキュメント — PDF、DOCX、CSV、XLSX、TXT、Markdown、HTML。契約書、スプレッドシート、レポートをアップロード。JieGouがサーバーサイドでドキュメントを解析し、各プロバイダーに最も効果的なフォーマットでコンテンツをLLMに配信します。AnthropicとGoogleはファイル添付としてネイティブに受信。ネイティブファイルサポートのないプロバイダーには、JieGouがテキストを抽出してプロンプトに注入します。

オーディオ — WebM、MP3、MP4、WAV、FLAC、その他の一般的なフォーマット。オーディオ処理はモデルに依存します。Google GeminiとOpenAIのaudio-previewモデルはオーディオをネイティブに処理 — 生のオーディオが直接LLMに送られます。他のすべてのモデル（Claude含む）では、JieGouがOpenAIのWhisper APIで文字起こしし、トランスクリプトをテキストとして渡します。このフォールバックは自動的に行われます。設定は不要です。

内部の仕組み

レシピの入力スキーマに画像、ファイル、オーディオフィールドを追加すると、JieGouがウィジェットアノテーション（image-upload、file-upload、audio-upload）でマークします。実行時に3つのことが起こります：

抽出。 JieGouが入力からメディアフィールドをスキャンし、テキスト入力から分離します。画像フィールドはChatImageオブジェクト（base64データ + MIMEタイプ）になります。ファイルは構造化コンテンツに解析されます。オーディオはネイティブまたはフォールバック処理のために識別されます。
プロバイダールーティング。 JieGouがターゲットモデルがネイティブにサポートするものをチェックします。プロバイダーがメディアタイプを直接処理する場合、マルチパートメッセージを構築 — 画像、ファイル、テキストを1つのリクエストにインターリーブします。そうでない場合、グレースフルにフォールバック：ドキュメントは<attached_file>タグ内の抽出テキストに、オーディオは<transcribed_audio>タグ内のWhisperトランスクリプトになります。
メッセージ組み立て。 LLMに送信される最終メッセージは、各プロバイダーが期待するフォーマットですべてのメディアとテキストを結合します。Vercel AI SDKがプロバイダー固有のフォーマッティングの最後のマイルを処理します。

結果：1つのレシピを書けば、プロバイダー固有の設定なしでClaude、GPT、Geminiすべてで動作します。

ドキュメント解析

ファイルアップロードは生のバイトとしてそのまま渡されるのではありません。JieGouが各フォーマットをサーバーサイドで解析し、クリーンで構造化されたコンテンツを抽出します：

PDF — ページ数メタデータ付きの全文抽出
DOCX — フォーマッティングアーティファクトなしの生テキスト抽出
CSV / TXT / Markdown — UTF-8テキストをそのまま通過
XLSX — 最初のワークシートをCSV行に変換、メタデータ（シート数、行数）付き
HTML — scriptタグとstyleタグを除去、エンティティをデコード、クリーンなテキストを抽出

ファイルサイズはアップロードあたり10MBが上限で、抽出コンテンツは1MBのテキストに制限されています — ほとんどのビジネスドキュメントには十分でありながら、LLMコンテキスト使用量を合理的に保ちます。

画像生成

一部のモデルは出力の一部として画像を生成できます。GPT-4oやGeminiが画像を生成すると、JieGouが自動的にキャプチャします。生成された画像はテキストと並んでレシピ出力に表示され、ローカルに保存するためのダウンロードボタン付きです。

これにより、テキスト説明を受け取りビジュアルを生成するレシピを構築できます — 製品モックアップ、ソーシャルメディアグラフィック、チャートビジュアライゼーション — JieGouを離れることなく。

ワークフローステップ間でのマルチモーダルコンテンツの連鎖

真の力はワークフローで発揮されます。あるステップが画像を生成した場合 — LLMが生成したものでもブラウザスクリーンショットでキャプチャしたものでも — それらの画像はワークフローコンテキストに保存され、下流のステップで利用可能になります。

具体的な例：

ステップ1（ブラウザアクション） — ダッシュボードに移動してスクリーンショットを撮影
ステップ2（LLMステップ） — スクリーンショットを分析し、異常を特定し、サマリーを作成
ステップ3（画像生成） — 分析に基づいてクリーンアップされたチャートを生成
ステップ4（LLMステップ） — 分析テキストと生成チャートを組み合わせたレポートを作成

各ステップは以前のステップで生成された画像を自動的に受信します。手動配線は不要です。ワークフローエンジンがステップコンテキストを通じて伝播する隠し_imagesフィールドでプラミングを処理します。

プロバイダーサポートマトリックス

機能	Anthropic (Claude)	OpenAI (GPT-4o)	Google (Gemini)
画像入力	ネイティブ	ネイティブ	ネイティブ
ドキュメント入力	ネイティブファイル添付	テキスト抽出フォールバック	ネイティブファイル添付
オーディオ入力	Whisper文字起こし	ネイティブ（audio-previewモデル）	ネイティブ（Gemini 2.5+）
画像生成	—	ネイティブ	ネイティブ

利用可能性

マルチモーダル入力 — 画像、ファイル、オーディオ — はProプラン以上で利用可能です。画像生成出力はサポートするすべてのモデルで動作します。レシピの詳細または無料トライアルを開始。