多模態 I/O：在 AI Recipe 中使用圖片、檔案和音訊

AI 自動化不應僅限於文字。您的團隊每天處理的工作涉及螢幕截圖、PDF、試算表、語音備忘錄和圖片——不只是文字方塊中的文字。

JieGou 的 recipe 和 workflow 現在支援多模態輸入與輸出。上傳圖片並讓 Claude 分析它。附加 PDF 並提取結構化資料。錄製音訊並讓 Whisper 在 LLM 處理之前進行轉錄。產生圖片作為輸出的一部分。並將所有這些串接在 workflow 步驟之間。

您可以上傳的內容

Recipe 現在除了文字輸入外，還接受三種媒體類型：

圖片 — JPEG、PNG、WebP 和 GIF。上傳螢幕截圖、產品照片或圖表，LLM 會原生識別它。圖片輸入支援 Claude (Anthropic)、GPT-4o (OpenAI) 和 Gemini (Google)——三家供應商都內建支援視覺功能。

文件 — PDF、DOCX、CSV、XLSX、TXT、Markdown 和 HTML。上傳合約、試算表或報告。JieGou 在伺服器端解析文件，並以每個供應商最有效的格式將內容傳遞給 LLM。Anthropic 和 Google 原生接收文件作為檔案附件。對於不支援原生檔案的供應商，JieGou 會提取文字並注入到提示詞中。

音訊 — WebM、MP3、MP4、WAV、FLAC 及其他常見格式。音訊處理方式取決於模型。Google Gemini 和 OpenAI 的 audio-preview 模型原生處理音訊——原始音訊直接傳送到 LLM。對於所有其他模型（包括 Claude），JieGou 會透過 OpenAI 的 Whisper API 轉錄音訊，並將轉錄文字作為文字傳遞。這個回退機制會自動發生，您不需要進行任何配置。

底層運作原理

當您在 recipe 的輸入 schema 中新增圖片、檔案或音訊欄位時，JieGou 會用 widget 註解標記它（image-upload、file-upload 或 audio-upload）。在執行時，會發生三件事：

提取。 JieGou 掃描輸入中的媒體欄位，並將它們與文字輸入分離。圖片欄位會變成 ChatImage 物件（base64 資料 + MIME 類型）。檔案會被解析為結構化內容。音訊會被識別為原生或回退處理。
供應商路由。 JieGou 檢查目標模型原生支援什麼。如果供應商直接處理該媒體類型，它會建立多部分訊息——在單一請求中交錯排列圖片、檔案和文字。如果不支援，則優雅地回退：文件變成 <attached_file> 標籤中的提取文字，音訊變成 <transcribed_audio> 標籤中的 Whisper 轉錄。
訊息組裝。 傳送給 LLM 的最終訊息將所有媒體和文字組合成每個供應商預期的格式。Vercel AI SDK 處理最後一哩的供應商特定格式化。

結果是：您編寫一個 recipe，它就能在 Claude、GPT 和 Gemini 之間運作，無需任何供應商特定的配置。

文件解析

檔案上傳不只是以原始位元組傳遞。JieGou 在伺服器端解析每種格式，以提取乾淨的結構化內容：

PDF — 完整文字提取，附帶頁數中繼資料
DOCX — 原始文字提取，無格式化殘留
CSV / TXT / Markdown — UTF-8 文字直接傳遞
XLSX — 第一個工作表轉換為 CSV 列，加上中繼資料（工作表數、列數）
HTML — 移除 script 和 style 標籤，解碼實體，提取乾淨文字

每次上傳的檔案大小上限為 10 MB，提取的內容限制為 1 MB 的文字——對大多數商業文件而言已足夠，同時保持 LLM 上下文使用在合理範圍內。

圖片產生

部分模型可以在輸出中產生圖片。當 GPT-4o 或 Gemini 產生圖片時，JieGou 會自動擷取它。產生的圖片會與文字一起顯示在 recipe 輸出中，並附有下載按鈕供您儲存到本機。

這意味著您可以建立接受文字描述並產生視覺效果的 recipe——產品模型、社群媒體圖形、圖表視覺化——全都不需要離開 JieGou。

在 workflow 步驟之間串接多模態內容

真正的強大之處在 workflow 中展現。當某個步驟產生圖片——無論是 LLM 產生的還是透過瀏覽器截圖擷取的——這些圖片會儲存在 workflow 上下文中，並提供給下游步驟使用。

以下是一個具體範例：

步驟 1（瀏覽器動作） — 導覽至儀表板並擷取螢幕截圖
步驟 2（LLM 步驟） — 分析螢幕截圖、識別異常、撰寫摘要
步驟 3（圖片產生） — 根據分析結果產生整理過的圖表
步驟 4（LLM 步驟） — 撰寫結合分析文字和產生圖表的報告

每個步驟都會自動接收先前步驟產生的圖片。無需手動連接。Workflow 引擎透過隱藏的 _images 欄位處理管道配置，該欄位會在步驟上下文中傳播。

供應商支援矩陣

功能	Anthropic (Claude)	OpenAI (GPT-4o)	Google (Gemini)
圖片輸入	原生支援	原生支援	原生支援
文件輸入	原生檔案附件	文字提取回退	原生檔案附件
音訊輸入	Whisper 轉錄	原生支援（audio-preview 模型）	原生支援（Gemini 2.5+）
圖片產生	—	原生支援	原生支援

可用性

多模態輸入——圖片、檔案和音訊——在 Pro 方案及以上方案中可用。圖片產生輸出適用於任何支援此功能的模型。深入了解 recipe 或開始免費試用。