Skip to content
產品

多模態 I/O:在 AI Recipe 中使用圖片、檔案和音訊

JieGou 的 recipe 和 workflow 現在支援圖片、文件和音訊作為輸入,並可產生圖片作為輸出。以下是多模態內容如何跨供應商和 workflow 步驟之間流動。

JT
JieGou Team
· · 3 分鐘閱讀

AI 自動化不應僅限於文字。您的團隊每天處理的工作涉及螢幕截圖、PDF、試算表、語音備忘錄和圖片——不只是文字方塊中的文字。

JieGou 的 recipe 和 workflow 現在支援多模態輸入與輸出。上傳圖片並讓 Claude 分析它。附加 PDF 並提取結構化資料。錄製音訊並讓 Whisper 在 LLM 處理之前進行轉錄。產生圖片作為輸出的一部分。並將所有這些串接在 workflow 步驟之間。

您可以上傳的內容

Recipe 現在除了文字輸入外,還接受三種媒體類型:

圖片 — JPEG、PNG、WebP 和 GIF。上傳螢幕截圖、產品照片或圖表,LLM 會原生識別它。圖片輸入支援 Claude (Anthropic)、GPT-4o (OpenAI) 和 Gemini (Google)——三家供應商都內建支援視覺功能。

文件 — PDF、DOCX、CSV、XLSX、TXT、Markdown 和 HTML。上傳合約、試算表或報告。JieGou 在伺服器端解析文件,並以每個供應商最有效的格式將內容傳遞給 LLM。Anthropic 和 Google 原生接收文件作為檔案附件。對於不支援原生檔案的供應商,JieGou 會提取文字並注入到提示詞中。

音訊 — WebM、MP3、MP4、WAV、FLAC 及其他常見格式。音訊處理方式取決於模型。Google Gemini 和 OpenAI 的 audio-preview 模型原生處理音訊——原始音訊直接傳送到 LLM。對於所有其他模型(包括 Claude),JieGou 會透過 OpenAI 的 Whisper API 轉錄音訊,並將轉錄文字作為文字傳遞。這個回退機制會自動發生,您不需要進行任何配置。

底層運作原理

當您在 recipe 的輸入 schema 中新增圖片、檔案或音訊欄位時,JieGou 會用 widget 註解標記它(image-uploadfile-uploadaudio-upload)。在執行時,會發生三件事:

  1. 提取。 JieGou 掃描輸入中的媒體欄位,並將它們與文字輸入分離。圖片欄位會變成 ChatImage 物件(base64 資料 + MIME 類型)。檔案會被解析為結構化內容。音訊會被識別為原生或回退處理。

  2. 供應商路由。 JieGou 檢查目標模型原生支援什麼。如果供應商直接處理該媒體類型,它會建立多部分訊息——在單一請求中交錯排列圖片、檔案和文字。如果不支援,則優雅地回退:文件變成 <attached_file> 標籤中的提取文字,音訊變成 <transcribed_audio> 標籤中的 Whisper 轉錄。

  3. 訊息組裝。 傳送給 LLM 的最終訊息將所有媒體和文字組合成每個供應商預期的格式。Vercel AI SDK 處理最後一哩的供應商特定格式化。

結果是:您編寫一個 recipe,它就能在 Claude、GPT 和 Gemini 之間運作,無需任何供應商特定的配置。

文件解析

檔案上傳不只是以原始位元組傳遞。JieGou 在伺服器端解析每種格式,以提取乾淨的結構化內容:

  • PDF — 完整文字提取,附帶頁數中繼資料
  • DOCX — 原始文字提取,無格式化殘留
  • CSV / TXT / Markdown — UTF-8 文字直接傳遞
  • XLSX — 第一個工作表轉換為 CSV 列,加上中繼資料(工作表數、列數)
  • HTML — 移除 script 和 style 標籤,解碼實體,提取乾淨文字

每次上傳的檔案大小上限為 10 MB,提取的內容限制為 1 MB 的文字——對大多數商業文件而言已足夠,同時保持 LLM 上下文使用在合理範圍內。

圖片產生

部分模型可以在輸出中產生圖片。當 GPT-4o 或 Gemini 產生圖片時,JieGou 會自動擷取它。產生的圖片會與文字一起顯示在 recipe 輸出中,並附有下載按鈕供您儲存到本機。

這意味著您可以建立接受文字描述並產生視覺效果的 recipe——產品模型、社群媒體圖形、圖表視覺化——全都不需要離開 JieGou。

在 workflow 步驟之間串接多模態內容

真正的強大之處在 workflow 中展現。當某個步驟產生圖片——無論是 LLM 產生的還是透過瀏覽器截圖擷取的——這些圖片會儲存在 workflow 上下文中,並提供給下游步驟使用。

以下是一個具體範例:

  1. 步驟 1(瀏覽器動作) — 導覽至儀表板並擷取螢幕截圖
  2. 步驟 2(LLM 步驟) — 分析螢幕截圖、識別異常、撰寫摘要
  3. 步驟 3(圖片產生) — 根據分析結果產生整理過的圖表
  4. 步驟 4(LLM 步驟) — 撰寫結合分析文字和產生圖表的報告

每個步驟都會自動接收先前步驟產生的圖片。無需手動連接。Workflow 引擎透過隱藏的 _images 欄位處理管道配置,該欄位會在步驟上下文中傳播。

供應商支援矩陣

功能Anthropic (Claude)OpenAI (GPT-4o)Google (Gemini)
圖片輸入原生支援原生支援原生支援
文件輸入原生檔案附件文字提取回退原生檔案附件
音訊輸入Whisper 轉錄原生支援(audio-preview 模型)原生支援(Gemini 2.5+)
圖片產生原生支援原生支援

可用性

多模態輸入——圖片、檔案和音訊——在 Pro 方案及以上方案中可用。圖片產生輸出適用於任何支援此功能的模型。深入了解 recipe開始免費試用

multimodal images audio file-upload recipes workflows
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.