多模态 I/O：在 AI Recipe 中使用图片、档案和音讯

AI 自动化不应仅限于文字。您的团队每天处理的工作涉及萤幕截图、PDF、试算表、语音备忘录和图片——不只是文字方块中的文字。

JieGou 的 recipe 和 workflow 现在支援多模态输入与输出。上传图片并让 Claude 分析它。附加 PDF 并提取结构化资料。录制音讯并让 Whisper 在 LLM 处理之前进行转录。产生图片作为输出的一部分。并将所有这些串接在 workflow 步骤之间。

您可以上传的内容

Recipe 现在除了文字输入外，还接受三种媒体类型：

图片 — JPEG、PNG、WebP 和 GIF。上传萤幕截图、产品照片或图表，LLM 会原生识别它。图片输入支援 Claude (Anthropic)、GPT-4o (OpenAI) 和 Gemini (Google)——三家供应商都内建支援视觉功能。

文件 — PDF、DOCX、CSV、XLSX、TXT、Markdown 和 HTML。上传合约、试算表或报告。JieGou 在伺服器端解析文件，并以每个供应商最有效的格式将内容传递给 LLM。Anthropic 和 Google 原生接收文件作为档案附件。对于不支援原生档案的供应商，JieGou 会提取文字并注入到提示词中。

音讯 — WebM、MP3、MP4、WAV、FLAC 及其他常见格式。音讯处理方式取决于模型。Google Gemini 和 OpenAI 的 audio-preview 模型原生处理音讯——原始音讯直接传送到 LLM。对于所有其他模型（包括 Claude），JieGou 会透过 OpenAI 的 Whisper API 转录音讯，并将转录文字作为文字传递。这个回退机制会自动发生，您不需要进行任何配置。

底层运作原理

当您在 recipe 的输入 schema 中新增图片、档案或音讯栏位时，JieGou 会用 widget 注解标记它（image-upload、file-upload 或 audio-upload）。在执行时，会发生三件事：

提取。 JieGou 扫描输入中的媒体栏位，并将它们与文字输入分离。图片栏位会变成 ChatImage 物件（base64 资料 + MIME 类型）。档案会被解析为结构化内容。音讯会被识别为原生或回退处理。
供应商路由。 JieGou 检查目标模型原生支援什么。如果供应商直接处理该媒体类型，它会建立多部分讯息——在单一请求中交错排列图片、档案和文字。如果不支援，则优雅地回退：文件变成 <attached_file> 标签中的提取文字，音讯变成 <transcribed_audio> 标签中的 Whisper 转录。
讯息组装。 传送给 LLM 的最终讯息将所有媒体和文字组合成每个供应商预期的格式。Vercel AI SDK 处理最后一哩的供应商特定格式化。

结果是：您编写一个 recipe，它就能在 Claude、GPT 和 Gemini 之间运作，无需任何供应商特定的配置。

文件解析

档案上传不只是以原始位元组传递。JieGou 在伺服器端解析每种格式，以提取干净的结构化内容：

PDF — 完整文字提取，附带页数中继资料
DOCX — 原始文字提取，无格式化残留
CSV / TXT / Markdown — UTF-8 文字直接传递
XLSX — 第一个工作表转换为 CSV 列，加上中继资料（工作表数、列数）
HTML — 移除 script 和 style 标签，解码实体，提取干净文字

每次上传的档案大小上限为 10 MB，提取的内容限制为 1 MB 的文字——对大多数商业文件而言已足够，同时保持 LLM 上下文使用在合理范围内。

图片产生

部分模型可以在输出中产生图片。当 GPT-4o 或 Gemini 产生图片时，JieGou 会自动撷取它。产生的图片会与文字一起显示在 recipe 输出中，并附有下载按钮供您储存到本机。

这意味着您可以建立接受文字描述并产生视觉效果的 recipe——产品模型、社群媒体图形、图表视觉化——全都不需要离开 JieGou。

在 workflow 步骤之间串接多模态内容

真正的强大之处在 workflow 中展现。当某个步骤产生图片——无论是 LLM 产生的还是透过浏览器截图撷取的——这些图片会储存在 workflow 上下文中，并提供给下游步骤使用。

以下是一个具体范例：

步骤 1（浏览器动作） — 导览至仪表板并撷取萤幕截图
步骤 2（LLM 步骤） — 分析萤幕截图、识别异常、撰写摘要
步骤 3（图片产生） — 根据分析结果产生整理过的图表
步骤 4（LLM 步骤） — 撰写结合分析文字和产生图表的报告

每个步骤都会自动接收先前步骤产生的图片。无需手动连接。Workflow 引擎透过隐藏的 _images 栏位处理管道配置，该栏位会在步骤上下文中传播。

供应商支援矩阵

功能	Anthropic (Claude)	OpenAI (GPT-4o)	Google (Gemini)
图片输入	原生支援	原生支援	原生支援
文件输入	原生档案附件	文字提取回退	原生档案附件
音讯输入	Whisper 转录	原生支援（audio-preview 模型）	原生支援（Gemini 2.5+）
图片产生	—	原生支援	原生支援

可用性

多模态输入——图片、档案和音讯——在 Pro 方案及以上方案中可用。图片产生输出适用于任何支援此功能的模型。深入了解 recipe 或开始免费试用。