Skip to content
产品

多模态 I/O:在 AI Recipe 中使用图片、档案和音讯

JieGou 的 recipe 和 workflow 现在支援图片、文件和音讯作为输入,并可产生图片作为输出。以下是多模态内容如何跨供应商和 workflow 步骤之间流动。

JT
JieGou Team
· · 3 分钟阅读

AI 自动化不应仅限于文字。您的团队每天处理的工作涉及萤幕截图、PDF、试算表、语音备忘录和图片——不只是文字方块中的文字。

JieGou 的 recipe 和 workflow 现在支援多模态输入与输出。上传图片并让 Claude 分析它。附加 PDF 并提取结构化资料。录制音讯并让 Whisper 在 LLM 处理之前进行转录。产生图片作为输出的一部分。并将所有这些串接在 workflow 步骤之间。

您可以上传的内容

Recipe 现在除了文字输入外,还接受三种媒体类型:

图片 — JPEG、PNG、WebP 和 GIF。上传萤幕截图、产品照片或图表,LLM 会原生识别它。图片输入支援 Claude (Anthropic)、GPT-4o (OpenAI) 和 Gemini (Google)——三家供应商都内建支援视觉功能。

文件 — PDF、DOCX、CSV、XLSX、TXT、Markdown 和 HTML。上传合约、试算表或报告。JieGou 在伺服器端解析文件,并以每个供应商最有效的格式将内容传递给 LLM。Anthropic 和 Google 原生接收文件作为档案附件。对于不支援原生档案的供应商,JieGou 会提取文字并注入到提示词中。

音讯 — WebM、MP3、MP4、WAV、FLAC 及其他常见格式。音讯处理方式取决于模型。Google Gemini 和 OpenAI 的 audio-preview 模型原生处理音讯——原始音讯直接传送到 LLM。对于所有其他模型(包括 Claude),JieGou 会透过 OpenAI 的 Whisper API 转录音讯,并将转录文字作为文字传递。这个回退机制会自动发生,您不需要进行任何配置。

底层运作原理

当您在 recipe 的输入 schema 中新增图片、档案或音讯栏位时,JieGou 会用 widget 注解标记它(image-uploadfile-uploadaudio-upload)。在执行时,会发生三件事:

  1. 提取。 JieGou 扫描输入中的媒体栏位,并将它们与文字输入分离。图片栏位会变成 ChatImage 物件(base64 资料 + MIME 类型)。档案会被解析为结构化内容。音讯会被识别为原生或回退处理。

  2. 供应商路由。 JieGou 检查目标模型原生支援什么。如果供应商直接处理该媒体类型,它会建立多部分讯息——在单一请求中交错排列图片、档案和文字。如果不支援,则优雅地回退:文件变成 <attached_file> 标签中的提取文字,音讯变成 <transcribed_audio> 标签中的 Whisper 转录。

  3. 讯息组装。 传送给 LLM 的最终讯息将所有媒体和文字组合成每个供应商预期的格式。Vercel AI SDK 处理最后一哩的供应商特定格式化。

结果是:您编写一个 recipe,它就能在 Claude、GPT 和 Gemini 之间运作,无需任何供应商特定的配置。

文件解析

档案上传不只是以原始位元组传递。JieGou 在伺服器端解析每种格式,以提取干净的结构化内容:

  • PDF — 完整文字提取,附带页数中继资料
  • DOCX — 原始文字提取,无格式化残留
  • CSV / TXT / Markdown — UTF-8 文字直接传递
  • XLSX — 第一个工作表转换为 CSV 列,加上中继资料(工作表数、列数)
  • HTML — 移除 script 和 style 标签,解码实体,提取干净文字

每次上传的档案大小上限为 10 MB,提取的内容限制为 1 MB 的文字——对大多数商业文件而言已足够,同时保持 LLM 上下文使用在合理范围内。

图片产生

部分模型可以在输出中产生图片。当 GPT-4o 或 Gemini 产生图片时,JieGou 会自动撷取它。产生的图片会与文字一起显示在 recipe 输出中,并附有下载按钮供您储存到本机。

这意味着您可以建立接受文字描述并产生视觉效果的 recipe——产品模型、社群媒体图形、图表视觉化——全都不需要离开 JieGou。

在 workflow 步骤之间串接多模态内容

真正的强大之处在 workflow 中展现。当某个步骤产生图片——无论是 LLM 产生的还是透过浏览器截图撷取的——这些图片会储存在 workflow 上下文中,并提供给下游步骤使用。

以下是一个具体范例:

  1. 步骤 1(浏览器动作) — 导览至仪表板并撷取萤幕截图
  2. 步骤 2(LLM 步骤) — 分析萤幕截图、识别异常、撰写摘要
  3. 步骤 3(图片产生) — 根据分析结果产生整理过的图表
  4. 步骤 4(LLM 步骤) — 撰写结合分析文字和产生图表的报告

每个步骤都会自动接收先前步骤产生的图片。无需手动连接。Workflow 引擎透过隐藏的 _images 栏位处理管道配置,该栏位会在步骤上下文中传播。

供应商支援矩阵

功能Anthropic (Claude)OpenAI (GPT-4o)Google (Gemini)
图片输入原生支援原生支援原生支援
文件输入原生档案附件文字提取回退原生档案附件
音讯输入Whisper 转录原生支援(audio-preview 模型)原生支援(Gemini 2.5+)
图片产生原生支援原生支援

可用性

多模态输入——图片、档案和音讯——在 Pro 方案及以上方案中可用。图片产生输出适用于任何支援此功能的模型。深入了解 recipe开始免费试用

multimodal images audio file-upload recipes workflows
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.