E/S multimodal: imágenes, archivos y audio en sus recetas de IA

Las recetas y flujos de trabajo de JieGou ahora aceptan imágenes, documentos y audio como entradas — y pueden generar imágenes como salidas. Así es como el contenido multimodal fluye entre proveedores y pasos del flujo de trabajo.

JieGou Team · 23 de febrero de 2026 · 6 min de lectura

La automatización de IA no debería limitarse al texto. El trabajo que su equipo hace todos los días involucra capturas de pantalla, PDFs, hojas de cálculo, notas de voz e imágenes — no solo palabras en un cuadro de texto.

Las recetas y flujos de trabajo de JieGou ahora soportan entradas y salidas multimodales. Suba una imagen y pida a Claude que la analice. Adjunte un PDF y extraiga datos estructurados. Grabe audio y deje que Whisper lo transcriba antes de que el LLM lo procese. Genere imágenes como parte de su salida. Y encadene todo esto a través de los pasos del flujo de trabajo.

Lo que puede subir

Las recetas ahora aceptan tres tipos de medios junto con entradas de texto:

Imágenes — JPEG, PNG, WebP y GIF. Suba una captura de pantalla, una foto de producto o un gráfico, y el LLM lo ve nativamente. Las entradas de imagen funcionan con Claude (Anthropic), GPT-4o (OpenAI) y Gemini (Google) — los tres proveedores soportan visión de forma nativa.

Documentos — PDF, DOCX, CSV, XLSX, TXT, Markdown y HTML. Suba un contrato, una hoja de cálculo o un informe. JieGou analiza el documento del lado del servidor y entrega el contenido al LLM en el formato más efectivo para cada proveedor. Anthropic y Google reciben documentos nativamente como archivos adjuntos. Para proveedores sin soporte nativo de archivos, JieGou extrae el texto y lo inyecta en el prompt.

Audio — WebM, MP3, MP4, WAV, FLAC y otros formatos comunes. El manejo de audio depende del modelo. Google Gemini y los modelos audio-preview de OpenAI procesan audio nativamente — el audio crudo va directo al LLM. Para todos los demás modelos (incluyendo Claude), JieGou transcribe el audio vía la API Whisper de OpenAI y pasa la transcripción como texto. Este respaldo ocurre automáticamente. No necesita configurar nada.

Cómo funciona por debajo

Cuando agrega un campo de imagen, archivo o audio al esquema de entrada de una receta, JieGou lo marca con una anotación de widget (image-upload, file-upload o audio-upload). Al momento de la ejecución, ocurren tres cosas:

Extracción. JieGou escanea la entrada buscando campos de medios y los separa de las entradas de texto. Los campos de imagen se convierten en objetos ChatImage (datos base64 + tipo MIME). Los archivos se analizan en contenido estructurado. El audio se identifica para manejo nativo o de respaldo.
Enrutamiento por proveedor. JieGou verifica qué soporta nativamente el modelo destino. Si el proveedor maneja el tipo de medio directamente, construye un mensaje multiparte — intercalando imágenes, archivos y texto en una sola solicitud. Si no, recurre al respaldo con gracia: los documentos se convierten en texto extraído en etiquetas <attached_file>, el audio se convierte en una transcripción de Whisper en etiquetas <transcribed_audio>.
Ensamblaje del mensaje. El mensaje final enviado al LLM combina todos los medios y texto en el formato que cada proveedor espera. El Vercel AI SDK maneja la última milla de formateo específico por proveedor.

El resultado: usted escribe una receta, y funciona en Claude, GPT y Gemini sin ninguna configuración específica por proveedor.

Análisis de documentos

Las subidas de archivos no se pasan simplemente como bytes crudos. JieGou analiza cada formato del lado del servidor para extraer contenido limpio y estructurado:

PDF — Extracción completa de texto con metadatos de conteo de páginas
DOCX — Extracción de texto crudo sin artefactos de formato
CSV / TXT / Markdown — Texto UTF-8 pasado directamente
XLSX — Primera hoja de cálculo convertida a filas CSV, más metadatos (conteo de hojas, conteo de filas)
HTML — Etiquetas de script y estilo eliminadas, entidades decodificadas, texto limpio extraído

El tamaño de archivo está limitado a 10 MB por subida, y el contenido extraído se limita a 1 MB de texto — suficiente para la mayoría de los documentos empresariales mientras se mantiene razonable el uso de contexto del LLM.

Generación de imágenes

Algunos modelos pueden generar imágenes como parte de su salida. Cuando GPT-4o o Gemini produce una imagen, JieGou la captura automáticamente. Las imágenes generadas aparecen en la salida de la receta junto con el texto, con botones de descarga para guardarlas localmente.

Esto significa que puede construir recetas que tomen una descripción de texto y produzcan un visual — mockups de productos, gráficos para redes sociales, visualizaciones de datos — sin salir de JieGou.

Encadenamiento de contenido multimodal entre pasos del flujo de trabajo

El verdadero poder se muestra en los flujos de trabajo. Cuando un paso produce imágenes — ya sea generadas por un LLM o capturadas vía una captura de pantalla del navegador — esas imágenes se almacenan en el contexto del flujo de trabajo y se ponen a disposición de los pasos posteriores.

Aquí hay un ejemplo concreto:

Paso 1 (Acción de navegador) — Navegar a un panel y tomar una captura de pantalla
Paso 2 (Paso LLM) — Analizar la captura de pantalla, identificar anomalías, escribir un resumen
Paso 3 (Generación de imagen) — Generar un gráfico limpio basado en el análisis
Paso 4 (Paso LLM) — Componer un informe combinando el texto del análisis y el gráfico generado

Cada paso recibe automáticamente las imágenes producidas por los pasos anteriores. Sin conexionado manual. El motor de flujos de trabajo maneja la plomería a través de un campo oculto _images que se propaga a través del contexto de los pasos.

Matriz de soporte por proveedor

Capacidad	Anthropic (Claude)	OpenAI (GPT-4o)	Google (Gemini)
Entrada de imagen	Nativo	Nativo	Nativo
Entrada de documento	Archivo adjunto nativo	Respaldo por extracción de texto	Archivo adjunto nativo
Entrada de audio	Transcripción Whisper	Nativo (modelos audio-preview)	Nativo (Gemini 2.5+)
Generación de imagen	—	Nativo	Nativo

Disponibilidad

Las entradas multimodales — imágenes, archivos y audio — están disponibles en los planes Pro y superiores. La salida de generación de imágenes funciona con cualquier modelo que la soporte. Conozca más sobre las recetas o comience su prueba gratuita.