La automatización de IA no debería limitarse al texto. El trabajo que su equipo hace todos los días involucra capturas de pantalla, PDFs, hojas de cálculo, notas de voz e imágenes — no solo palabras en un cuadro de texto.
Las recetas y flujos de trabajo de JieGou ahora soportan entradas y salidas multimodales. Suba una imagen y pida a Claude que la analice. Adjunte un PDF y extraiga datos estructurados. Grabe audio y deje que Whisper lo transcriba antes de que el LLM lo procese. Genere imágenes como parte de su salida. Y encadene todo esto a través de los pasos del flujo de trabajo.
Lo que puede subir
Las recetas ahora aceptan tres tipos de medios junto con entradas de texto:
Imágenes — JPEG, PNG, WebP y GIF. Suba una captura de pantalla, una foto de producto o un gráfico, y el LLM lo ve nativamente. Las entradas de imagen funcionan con Claude (Anthropic), GPT-4o (OpenAI) y Gemini (Google) — los tres proveedores soportan visión de forma nativa.
Documentos — PDF, DOCX, CSV, XLSX, TXT, Markdown y HTML. Suba un contrato, una hoja de cálculo o un informe. JieGou analiza el documento del lado del servidor y entrega el contenido al LLM en el formato más efectivo para cada proveedor. Anthropic y Google reciben documentos nativamente como archivos adjuntos. Para proveedores sin soporte nativo de archivos, JieGou extrae el texto y lo inyecta en el prompt.
Audio — WebM, MP3, MP4, WAV, FLAC y otros formatos comunes. El manejo de audio depende del modelo. Google Gemini y los modelos audio-preview de OpenAI procesan audio nativamente — el audio crudo va directo al LLM. Para todos los demás modelos (incluyendo Claude), JieGou transcribe el audio vía la API Whisper de OpenAI y pasa la transcripción como texto. Este respaldo ocurre automáticamente. No necesita configurar nada.
Cómo funciona por debajo
Cuando agrega un campo de imagen, archivo o audio al esquema de entrada de una receta, JieGou lo marca con una anotación de widget (image-upload, file-upload o audio-upload). Al momento de la ejecución, ocurren tres cosas:
-
Extracción. JieGou escanea la entrada buscando campos de medios y los separa de las entradas de texto. Los campos de imagen se convierten en objetos
ChatImage(datos base64 + tipo MIME). Los archivos se analizan en contenido estructurado. El audio se identifica para manejo nativo o de respaldo. -
Enrutamiento por proveedor. JieGou verifica qué soporta nativamente el modelo destino. Si el proveedor maneja el tipo de medio directamente, construye un mensaje multiparte — intercalando imágenes, archivos y texto en una sola solicitud. Si no, recurre al respaldo con gracia: los documentos se convierten en texto extraído en etiquetas
<attached_file>, el audio se convierte en una transcripción de Whisper en etiquetas<transcribed_audio>. -
Ensamblaje del mensaje. El mensaje final enviado al LLM combina todos los medios y texto en el formato que cada proveedor espera. El Vercel AI SDK maneja la última milla de formateo específico por proveedor.
El resultado: usted escribe una receta, y funciona en Claude, GPT y Gemini sin ninguna configuración específica por proveedor.
Análisis de documentos
Las subidas de archivos no se pasan simplemente como bytes crudos. JieGou analiza cada formato del lado del servidor para extraer contenido limpio y estructurado:
- PDF — Extracción completa de texto con metadatos de conteo de páginas
- DOCX — Extracción de texto crudo sin artefactos de formato
- CSV / TXT / Markdown — Texto UTF-8 pasado directamente
- XLSX — Primera hoja de cálculo convertida a filas CSV, más metadatos (conteo de hojas, conteo de filas)
- HTML — Etiquetas de script y estilo eliminadas, entidades decodificadas, texto limpio extraído
El tamaño de archivo está limitado a 10 MB por subida, y el contenido extraído se limita a 1 MB de texto — suficiente para la mayoría de los documentos empresariales mientras se mantiene razonable el uso de contexto del LLM.
Generación de imágenes
Algunos modelos pueden generar imágenes como parte de su salida. Cuando GPT-4o o Gemini produce una imagen, JieGou la captura automáticamente. Las imágenes generadas aparecen en la salida de la receta junto con el texto, con botones de descarga para guardarlas localmente.
Esto significa que puede construir recetas que tomen una descripción de texto y produzcan un visual — mockups de productos, gráficos para redes sociales, visualizaciones de datos — sin salir de JieGou.
Encadenamiento de contenido multimodal entre pasos del flujo de trabajo
El verdadero poder se muestra en los flujos de trabajo. Cuando un paso produce imágenes — ya sea generadas por un LLM o capturadas vía una captura de pantalla del navegador — esas imágenes se almacenan en el contexto del flujo de trabajo y se ponen a disposición de los pasos posteriores.
Aquí hay un ejemplo concreto:
- Paso 1 (Acción de navegador) — Navegar a un panel y tomar una captura de pantalla
- Paso 2 (Paso LLM) — Analizar la captura de pantalla, identificar anomalías, escribir un resumen
- Paso 3 (Generación de imagen) — Generar un gráfico limpio basado en el análisis
- Paso 4 (Paso LLM) — Componer un informe combinando el texto del análisis y el gráfico generado
Cada paso recibe automáticamente las imágenes producidas por los pasos anteriores. Sin conexionado manual. El motor de flujos de trabajo maneja la plomería a través de un campo oculto _images que se propaga a través del contexto de los pasos.
Matriz de soporte por proveedor
| Capacidad | Anthropic (Claude) | OpenAI (GPT-4o) | Google (Gemini) |
|---|---|---|---|
| Entrada de imagen | Nativo | Nativo | Nativo |
| Entrada de documento | Archivo adjunto nativo | Respaldo por extracción de texto | Archivo adjunto nativo |
| Entrada de audio | Transcripción Whisper | Nativo (modelos audio-preview) | Nativo (Gemini 2.5+) |
| Generación de imagen | — | Nativo | Nativo |
Disponibilidad
Las entradas multimodales — imágenes, archivos y audio — están disponibles en los planes Pro y superiores. La salida de generación de imágenes funciona con cualquier modelo que la soporte. Conozca más sobre las recetas o comience su prueba gratuita.