E/S multimodales : images, fichiers et audio dans vos recettes IA

Les recettes et workflows JieGou acceptent désormais des images, documents et fichiers audio en entrée — et peuvent générer des images en sortie. Voici comment le contenu multimodal circule entre fournisseurs et entre étapes de workflow.

JieGou Team · 23 février 2026 · 5 min de lecture

L’automatisation IA ne devrait pas être limitée au texte. Le travail que votre équipe fait chaque jour implique des captures d’écran, des PDF, des feuilles de calcul, des mémos vocaux et des images — pas seulement des mots dans une zone de texte.

Les recettes et workflows JieGou supportent désormais les entrées et sorties multimodales. Téléchargez une image et demandez à Claude de l’analyser. Joignez un PDF et extrayez des données structurées. Enregistrez de l’audio et laissez Whisper le transcrire avant que le LLM le traite. Générez des images dans votre sortie. Et chaînez tout cela entre les étapes de workflow.

Ce que vous pouvez télécharger

Les recettes acceptent désormais trois types de médias en plus des entrées texte :

Images — JPEG, PNG, WebP et GIF. Téléchargez une capture d’écran, une photo de produit ou un graphique, et le LLM le voit nativement. Les entrées d’image fonctionnent avec Claude (Anthropic), GPT-4o (OpenAI) et Gemini (Google) — les trois fournisseurs supportent la vision nativement.

Documents — PDF, DOCX, CSV, XLSX, TXT, Markdown et HTML. Téléchargez un contrat, une feuille de calcul ou un rapport. JieGou parse le document côté serveur et délivre le contenu au LLM dans le format le plus efficace pour chaque fournisseur. Anthropic et Google reçoivent les documents nativement comme pièces jointes. Pour les fournisseurs sans support natif de fichiers, JieGou extrait le texte et l’injecte dans le prompt.

Audio — WebM, MP3, MP4, WAV, FLAC et autres formats courants. Le traitement audio dépend du modèle. Google Gemini et les modèles audio-preview d’OpenAI traitent l’audio nativement — l’audio brut va directement au LLM. Pour tous les autres modèles (y compris Claude), JieGou transcrit l’audio via l’API Whisper d’OpenAI et transmet la transcription sous forme de texte. Ce repli se fait automatiquement. Vous n’avez rien à configurer.

Comment ça fonctionne en coulisses

Quand vous ajoutez un champ image, fichier ou audio au schéma d’entrée d’une recette, JieGou le marque avec une annotation de widget (image-upload, file-upload ou audio-upload). Au moment de l’exécution, trois choses se passent :

Extraction. JieGou parcourt l’entrée à la recherche des champs média et les sépare des entrées texte. Les champs image deviennent des objets ChatImage (données base64 + type MIME). Les fichiers sont parsés en contenu structuré. L’audio est identifié pour un traitement natif ou de repli.
Routage par fournisseur. JieGou vérifie ce que le modèle cible supporte nativement. Si le fournisseur gère le type de média directement, il construit un message multipart — entrelaçant images, fichiers et texte dans une seule requête. Sinon, il se replie gracieusement : les documents deviennent du texte extrait dans des balises <attached_file>, l’audio devient une transcription Whisper dans des balises <transcribed_audio>.
Assemblage du message. Le message final envoyé au LLM combine tous les médias et le texte dans le format attendu par chaque fournisseur. Le Vercel AI SDK gère le dernier kilomètre du formatage spécifique au fournisseur.

Le résultat : vous écrivez une seule recette, et elle fonctionne avec Claude, GPT et Gemini sans aucune configuration spécifique au fournisseur.

Parsing de documents

Les fichiers téléchargés ne sont pas simplement transmis en octets bruts. JieGou parse chaque format côté serveur pour extraire du contenu propre et structuré :

PDF — Extraction complète du texte avec métadonnées de nombre de pages
DOCX — Extraction de texte brut sans artefacts de formatage
CSV / TXT / Markdown — Texte UTF-8 transmis directement
XLSX — Première feuille convertie en lignes CSV, plus métadonnées (nombre de feuilles, nombre de lignes)
HTML — Balises script et style supprimées, entités décodées, texte propre extrait

La taille des fichiers est plafonnée à 10 Mo par téléchargement, et le contenu extrait est limité à 1 Mo de texte — suffisant pour la plupart des documents métier tout en maintenant une utilisation raisonnable du contexte LLM.

Génération d’images

Certains modèles peuvent générer des images dans leur sortie. Quand GPT-4o ou Gemini produit une image, JieGou la capture automatiquement. Les images générées apparaissent dans la sortie de la recette aux côtés du texte, avec des boutons de téléchargement pour les sauvegarder localement.

Cela signifie que vous pouvez construire des recettes qui prennent une description textuelle et produisent un visuel — maquettes de produits, visuels pour réseaux sociaux, visualisations de graphiques — sans quitter JieGou.

Chaîner le contenu multimodal entre les étapes de workflow

La vraie puissance apparaît dans les workflows. Quand une étape produit des images — qu’elles soient générées par un LLM ou capturées via une capture d’écran du navigateur — ces images sont stockées dans le contexte du workflow et mises à disposition des étapes en aval.

Voici un exemple concret :

Étape 1 (Action navigateur) — Naviguer vers un tableau de bord et prendre une capture d’écran
Étape 2 (Étape LLM) — Analyser la capture d’écran, identifier les anomalies, rédiger un résumé
Étape 3 (Génération d’image) — Générer un graphique nettoyé basé sur l’analyse
Étape 4 (Étape LLM) — Composer un rapport combinant le texte d’analyse et le graphique généré

Chaque étape reçoit automatiquement les images produites par les étapes précédentes. Pas de câblage manuel. Le moteur de workflow gère la plomberie via un champ caché _images qui se propage à travers le contexte des étapes.

Matrice de support par fournisseur

Capacité	Anthropic (Claude)	OpenAI (GPT-4o)	Google (Gemini)
Entrée d’image	Natif	Natif	Natif
Entrée de document	Pièce jointe native	Repli extraction texte	Pièce jointe native
Entrée audio	Transcription Whisper	Natif (modèles audio-preview)	Natif (Gemini 2.5+)
Génération d’image	—	Natif	Natif

Disponibilité

Les entrées multimodales — images, fichiers et audio — sont disponibles sur les plans Pro et supérieurs. La sortie de génération d’images fonctionne avec tout modèle qui la supporte. En savoir plus sur les recettes ou commencez votre essai gratuit.