Multimodale Ein-/Ausgabe: Bilder, Dateien und Audio in Ihren AI-Recipes

AI-Automatisierung sollte nicht auf Text beschränkt sein. Die Arbeit, die Ihr Team jeden Tag erledigt, umfasst Screenshots, PDFs, Tabellenkalkulationen, Sprachmemos und Bilder — nicht nur Worte in einem Textfeld.

JieGou-Recipes und -Workflows unterstützen jetzt multimodale Ein- und Ausgaben. Laden Sie ein Bild hoch und bitten Sie Claude es zu analysieren. Hängen Sie ein PDF an und extrahieren Sie strukturierte Daten. Nehmen Sie Audio auf und lassen Sie Whisper es transkribieren, bevor das LLM es verarbeitet. Generieren Sie Bilder als Teil Ihrer Ausgabe. Und verketten Sie alles über Workflow-Schritte hinweg.

Was Sie hochladen können

Recipes akzeptieren jetzt drei Arten von Medien neben Texteingaben:

Bilder — JPEG, PNG, WebP und GIF. Laden Sie einen Screenshot, ein Produktfoto oder ein Diagramm hoch, und das LLM sieht es nativ. Bildeingaben funktionieren mit Claude (Anthropic), GPT-4o (OpenAI) und Gemini (Google) — alle drei Anbieter unterstützen Vision von Haus aus.

Dokumente — PDF, DOCX, CSV, XLSX, TXT, Markdown und HTML. Laden Sie einen Vertrag, eine Tabellenkalkulation oder einen Bericht hoch. JieGou parst das Dokument serverseitig und liefert den Inhalt an das LLM im effektivsten Format für jeden Anbieter. Anthropic und Google erhalten Dokumente nativ als Dateianhänge. Für Anbieter ohne native Dateiunterstützung extrahiert JieGou den Text und injiziert ihn in den Prompt.

Audio — WebM, MP3, MP4, WAV, FLAC und andere gängige Formate. Die Audio-Behandlung hängt vom Modell ab. Google Gemini und OpenAIs Audio-Preview-Modelle verarbeiten Audio nativ — das rohe Audio geht direkt zum LLM. Für alle anderen Modelle (einschließlich Claude) transkribiert JieGou das Audio über OpenAIs Whisper-API und übergibt das Transkript als Text. Dieser Fallback erfolgt automatisch. Sie müssen nichts konfigurieren.

Wie es unter der Haube funktioniert

Wenn Sie ein Bild-, Datei- oder Audio-Feld zum Input-Schema eines Recipes hinzufügen, markiert JieGou es mit einer Widget-Annotation (image-upload, file-upload oder audio-upload). Zur Ausführungszeit passieren drei Dinge:

Extraktion. JieGou durchsucht die Eingabe nach Medienfeldern und trennt sie von Texteingaben. Bildfelder werden zu ChatImage-Objekten (Base64-Daten + MIME-Typ). Dateien werden in strukturierten Content geparst. Audio wird für native oder Fallback-Behandlung identifiziert.
Anbieter-Routing. JieGou prüft, was das Zielmodell nativ unterstützt. Wenn der Anbieter den Medientyp direkt behandelt, baut es eine Multipart-Nachricht — Bilder, Dateien und Text in einer einzelnen Anfrage verschachtelt. Wenn nicht, fällt es graceful zurück: Dokumente werden zu extrahiertem Text in <attached_file>-Tags, Audio wird zu einem Whisper-Transkript in <transcribed_audio>-Tags.
Nachrichtenaufbau. Die finale Nachricht an das LLM kombiniert alle Medien und Text in das Format, das jeder Anbieter erwartet. Das Vercel AI SDK übernimmt die letzte Meile der anbieterspezifischen Formatierung.

Das Ergebnis: Sie schreiben ein Recipe, und es funktioniert über Claude, GPT und Gemini hinweg ohne anbieterspezifische Konfiguration.

Dokumenten-Parsing

Datei-Uploads werden nicht einfach als rohe Bytes durchgereicht. JieGou parst jedes Format serverseitig, um sauberen, strukturierten Content zu extrahieren:

PDF — Vollständige Textextraktion mit Seitenzahl-Metadaten
DOCX — Rohtextextraktion ohne Formatierungsartefakte
CSV / TXT / Markdown — UTF-8-Text direkt durchgereicht
XLSX — Erstes Arbeitsblatt in CSV-Zeilen konvertiert, plus Metadaten (Blattanzahl, Zeilenanzahl)
HTML — Script- und Style-Tags entfernt, Entities dekodiert, sauberer Text extrahiert

Die Dateigröße ist auf 10 MB pro Upload begrenzt, und der extrahierte Content ist auf 1 MB Text limitiert — genug für die meisten Geschäftsdokumente, während die LLM-Kontextnutzung vernünftig bleibt.

Bildgenerierung

Einige Modelle können Bilder als Teil ihrer Ausgabe generieren. Wenn GPT-4o oder Gemini ein Bild produziert, erfasst JieGou es automatisch. Generierte Bilder erscheinen in der Recipe-Ausgabe neben Text, mit Download-Buttons zum lokalen Speichern.

Das bedeutet, Sie können Recipes bauen, die eine Textbeschreibung nehmen und ein Bild produzieren — Produkt-Mockups, Social-Media-Grafiken, Diagramm-Visualisierungen — ohne JieGou zu verlassen.

Multimodalen Content über Workflow-Schritte verketten

Die wahre Stärke zeigt sich in Workflows. Wenn ein Schritt Bilder produziert — ob vom LLM generiert oder über einen Browser-Screenshot erfasst — werden diese Bilder im Workflow-Kontext gespeichert und nachgelagerten Schritten zur Verfügung gestellt.

Hier ein konkretes Beispiel:

Schritt 1 (Browser-Aktion) — Zu einem Dashboard navigieren und einen Screenshot machen
Schritt 2 (LLM-Schritt) — Den Screenshot analysieren, Anomalien identifizieren, eine Zusammenfassung schreiben
Schritt 3 (Bildgenerierung) — Ein bereinigtes Diagramm basierend auf der Analyse generieren
Schritt 4 (LLM-Schritt) — Einen Bericht verfassen, der Analysetext und generiertes Diagramm kombiniert

Jeder Schritt empfängt automatisch die von früheren Schritten produzierten Bilder. Kein manuelles Verdrahten. Die Workflow-Engine übernimmt die Verknüpfung über ein verstecktes _images-Feld, das durch den Schritt-Kontext propagiert wird.

Anbieter-Support-Matrix

Fähigkeit	Anthropic (Claude)	OpenAI (GPT-4o)	Google (Gemini)
Bildeingabe	Nativ	Nativ	Nativ
Dokumenteingabe	Nativer Dateianhang	Textextraktions-Fallback	Nativer Dateianhang
Audioeingabe	Whisper-Transkription	Nativ (Audio-Preview-Modelle)	Nativ (Gemini 2.5+)
Bildgenerierung	—	Nativ	Nativ

Verfügbarkeit

Multimodale Eingaben — Bilder, Dateien und Audio — sind in Pro-Plänen und höher verfügbar. Bildgenerierungsausgabe funktioniert mit jedem Modell, das sie unterstützt. Mehr über Recipes erfahren oder Ihre kostenlose Testversion starten.