Jede KI-Automatisierungsplattform behauptet „Multi-Modell-Unterstützung.” In der Praxis bedeutet das meist, dass Sie in einem Einstellungs-Dropdown zwischen GPT-4o und GPT-5 wechseln können. Vielleicht ist Claude auch gelistet. Wenn Sie ein Open-Source-Modell nutzen möchten, sind Sie auf sich allein gestellt.
JieGou verfolgt einen anderen Ansatz. Wir haben eine universelle Modellschicht entwickelt, die jedes LLM — cloud-gehostet oder selbst-gehostet, proprietär oder Open Source — als erstklassigen Bürger behandelt. Dieser Beitrag erklärt, wie es funktioniert und warum es wichtig ist.
Vier Provider-Stufen in einer Plattform
Stufe 1: Cloud-Provider mit BYOK
Bringen Sie Ihre eigenen API-Schlüssel für Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) und Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).
Ihre Schlüssel werden mit AES-256-GCM unter Verwendung kontobasiert abgeleiteter Schlüssel via HKDF-SHA256 verschlüsselt. Sie werden nur während der Ausführung im Speicher entschlüsselt und niemals im Klartext gespeichert. Sie können auch plattformbereitgestellte Schlüssel im kostenlosen Tarif nutzen, um ohne Eingabe von Anmeldedaten zu starten.
Stufe 2: Zertifizierte Open-Source-Modelle
Wir haben vier Open-Source-Modelle End-to-End auf vLLM getestet und für volle JieGou-Kompatibilität zertifiziert — einschließlich Tool-Calling, strukturierter JSON-Ausgabe und Recipe-Ausführung:
| Modell | Parameter | Tool Calling | Strukturierte Ausgabe | Vision | Kontext |
|---|---|---|---|---|---|
| Llama 4 Maverick | 400B+ MoE | Ja | Ja | Ja | 1M Token |
| DeepSeek V3.2 | 671B MoE | Ja | Ja | Nein | 128K Token |
| Qwen 3 235B | 235B MoE | Ja | Ja | Nein | 128K Token |
| Mistral 3 Large | 123B dense | Ja | Ja | Ja | 128K Token |
„Zertifiziert” bedeutet, dass wir Tausende von Recipe-Ausführungen gegen diese Modelle durchgeführt, verifiziert haben, dass Tool-Calling und strukturierte Ausgabe korrekt funktionieren, und den Kompatibilitätsgrad dokumentiert haben. Sie können sie mit Vertrauen einsetzen.
Stufe 3: Community-Modelle
Jedes Modell, das über eine OpenAI-kompatible API zugänglich ist, funktioniert mit JieGou. Wir haben es nicht getestet, daher erhält es ein „Community”-Stufen-Label — aber die Integration ist identisch. Wenn es das OpenAI-API-Format spricht, kann JieGou es nutzen.
Stufe 4: Auto-discovered lokale Modelle
JieGou prüft beim Start auf lokale Inferenz-Server:
http://ollama:11434(Docker-Compose-Service-Name)http://localhost:11434(lokales Ollama)http://localhost:8000(lokales vLLM)- Die Umgebungsvariable
OLLAMA_BASE_URL
Wenn ein Server gefunden wird, fragt JieGou die Modellliste ab und macht diese Modelle im Modellwähler verfügbar. Keine manuelle Konfiguration nötig. Das Discovery-Ergebnis wird 5 Minuten gecacht, um Ihren Inferenz-Server nicht zu überlasten.
Modellauswahl pro Schritt
Das ist das Feature, das Multi-Provider-Unterstützung tatsächlich nützlich macht statt nur eine Checkbox auf einem Vergleichschart.
In einem JieGou-Workflow kann jeder Schritt ein anderes Modell verwenden. Ein typisches Setup:
| Workflow-Schritt | Aufgabe | Modell | Warum |
|---|---|---|---|
| 1. Recherche | Tiefe Wettbewerbsanalyse | Claude Opus 4.6 | Beste Reasoning-Qualität |
| 2. Klassifizieren | Ergebnisse kategorisieren | GPT-5-nano | Schnell und günstig für Klassifizierung |
| 3. Extrahieren | Strukturierte Daten extrahieren | Llama 4 Maverick | Hohes Volumen zu niedrigsten Kosten |
| 4. Zusammenfassen | Executive Brief schreiben | Claude Sonnet 4.6 | Starke Schreibqualität |
| 5. Übersetzen | In 5 Sprachen lokalisieren | Qwen 3 235B | Beste mehrsprachige Performance |
Dieselbe Flexibilität gilt für Recipes (jedes Recipe hat seine eigene Modelleinstellung), Konversationen (Modell pro Chat wählen) und Batch-Läufe (das gewählte Modell gilt für alle Zeilen).
Modellempfehlungs-Engine
Das richtige Modell für jede Aufgabe zu wählen klingt leistungsstark, aber auch komplex. Die Empfehlungs-Engine macht es praktisch.
Nach 10+ Läufen eines Recipes hat die Engine genug Daten, um jedes von Ihnen verwendete Modell zu bewerten:
score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2
Sie betrachtet die letzten 60 Tage Ausführungshistorie und vergleicht:
- Erfolgsrate — welcher Prozentsatz der Läufe fehlerfrei abgeschlossen wurde
- Kosteneffizienz — Kosten pro erfolgreichen Lauf (niedriger ist besser)
- Geschwindigkeit — durchschnittliche Ausführungsdauer (schneller ist besser)
Wenn Ihr aktuelles Modell eine Erfolgsrate von ≥90 % über 10+ Läufe hat, bestätigt die Engine, dass es eine gute Wahl ist. Andernfalls empfiehlt sie die am höchsten bewertete Alternative mit vollständigen Metriken, damit Sie eine informierte Entscheidung treffen können.
Für rigorosen Vergleich können Sie einen Bakeoff durchführen — eine direkte Evaluierung mit LLM-as-Judge-Bewertung und 95-%-Konfidenzintervallen. Bakeoffs können beliebige zwei Modelle, beliebige zwei Recipes oder beliebige zwei Workflows vergleichen.
Enterprise-Resilienz
Produktions-Workloads über mehrere Provider zu betreiben erfordert mehr als API-Schlüssel-Management. JieGou enthält drei Resilienzschichten:
Circuit Breaker
Jeder Provider bekommt seinen eigenen Circuit Breaker. Wenn 5 Aufrufe innerhalb von 60 Sekunden fehlschlagen, öffnet sich der Circuit — nachfolgende Aufrufe schlagen schnell fehl, statt ein Timeout abzuwarten. Nach 30 Sekunden wechselt der Circuit in den Halb-Offen-Zustand und sendet eine Probe-Anfrage. Bei Erfolg schließt sich der Circuit und der Traffic wird fortgesetzt.
Für openai-compatible-Provider sind Circuit Breaker pro Konto begrenzt (da jeder Kunde einen anderen Endpunkt haben kann). Cloud-Provider teilen sich einen globalen Circuit Breaker.
Entscheidend: Circuit Breaker sind fail-open — wenn Redis down ist und wir den Circuit-Status nicht prüfen können, lassen wir den Aufruf durch. Das bedeutet, ein Monitoring-Ausfall blockiert nie Ihre Workflows.
Nebenläufigkeitslimits
Ein globales Semaphor begrenzt gleichzeitige LLM-Aufrufe pro Konto, um unkontrollierte Nutzung zu verhindern. Das Limit skaliert mit Ihrem Tarif:
| Tarifstufe | Globaler Kapazitätsanteil | Pro-Konto-Maximum |
|---|---|---|
| Enterprise | 100 % (150 Slots) | 10 gleichzeitig |
| Pro | 83 % (125 Slots) | 10 gleichzeitig |
| Starter | 67 % (100 Slots) | 10 gleichzeitig |
Kostenverfolgung
Jeder LLM-Aufruf zeichnet Token-Verbrauch und geschätzte Kosten auf. Wenn Sie BYOK nutzen, werden die Kosten separat verfolgt — sie erscheinen in Ihrem Analytik-Dashboard, zählen aber nicht zu Plattform-Nutzungslimits, da Sie Ihren Provider direkt bezahlen.
Der Kostenschätzer verwendet historische Durchschnitte Ihrer letzten 20 erfolgreichen Läufe, um Kosten vor der Ausführung zu projizieren. Sie können erwartete Ausgaben pro Recipe, pro Workflow-Schritt und pro Batch-Lauf sehen.
Zero-Knowledge-Schlüsselarchitektur
JieGou sieht Ihre API-Schlüssel niemals im Klartext im Ruhezustand. Die Verschlüsselungs-Pipeline:
- Root-Schlüssel geladen aus Secret Manager oder Umgebungsvariable (64-Zeichen-Hex)
- Pro-Konto-Schlüssel abgeleitet via HKDF-SHA256:
HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32) - Verschlüsselung: AES-256-GCM mit zufälligem 12-Byte-IV und 16-Byte-Auth-Tag
- Speicherung: Nur der Chiffretext + IV + Auth-Tag werden in Firestore gespeichert
- Entschlüsselung: Erfolgt im Speicher zur Ausführungszeit, wird nie persistiert
Schlüsselrotation wird unterstützt — das System kann vom Legacy-globalen Verschlüsselungsschema zu Pro-Konto-Envelope-Verschlüsselung ohne Ausfallzeit migrieren.
Wenn ein API-Aufruf 401 oder 403 zurückgibt, markiert das System den Schlüssel automatisch als ungültig und zeigt einen klaren Fehler an. Sie können den Schlüssel von der Einstellungsseite aus neu validieren oder ersetzen.
Erste Schritte
- Kostenloser Tarif: Nutzen Sie plattformbereitgestellte Schlüssel für Anthropic, OpenAI und Google — keine Anmeldedaten nötig
- BYOK: Gehen Sie zu Einstellungen > API-Schlüssel, fügen Sie Ihre Provider-Schlüssel hinzu, und sie werden sofort verschlüsselt
- Open Source: Geben Sie eine benutzerdefinierte Basis-URL ein (z. B.
http://your-vllm-server:8000/v1) und den Modellnamen - Auto-Discovery: Wenn Ollama oder vLLM lokal läuft, erscheinen Modelle automatisch
Multi-Provider-Modellzugriff ist in allen Tarifen verfügbar. OpenAI-kompatible Endpunkte und die Modellempfehlungs-Engine sind in Pro und höher verfügbar. Zertifizierte Modell-Registry und Auto-Discovery sind Enterprise-Features.
Multi-Provider-Modellunterstützung erkunden oder kostenlose Testversion starten.