Bring Your Own Model: Wie JieGou jedes LLM von Claude bis Llama unterstützt

Wie JieGous Multi-Provider-Architektur Ihnen ermöglicht, Claude, GPT-5, Gemini und Open-Source-Modelle wie Llama 4 von einer einzigen Plattform aus zu nutzen — mit Auswahl pro Schritt, Auto-Discovery und Zero-Knowledge-Schlüsselverschlüsselung.

JieGou Team · 26. Februar 2026 · 6 Min. Lesezeit

Jede KI-Automatisierungsplattform behauptet „Multi-Modell-Unterstützung.” In der Praxis bedeutet das meist, dass Sie in einem Einstellungs-Dropdown zwischen GPT-4o und GPT-5 wechseln können. Vielleicht ist Claude auch gelistet. Wenn Sie ein Open-Source-Modell nutzen möchten, sind Sie auf sich allein gestellt.

JieGou verfolgt einen anderen Ansatz. Wir haben eine universelle Modellschicht entwickelt, die jedes LLM — cloud-gehostet oder selbst-gehostet, proprietär oder Open Source — als erstklassigen Bürger behandelt. Dieser Beitrag erklärt, wie es funktioniert und warum es wichtig ist.

Vier Provider-Stufen in einer Plattform

Stufe 1: Cloud-Provider mit BYOK

Bringen Sie Ihre eigenen API-Schlüssel für Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) und Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).

Ihre Schlüssel werden mit AES-256-GCM unter Verwendung kontobasiert abgeleiteter Schlüssel via HKDF-SHA256 verschlüsselt. Sie werden nur während der Ausführung im Speicher entschlüsselt und niemals im Klartext gespeichert. Sie können auch plattformbereitgestellte Schlüssel im kostenlosen Tarif nutzen, um ohne Eingabe von Anmeldedaten zu starten.

Stufe 2: Zertifizierte Open-Source-Modelle

Wir haben vier Open-Source-Modelle End-to-End auf vLLM getestet und für volle JieGou-Kompatibilität zertifiziert — einschließlich Tool-Calling, strukturierter JSON-Ausgabe und Recipe-Ausführung:

Modell	Parameter	Tool Calling	Strukturierte Ausgabe	Vision	Kontext
Llama 4 Maverick	400B+ MoE	Ja	Ja	Ja	1M Token
DeepSeek V3.2	671B MoE	Ja	Ja	Nein	128K Token
Qwen 3 235B	235B MoE	Ja	Ja	Nein	128K Token
Mistral 3 Large	123B dense	Ja	Ja	Ja	128K Token

„Zertifiziert” bedeutet, dass wir Tausende von Recipe-Ausführungen gegen diese Modelle durchgeführt, verifiziert haben, dass Tool-Calling und strukturierte Ausgabe korrekt funktionieren, und den Kompatibilitätsgrad dokumentiert haben. Sie können sie mit Vertrauen einsetzen.

Stufe 3: Community-Modelle

Jedes Modell, das über eine OpenAI-kompatible API zugänglich ist, funktioniert mit JieGou. Wir haben es nicht getestet, daher erhält es ein „Community”-Stufen-Label — aber die Integration ist identisch. Wenn es das OpenAI-API-Format spricht, kann JieGou es nutzen.

Stufe 4: Auto-discovered lokale Modelle

JieGou prüft beim Start auf lokale Inferenz-Server:

http://ollama:11434 (Docker-Compose-Service-Name)
http://localhost:11434 (lokales Ollama)
http://localhost:8000 (lokales vLLM)
Die Umgebungsvariable OLLAMA_BASE_URL

Wenn ein Server gefunden wird, fragt JieGou die Modellliste ab und macht diese Modelle im Modellwähler verfügbar. Keine manuelle Konfiguration nötig. Das Discovery-Ergebnis wird 5 Minuten gecacht, um Ihren Inferenz-Server nicht zu überlasten.

Modellauswahl pro Schritt

Das ist das Feature, das Multi-Provider-Unterstützung tatsächlich nützlich macht statt nur eine Checkbox auf einem Vergleichschart.

In einem JieGou-Workflow kann jeder Schritt ein anderes Modell verwenden. Ein typisches Setup:

Workflow-Schritt	Aufgabe	Modell	Warum
1. Recherche	Tiefe Wettbewerbsanalyse	Claude Opus 4.6	Beste Reasoning-Qualität
2. Klassifizieren	Ergebnisse kategorisieren	GPT-5-nano	Schnell und günstig für Klassifizierung
3. Extrahieren	Strukturierte Daten extrahieren	Llama 4 Maverick	Hohes Volumen zu niedrigsten Kosten
4. Zusammenfassen	Executive Brief schreiben	Claude Sonnet 4.6	Starke Schreibqualität
5. Übersetzen	In 5 Sprachen lokalisieren	Qwen 3 235B	Beste mehrsprachige Performance

Dieselbe Flexibilität gilt für Recipes (jedes Recipe hat seine eigene Modelleinstellung), Konversationen (Modell pro Chat wählen) und Batch-Läufe (das gewählte Modell gilt für alle Zeilen).

Modellempfehlungs-Engine

Das richtige Modell für jede Aufgabe zu wählen klingt leistungsstark, aber auch komplex. Die Empfehlungs-Engine macht es praktisch.

Nach 10+ Läufen eines Recipes hat die Engine genug Daten, um jedes von Ihnen verwendete Modell zu bewerten:

score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2

Sie betrachtet die letzten 60 Tage Ausführungshistorie und vergleicht:

Erfolgsrate — welcher Prozentsatz der Läufe fehlerfrei abgeschlossen wurde
Kosteneffizienz — Kosten pro erfolgreichen Lauf (niedriger ist besser)
Geschwindigkeit — durchschnittliche Ausführungsdauer (schneller ist besser)

Wenn Ihr aktuelles Modell eine Erfolgsrate von ≥90 % über 10+ Läufe hat, bestätigt die Engine, dass es eine gute Wahl ist. Andernfalls empfiehlt sie die am höchsten bewertete Alternative mit vollständigen Metriken, damit Sie eine informierte Entscheidung treffen können.

Für rigorosen Vergleich können Sie einen Bakeoff durchführen — eine direkte Evaluierung mit LLM-as-Judge-Bewertung und 95-%-Konfidenzintervallen. Bakeoffs können beliebige zwei Modelle, beliebige zwei Recipes oder beliebige zwei Workflows vergleichen.

Enterprise-Resilienz

Produktions-Workloads über mehrere Provider zu betreiben erfordert mehr als API-Schlüssel-Management. JieGou enthält drei Resilienzschichten:

Circuit Breaker

Jeder Provider bekommt seinen eigenen Circuit Breaker. Wenn 5 Aufrufe innerhalb von 60 Sekunden fehlschlagen, öffnet sich der Circuit — nachfolgende Aufrufe schlagen schnell fehl, statt ein Timeout abzuwarten. Nach 30 Sekunden wechselt der Circuit in den Halb-Offen-Zustand und sendet eine Probe-Anfrage. Bei Erfolg schließt sich der Circuit und der Traffic wird fortgesetzt.

Für openai-compatible-Provider sind Circuit Breaker pro Konto begrenzt (da jeder Kunde einen anderen Endpunkt haben kann). Cloud-Provider teilen sich einen globalen Circuit Breaker.

Entscheidend: Circuit Breaker sind fail-open — wenn Redis down ist und wir den Circuit-Status nicht prüfen können, lassen wir den Aufruf durch. Das bedeutet, ein Monitoring-Ausfall blockiert nie Ihre Workflows.

Nebenläufigkeitslimits

Ein globales Semaphor begrenzt gleichzeitige LLM-Aufrufe pro Konto, um unkontrollierte Nutzung zu verhindern. Das Limit skaliert mit Ihrem Tarif:

Tarifstufe	Globaler Kapazitätsanteil	Pro-Konto-Maximum
Enterprise	100 % (150 Slots)	10 gleichzeitig
Pro	83 % (125 Slots)	10 gleichzeitig
Starter	67 % (100 Slots)	10 gleichzeitig

Kostenverfolgung

Jeder LLM-Aufruf zeichnet Token-Verbrauch und geschätzte Kosten auf. Wenn Sie BYOK nutzen, werden die Kosten separat verfolgt — sie erscheinen in Ihrem Analytik-Dashboard, zählen aber nicht zu Plattform-Nutzungslimits, da Sie Ihren Provider direkt bezahlen.

Der Kostenschätzer verwendet historische Durchschnitte Ihrer letzten 20 erfolgreichen Läufe, um Kosten vor der Ausführung zu projizieren. Sie können erwartete Ausgaben pro Recipe, pro Workflow-Schritt und pro Batch-Lauf sehen.

Zero-Knowledge-Schlüsselarchitektur

JieGou sieht Ihre API-Schlüssel niemals im Klartext im Ruhezustand. Die Verschlüsselungs-Pipeline:

Root-Schlüssel geladen aus Secret Manager oder Umgebungsvariable (64-Zeichen-Hex)
Pro-Konto-Schlüssel abgeleitet via HKDF-SHA256: HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
Verschlüsselung: AES-256-GCM mit zufälligem 12-Byte-IV und 16-Byte-Auth-Tag
Speicherung: Nur der Chiffretext + IV + Auth-Tag werden in Firestore gespeichert
Entschlüsselung: Erfolgt im Speicher zur Ausführungszeit, wird nie persistiert

Schlüsselrotation wird unterstützt — das System kann vom Legacy-globalen Verschlüsselungsschema zu Pro-Konto-Envelope-Verschlüsselung ohne Ausfallzeit migrieren.

Wenn ein API-Aufruf 401 oder 403 zurückgibt, markiert das System den Schlüssel automatisch als ungültig und zeigt einen klaren Fehler an. Sie können den Schlüssel von der Einstellungsseite aus neu validieren oder ersetzen.

Erste Schritte

Kostenloser Tarif: Nutzen Sie plattformbereitgestellte Schlüssel für Anthropic, OpenAI und Google — keine Anmeldedaten nötig
BYOK: Gehen Sie zu Einstellungen > API-Schlüssel, fügen Sie Ihre Provider-Schlüssel hinzu, und sie werden sofort verschlüsselt
Open Source: Geben Sie eine benutzerdefinierte Basis-URL ein (z. B. http://your-vllm-server:8000/v1) und den Modellnamen
Auto-Discovery: Wenn Ollama oder vLLM lokal läuft, erscheinen Modelle automatisch

Multi-Provider-Modellzugriff ist in allen Tarifen verfügbar. OpenAI-kompatible Endpunkte und die Modellempfehlungs-Engine sind in Pro und höher verfügbar. Zertifizierte Modell-Registry und Auto-Discovery sind Enterprise-Features.

Multi-Provider-Modellunterstützung erkunden oder kostenlose Testversion starten.