Skip to content
Produkt

Bring Your Own Model: Wie JieGou jedes LLM von Claude bis Llama unterstützt

Wie JieGous Multi-Provider-Architektur Ihnen ermöglicht, Claude, GPT-5, Gemini und Open-Source-Modelle wie Llama 4 von einer einzigen Plattform aus zu nutzen — mit Auswahl pro Schritt, Auto-Discovery und Zero-Knowledge-Schlüsselverschlüsselung.

JT
JieGou Team
· · 6 Min. Lesezeit

Jede KI-Automatisierungsplattform behauptet „Multi-Modell-Unterstützung.” In der Praxis bedeutet das meist, dass Sie in einem Einstellungs-Dropdown zwischen GPT-4o und GPT-5 wechseln können. Vielleicht ist Claude auch gelistet. Wenn Sie ein Open-Source-Modell nutzen möchten, sind Sie auf sich allein gestellt.

JieGou verfolgt einen anderen Ansatz. Wir haben eine universelle Modellschicht entwickelt, die jedes LLM — cloud-gehostet oder selbst-gehostet, proprietär oder Open Source — als erstklassigen Bürger behandelt. Dieser Beitrag erklärt, wie es funktioniert und warum es wichtig ist.

Vier Provider-Stufen in einer Plattform

Stufe 1: Cloud-Provider mit BYOK

Bringen Sie Ihre eigenen API-Schlüssel für Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) und Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).

Ihre Schlüssel werden mit AES-256-GCM unter Verwendung kontobasiert abgeleiteter Schlüssel via HKDF-SHA256 verschlüsselt. Sie werden nur während der Ausführung im Speicher entschlüsselt und niemals im Klartext gespeichert. Sie können auch plattformbereitgestellte Schlüssel im kostenlosen Tarif nutzen, um ohne Eingabe von Anmeldedaten zu starten.

Stufe 2: Zertifizierte Open-Source-Modelle

Wir haben vier Open-Source-Modelle End-to-End auf vLLM getestet und für volle JieGou-Kompatibilität zertifiziert — einschließlich Tool-Calling, strukturierter JSON-Ausgabe und Recipe-Ausführung:

ModellParameterTool CallingStrukturierte AusgabeVisionKontext
Llama 4 Maverick400B+ MoEJaJaJa1M Token
DeepSeek V3.2671B MoEJaJaNein128K Token
Qwen 3 235B235B MoEJaJaNein128K Token
Mistral 3 Large123B denseJaJaJa128K Token

„Zertifiziert” bedeutet, dass wir Tausende von Recipe-Ausführungen gegen diese Modelle durchgeführt, verifiziert haben, dass Tool-Calling und strukturierte Ausgabe korrekt funktionieren, und den Kompatibilitätsgrad dokumentiert haben. Sie können sie mit Vertrauen einsetzen.

Stufe 3: Community-Modelle

Jedes Modell, das über eine OpenAI-kompatible API zugänglich ist, funktioniert mit JieGou. Wir haben es nicht getestet, daher erhält es ein „Community”-Stufen-Label — aber die Integration ist identisch. Wenn es das OpenAI-API-Format spricht, kann JieGou es nutzen.

Stufe 4: Auto-discovered lokale Modelle

JieGou prüft beim Start auf lokale Inferenz-Server:

  1. http://ollama:11434 (Docker-Compose-Service-Name)
  2. http://localhost:11434 (lokales Ollama)
  3. http://localhost:8000 (lokales vLLM)
  4. Die Umgebungsvariable OLLAMA_BASE_URL

Wenn ein Server gefunden wird, fragt JieGou die Modellliste ab und macht diese Modelle im Modellwähler verfügbar. Keine manuelle Konfiguration nötig. Das Discovery-Ergebnis wird 5 Minuten gecacht, um Ihren Inferenz-Server nicht zu überlasten.

Modellauswahl pro Schritt

Das ist das Feature, das Multi-Provider-Unterstützung tatsächlich nützlich macht statt nur eine Checkbox auf einem Vergleichschart.

In einem JieGou-Workflow kann jeder Schritt ein anderes Modell verwenden. Ein typisches Setup:

Workflow-SchrittAufgabeModellWarum
1. RechercheTiefe WettbewerbsanalyseClaude Opus 4.6Beste Reasoning-Qualität
2. KlassifizierenErgebnisse kategorisierenGPT-5-nanoSchnell und günstig für Klassifizierung
3. ExtrahierenStrukturierte Daten extrahierenLlama 4 MaverickHohes Volumen zu niedrigsten Kosten
4. ZusammenfassenExecutive Brief schreibenClaude Sonnet 4.6Starke Schreibqualität
5. ÜbersetzenIn 5 Sprachen lokalisierenQwen 3 235BBeste mehrsprachige Performance

Dieselbe Flexibilität gilt für Recipes (jedes Recipe hat seine eigene Modelleinstellung), Konversationen (Modell pro Chat wählen) und Batch-Läufe (das gewählte Modell gilt für alle Zeilen).

Modellempfehlungs-Engine

Das richtige Modell für jede Aufgabe zu wählen klingt leistungsstark, aber auch komplex. Die Empfehlungs-Engine macht es praktisch.

Nach 10+ Läufen eines Recipes hat die Engine genug Daten, um jedes von Ihnen verwendete Modell zu bewerten:

score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2

Sie betrachtet die letzten 60 Tage Ausführungshistorie und vergleicht:

  • Erfolgsrate — welcher Prozentsatz der Läufe fehlerfrei abgeschlossen wurde
  • Kosteneffizienz — Kosten pro erfolgreichen Lauf (niedriger ist besser)
  • Geschwindigkeit — durchschnittliche Ausführungsdauer (schneller ist besser)

Wenn Ihr aktuelles Modell eine Erfolgsrate von ≥90 % über 10+ Läufe hat, bestätigt die Engine, dass es eine gute Wahl ist. Andernfalls empfiehlt sie die am höchsten bewertete Alternative mit vollständigen Metriken, damit Sie eine informierte Entscheidung treffen können.

Für rigorosen Vergleich können Sie einen Bakeoff durchführen — eine direkte Evaluierung mit LLM-as-Judge-Bewertung und 95-%-Konfidenzintervallen. Bakeoffs können beliebige zwei Modelle, beliebige zwei Recipes oder beliebige zwei Workflows vergleichen.

Enterprise-Resilienz

Produktions-Workloads über mehrere Provider zu betreiben erfordert mehr als API-Schlüssel-Management. JieGou enthält drei Resilienzschichten:

Circuit Breaker

Jeder Provider bekommt seinen eigenen Circuit Breaker. Wenn 5 Aufrufe innerhalb von 60 Sekunden fehlschlagen, öffnet sich der Circuit — nachfolgende Aufrufe schlagen schnell fehl, statt ein Timeout abzuwarten. Nach 30 Sekunden wechselt der Circuit in den Halb-Offen-Zustand und sendet eine Probe-Anfrage. Bei Erfolg schließt sich der Circuit und der Traffic wird fortgesetzt.

Für openai-compatible-Provider sind Circuit Breaker pro Konto begrenzt (da jeder Kunde einen anderen Endpunkt haben kann). Cloud-Provider teilen sich einen globalen Circuit Breaker.

Entscheidend: Circuit Breaker sind fail-open — wenn Redis down ist und wir den Circuit-Status nicht prüfen können, lassen wir den Aufruf durch. Das bedeutet, ein Monitoring-Ausfall blockiert nie Ihre Workflows.

Nebenläufigkeitslimits

Ein globales Semaphor begrenzt gleichzeitige LLM-Aufrufe pro Konto, um unkontrollierte Nutzung zu verhindern. Das Limit skaliert mit Ihrem Tarif:

TarifstufeGlobaler KapazitätsanteilPro-Konto-Maximum
Enterprise100 % (150 Slots)10 gleichzeitig
Pro83 % (125 Slots)10 gleichzeitig
Starter67 % (100 Slots)10 gleichzeitig

Kostenverfolgung

Jeder LLM-Aufruf zeichnet Token-Verbrauch und geschätzte Kosten auf. Wenn Sie BYOK nutzen, werden die Kosten separat verfolgt — sie erscheinen in Ihrem Analytik-Dashboard, zählen aber nicht zu Plattform-Nutzungslimits, da Sie Ihren Provider direkt bezahlen.

Der Kostenschätzer verwendet historische Durchschnitte Ihrer letzten 20 erfolgreichen Läufe, um Kosten vor der Ausführung zu projizieren. Sie können erwartete Ausgaben pro Recipe, pro Workflow-Schritt und pro Batch-Lauf sehen.

Zero-Knowledge-Schlüsselarchitektur

JieGou sieht Ihre API-Schlüssel niemals im Klartext im Ruhezustand. Die Verschlüsselungs-Pipeline:

  1. Root-Schlüssel geladen aus Secret Manager oder Umgebungsvariable (64-Zeichen-Hex)
  2. Pro-Konto-Schlüssel abgeleitet via HKDF-SHA256: HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
  3. Verschlüsselung: AES-256-GCM mit zufälligem 12-Byte-IV und 16-Byte-Auth-Tag
  4. Speicherung: Nur der Chiffretext + IV + Auth-Tag werden in Firestore gespeichert
  5. Entschlüsselung: Erfolgt im Speicher zur Ausführungszeit, wird nie persistiert

Schlüsselrotation wird unterstützt — das System kann vom Legacy-globalen Verschlüsselungsschema zu Pro-Konto-Envelope-Verschlüsselung ohne Ausfallzeit migrieren.

Wenn ein API-Aufruf 401 oder 403 zurückgibt, markiert das System den Schlüssel automatisch als ungültig und zeigt einen klaren Fehler an. Sie können den Schlüssel von der Einstellungsseite aus neu validieren oder ersetzen.

Erste Schritte

  1. Kostenloser Tarif: Nutzen Sie plattformbereitgestellte Schlüssel für Anthropic, OpenAI und Google — keine Anmeldedaten nötig
  2. BYOK: Gehen Sie zu Einstellungen > API-Schlüssel, fügen Sie Ihre Provider-Schlüssel hinzu, und sie werden sofort verschlüsselt
  3. Open Source: Geben Sie eine benutzerdefinierte Basis-URL ein (z. B. http://your-vllm-server:8000/v1) und den Modellnamen
  4. Auto-Discovery: Wenn Ollama oder vLLM lokal läuft, erscheinen Modelle automatisch

Multi-Provider-Modellzugriff ist in allen Tarifen verfügbar. OpenAI-kompatible Endpunkte und die Modellempfehlungs-Engine sind in Pro und höher verfügbar. Zertifizierte Modell-Registry und Auto-Discovery sind Enterprise-Features.

Multi-Provider-Modellunterstützung erkunden oder kostenlose Testversion starten.

byom byok multi-provider open-source llama deepseek vllm ollama model-selection
Diesen Artikel teilen

Hat Ihnen dieser Artikel gefallen?

Erhalten Sie Workflow-Tipps, Produktupdates und Automatisierungsleitfäden direkt in Ihren Posteingang.

No spam. Unsubscribe anytime.