Traiga Su Propio Modelo: Cómo JieGou Soporta Cada LLM Desde Claude Hasta Llama

Cómo la arquitectura multi-proveedor de JieGou le permite ejecutar Claude, GPT-5, Gemini y modelos de código abierto como Llama 4 desde una sola plataforma — con selección por paso, auto-descubrimiento y cifrado de claves con conocimiento cero.

JieGou Team · 26 de febrero de 2026 · 7 min de lectura

Cada plataforma de automatización de IA afirma tener “soporte multi-modelo”. En la práctica, eso generalmente significa que puede cambiar entre GPT-4o y GPT-5 en un menú desplegable de configuraciones. Quizás Claude también aparece en la lista. Si quiere ejecutar un modelo de código abierto, está por su cuenta.

JieGou toma un enfoque diferente. Construimos una capa universal de modelos que trata cada LLM — hospedado en la nube o auto-hospedado, propietario o de código abierto — como ciudadano de primera clase. Este artículo explica cómo funciona y por qué importa.

Cuatro niveles de proveedores en una plataforma

Nivel 1: Proveedores en la nube con BYOK

Traiga sus propias claves API para Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) y Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).

Sus claves se cifran con AES-256-GCM usando claves derivadas por cuenta mediante HKDF-SHA256. Se descifran en memoria solo durante la ejecución y nunca se almacenan en texto plano. También puede usar claves proporcionadas por la plataforma en el plan gratuito para comenzar sin ingresar credenciales.

Nivel 2: Modelos de código abierto certificados

Hemos probado cuatro modelos de código abierto de principio a fin en vLLM y los hemos certificado para compatibilidad completa con JieGou — incluyendo llamadas a herramientas, salida JSON estructurada y ejecución de recipes:

Modelo	Parámetros	Llamadas a Herramientas	Salida Estructurada	Visión	Contexto
Llama 4 Maverick	400B+ MoE	Sí	Sí	Sí	1M tokens
DeepSeek V3.2	671B MoE	Sí	Sí	No	128K tokens
Qwen 3 235B	235B MoE	Sí	Sí	No	128K tokens
Mistral 3 Large	123B denso	Sí	Sí	Sí	128K tokens

“Certificado” significa que hemos ejecutado miles de ejecuciones de recipes contra estos modelos, verificado que las llamadas a herramientas y la salida estructurada funcionan correctamente, y documentado el nivel de compatibilidad. Puede desplegarlos con confianza.

Nivel 3: Modelos de la comunidad

Cualquier modelo accesible mediante una API compatible con OpenAI funciona con JieGou. No lo hemos probado, por lo que recibe una etiqueta de nivel “comunidad” — pero la integración es idéntica. Si habla el formato de API de OpenAI, JieGou puede usarlo.

Nivel 4: Modelos locales auto-descubiertos

JieGou sondea servidores de inferencia locales al inicio:

http://ollama:11434 (nombre de servicio Docker Compose)
http://localhost:11434 (Ollama local)
http://localhost:8000 (vLLM local)
La variable de entorno OLLAMA_BASE_URL

Cuando encuentra un servidor, consulta la lista de modelos y los hace disponibles en el selector de modelos. Sin configuración manual necesaria. El resultado del descubrimiento se almacena en caché durante 5 minutos para evitar sobrecargar su servidor de inferencia.

Selección de modelo por paso

Esta es la función que hace que el soporte multi-proveedor sea realmente útil, en lugar de ser solo una casilla en un gráfico comparativo.

En un workflow de JieGou, cada paso puede usar un modelo diferente. Una configuración típica:

Paso del Workflow	Tarea	Modelo	Por qué
1. Investigación	Análisis competitivo profundo	Claude Opus 4.6	Mejor calidad de razonamiento
2. Clasificación	Categorizar hallazgos	GPT-5-nano	Rápido y barato para clasificación
3. Extracción	Extraer datos estructurados	Llama 4 Maverick	Alto volumen al menor costo
4. Resumen	Escribir brief ejecutivo	Claude Sonnet 4.6	Fuerte calidad de escritura
5. Traducción	Localizar a 5 idiomas	Qwen 3 235B	Mejor rendimiento multilingüe

La misma flexibilidad aplica a recipes (cada recipe tiene su propia configuración de modelo), conversaciones (elija un modelo por chat) y ejecuciones por lotes (el modelo seleccionado aplica a todas las filas).

Motor de recomendación de modelos

Elegir el modelo correcto para cada tarea suena poderoso pero también complejo. El motor de recomendación lo hace práctico.

Después de más de 10 ejecuciones de una recipe, el motor tiene suficientes datos para puntuar cada modelo que ha usado:

puntuación = tasaÉxito × 0.5 + eficienciaCosto × 0.3 + velocidad × 0.2

Observa los últimos 60 días de historial de ejecución y compara:

Tasa de éxito — qué porcentaje de ejecuciones se completó sin errores
Eficiencia de costo — costo por ejecución exitosa (menor es mejor)
Velocidad — duración promedio de ejecución (más rápido es mejor)

Si su modelo actual tiene una tasa de éxito ≥90% en más de 10 ejecuciones, el motor confirma que es una buena elección. De lo contrario, recomienda la alternativa con mayor puntuación con métricas completas para que pueda hacer un cambio informado.

Para una comparación rigurosa, puede ejecutar un bakeoff — una evaluación directa con puntuación LLM-as-judge e intervalos de confianza del 95%. Los bakeoffs pueden comparar cualquier par de modelos, recipes o workflows.

Resiliencia empresarial

Ejecutar cargas de trabajo de producción a través de múltiples proveedores requiere más que gestión de claves API. JieGou incluye tres capas de resiliencia:

Circuit breakers

Cada proveedor tiene su propio circuit breaker. Si 5 llamadas fallan en 60 segundos, el circuito se abre — las llamadas subsiguientes fallan rápidamente en lugar de esperar el timeout. Después de 30 segundos, el circuito entra en estado half-open y envía una solicitud de prueba. Si tiene éxito, el circuito se cierra y el tráfico se reanuda.

Para proveedores openai-compatible, los circuit breakers tienen alcance por cuenta (ya que cada cliente puede tener un endpoint diferente). Los proveedores en la nube comparten un circuit breaker global.

Críticamente, los circuit breakers son fail-open — si Redis está caído y no podemos verificar el estado del circuito, dejamos pasar la llamada. Esto significa que una falla de monitoreo nunca bloquea sus workflows.

Límites de concurrencia

Un semáforo global limita las llamadas LLM concurrentes por cuenta para prevenir uso descontrolado. El límite escala con su plan:

Nivel del Plan	Cuota de Capacidad Global	Máximo por Cuenta
Enterprise	100% (150 slots)	10 concurrentes
Pro	83% (125 slots)	10 concurrentes
Starter	67% (100 slots)	10 concurrentes

Rastreo de costos

Cada llamada LLM registra el uso de tokens y el costo estimado. Cuando usa BYOK, el costo se rastrea por separado — aparece en su panel de analíticas pero no cuenta hacia los límites de uso de la plataforma, ya que está pagando a su proveedor directamente.

El estimador de costos usa promedios históricos de sus últimas 20 ejecuciones exitosas para proyectar costos antes de ejecutar. Puede ver el gasto esperado por recipe, por paso de workflow y por ejecución por lotes.

Arquitectura de claves con conocimiento cero

JieGou nunca ve sus claves API en texto plano en reposo. El pipeline de cifrado:

Clave raíz cargada desde Secret Manager o variable de entorno (hexadecimal de 64 caracteres)
Clave por cuenta derivada vía HKDF-SHA256: HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
Cifrado: AES-256-GCM con IV aleatorio de 12 bytes y tag de autenticación de 16 bytes
Almacenamiento: Solo el texto cifrado + IV + tag de autenticación se almacenan en Firestore
Descifrado: Ocurre en memoria en tiempo de ejecución, nunca se persiste

La rotación de claves está soportada — el sistema puede migrar del esquema de cifrado global heredado al cifrado de sobre por cuenta sin tiempo de inactividad.

Si una llamada API devuelve 401 o 403, el sistema automáticamente marca la clave como inválida y muestra un error claro. Puede revalidar o reemplazar la clave desde la página de configuración.

Comenzar

Plan gratuito: Use claves proporcionadas por la plataforma para Anthropic, OpenAI y Google — sin credenciales necesarias
BYOK: Vaya a Configuración > Claves API, agregue sus claves de proveedor y se cifran inmediatamente
Código abierto: Ingrese una URL base personalizada (por ejemplo, http://su-servidor-vllm:8000/v1) y nombre del modelo
Auto-descubrimiento: Si Ollama o vLLM está ejecutándose localmente, los modelos aparecen automáticamente

El acceso a modelos multi-proveedor está disponible en todos los planes. Los endpoints compatibles con OpenAI y el motor de recomendación de modelos están disponibles en Pro y superiores. El registro de modelos certificados y el auto-descubrimiento son funciones Enterprise.

Explore el soporte multi-proveedor de modelos o inicie su prueba gratuita.