Skip to content
Producto

Traiga Su Propio Modelo: Cómo JieGou Soporta Cada LLM Desde Claude Hasta Llama

Cómo la arquitectura multi-proveedor de JieGou le permite ejecutar Claude, GPT-5, Gemini y modelos de código abierto como Llama 4 desde una sola plataforma — con selección por paso, auto-descubrimiento y cifrado de claves con conocimiento cero.

JT
JieGou Team
· · 7 min de lectura

Cada plataforma de automatización de IA afirma tener “soporte multi-modelo”. En la práctica, eso generalmente significa que puede cambiar entre GPT-4o y GPT-5 en un menú desplegable de configuraciones. Quizás Claude también aparece en la lista. Si quiere ejecutar un modelo de código abierto, está por su cuenta.

JieGou toma un enfoque diferente. Construimos una capa universal de modelos que trata cada LLM — hospedado en la nube o auto-hospedado, propietario o de código abierto — como ciudadano de primera clase. Este artículo explica cómo funciona y por qué importa.

Cuatro niveles de proveedores en una plataforma

Nivel 1: Proveedores en la nube con BYOK

Traiga sus propias claves API para Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) y Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).

Sus claves se cifran con AES-256-GCM usando claves derivadas por cuenta mediante HKDF-SHA256. Se descifran en memoria solo durante la ejecución y nunca se almacenan en texto plano. También puede usar claves proporcionadas por la plataforma en el plan gratuito para comenzar sin ingresar credenciales.

Nivel 2: Modelos de código abierto certificados

Hemos probado cuatro modelos de código abierto de principio a fin en vLLM y los hemos certificado para compatibilidad completa con JieGou — incluyendo llamadas a herramientas, salida JSON estructurada y ejecución de recipes:

ModeloParámetrosLlamadas a HerramientasSalida EstructuradaVisiónContexto
Llama 4 Maverick400B+ MoE1M tokens
DeepSeek V3.2671B MoENo128K tokens
Qwen 3 235B235B MoENo128K tokens
Mistral 3 Large123B denso128K tokens

“Certificado” significa que hemos ejecutado miles de ejecuciones de recipes contra estos modelos, verificado que las llamadas a herramientas y la salida estructurada funcionan correctamente, y documentado el nivel de compatibilidad. Puede desplegarlos con confianza.

Nivel 3: Modelos de la comunidad

Cualquier modelo accesible mediante una API compatible con OpenAI funciona con JieGou. No lo hemos probado, por lo que recibe una etiqueta de nivel “comunidad” — pero la integración es idéntica. Si habla el formato de API de OpenAI, JieGou puede usarlo.

Nivel 4: Modelos locales auto-descubiertos

JieGou sondea servidores de inferencia locales al inicio:

  1. http://ollama:11434 (nombre de servicio Docker Compose)
  2. http://localhost:11434 (Ollama local)
  3. http://localhost:8000 (vLLM local)
  4. La variable de entorno OLLAMA_BASE_URL

Cuando encuentra un servidor, consulta la lista de modelos y los hace disponibles en el selector de modelos. Sin configuración manual necesaria. El resultado del descubrimiento se almacena en caché durante 5 minutos para evitar sobrecargar su servidor de inferencia.

Selección de modelo por paso

Esta es la función que hace que el soporte multi-proveedor sea realmente útil, en lugar de ser solo una casilla en un gráfico comparativo.

En un workflow de JieGou, cada paso puede usar un modelo diferente. Una configuración típica:

Paso del WorkflowTareaModeloPor qué
1. InvestigaciónAnálisis competitivo profundoClaude Opus 4.6Mejor calidad de razonamiento
2. ClasificaciónCategorizar hallazgosGPT-5-nanoRápido y barato para clasificación
3. ExtracciónExtraer datos estructuradosLlama 4 MaverickAlto volumen al menor costo
4. ResumenEscribir brief ejecutivoClaude Sonnet 4.6Fuerte calidad de escritura
5. TraducciónLocalizar a 5 idiomasQwen 3 235BMejor rendimiento multilingüe

La misma flexibilidad aplica a recipes (cada recipe tiene su propia configuración de modelo), conversaciones (elija un modelo por chat) y ejecuciones por lotes (el modelo seleccionado aplica a todas las filas).

Motor de recomendación de modelos

Elegir el modelo correcto para cada tarea suena poderoso pero también complejo. El motor de recomendación lo hace práctico.

Después de más de 10 ejecuciones de una recipe, el motor tiene suficientes datos para puntuar cada modelo que ha usado:

puntuación = tasaÉxito × 0.5 + eficienciaCosto × 0.3 + velocidad × 0.2

Observa los últimos 60 días de historial de ejecución y compara:

  • Tasa de éxito — qué porcentaje de ejecuciones se completó sin errores
  • Eficiencia de costo — costo por ejecución exitosa (menor es mejor)
  • Velocidad — duración promedio de ejecución (más rápido es mejor)

Si su modelo actual tiene una tasa de éxito ≥90% en más de 10 ejecuciones, el motor confirma que es una buena elección. De lo contrario, recomienda la alternativa con mayor puntuación con métricas completas para que pueda hacer un cambio informado.

Para una comparación rigurosa, puede ejecutar un bakeoff — una evaluación directa con puntuación LLM-as-judge e intervalos de confianza del 95%. Los bakeoffs pueden comparar cualquier par de modelos, recipes o workflows.

Resiliencia empresarial

Ejecutar cargas de trabajo de producción a través de múltiples proveedores requiere más que gestión de claves API. JieGou incluye tres capas de resiliencia:

Circuit breakers

Cada proveedor tiene su propio circuit breaker. Si 5 llamadas fallan en 60 segundos, el circuito se abre — las llamadas subsiguientes fallan rápidamente en lugar de esperar el timeout. Después de 30 segundos, el circuito entra en estado half-open y envía una solicitud de prueba. Si tiene éxito, el circuito se cierra y el tráfico se reanuda.

Para proveedores openai-compatible, los circuit breakers tienen alcance por cuenta (ya que cada cliente puede tener un endpoint diferente). Los proveedores en la nube comparten un circuit breaker global.

Críticamente, los circuit breakers son fail-open — si Redis está caído y no podemos verificar el estado del circuito, dejamos pasar la llamada. Esto significa que una falla de monitoreo nunca bloquea sus workflows.

Límites de concurrencia

Un semáforo global limita las llamadas LLM concurrentes por cuenta para prevenir uso descontrolado. El límite escala con su plan:

Nivel del PlanCuota de Capacidad GlobalMáximo por Cuenta
Enterprise100% (150 slots)10 concurrentes
Pro83% (125 slots)10 concurrentes
Starter67% (100 slots)10 concurrentes

Rastreo de costos

Cada llamada LLM registra el uso de tokens y el costo estimado. Cuando usa BYOK, el costo se rastrea por separado — aparece en su panel de analíticas pero no cuenta hacia los límites de uso de la plataforma, ya que está pagando a su proveedor directamente.

El estimador de costos usa promedios históricos de sus últimas 20 ejecuciones exitosas para proyectar costos antes de ejecutar. Puede ver el gasto esperado por recipe, por paso de workflow y por ejecución por lotes.

Arquitectura de claves con conocimiento cero

JieGou nunca ve sus claves API en texto plano en reposo. El pipeline de cifrado:

  1. Clave raíz cargada desde Secret Manager o variable de entorno (hexadecimal de 64 caracteres)
  2. Clave por cuenta derivada vía HKDF-SHA256: HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
  3. Cifrado: AES-256-GCM con IV aleatorio de 12 bytes y tag de autenticación de 16 bytes
  4. Almacenamiento: Solo el texto cifrado + IV + tag de autenticación se almacenan en Firestore
  5. Descifrado: Ocurre en memoria en tiempo de ejecución, nunca se persiste

La rotación de claves está soportada — el sistema puede migrar del esquema de cifrado global heredado al cifrado de sobre por cuenta sin tiempo de inactividad.

Si una llamada API devuelve 401 o 403, el sistema automáticamente marca la clave como inválida y muestra un error claro. Puede revalidar o reemplazar la clave desde la página de configuración.

Comenzar

  1. Plan gratuito: Use claves proporcionadas por la plataforma para Anthropic, OpenAI y Google — sin credenciales necesarias
  2. BYOK: Vaya a Configuración > Claves API, agregue sus claves de proveedor y se cifran inmediatamente
  3. Código abierto: Ingrese una URL base personalizada (por ejemplo, http://su-servidor-vllm:8000/v1) y nombre del modelo
  4. Auto-descubrimiento: Si Ollama o vLLM está ejecutándose localmente, los modelos aparecen automáticamente

El acceso a modelos multi-proveedor está disponible en todos los planes. Los endpoints compatibles con OpenAI y el motor de recomendación de modelos están disponibles en Pro y superiores. El registro de modelos certificados y el auto-descubrimiento son funciones Enterprise.

Explore el soporte multi-proveedor de modelos o inicie su prueba gratuita.

byom byok multi-provider open-source llama deepseek vllm ollama model-selection
Compartir este artículo

¿Le gustó este artículo?

Reciba consejos sobre flujos de trabajo, actualizaciones de producto y guías de automatización en su bandeja de entrada.

No spam. Unsubscribe anytime.