LLM-as-Judge: cómo funciona la evaluación automatizada de IA

Evaluar la salida de IA es uno de los problemas más difíciles en la IA aplicada. La evaluación humana es el estándar de oro, pero es lenta, costosa y no escala. El sistema de bakeoffs de JieGou usa LLM-as-judge — una técnica donde un modelo de lenguaje evalúa la salida de otro — para automatizar la puntuación de calidad con rigor estadístico.

Así es como funciona internamente.

La configuración básica

En un bakeoff, dos variantes (recetas, modelos o flujos de trabajo) procesan el mismo conjunto de entradas. Cada una produce una salida. Un juez LLM independiente — separado de los modelos que se evalúan — puntúa cada salida en dimensiones predefinidas.

El juez ve ambas salidas (anonimizadas como “Salida A” y “Salida B”) junto con la entrada original y los criterios de puntuación. Produce una puntuación estructurada para cada dimensión: calidad, precisión, relevancia, integridad y un ganador general.

¿Por qué usar un LLM como juez?

La alternativa es la evaluación manual: que un humano lea cada par de salidas y las puntúe. Para pruebas pequeñas (5-10 entradas), eso es factible. Para un análisis estadístico significativo (50-100+ entradas), se convierte en un cuello de botella.

Los jueces LLM escalan linealmente — evaluar 100 pares de entradas toma el mismo tiempo real que evaluar 10 cuando se ejecutan en paralelo. El costo es predecible (son solo tokens), y la evaluación es consistente. El juicio de un humano se desvía durante una sesión de evaluación larga; el de un LLM no.

La compensación es que los jueces LLM tienen sesgos conocidos: tienden a preferir salidas más largas, lenguaje más formal y salidas que coinciden con su propia distribución de entrenamiento. JieGou mitiga esto aleatorizando el orden de presentación (posición A/B) y soportando consenso multi-juez.

Consenso multi-juez

Para evaluaciones de alta importancia, JieGou soporta 2-3 jueces independientes. Cada juez puntúa de forma independiente, y el sistema mide el acuerdo entre jueces usando dos métricas de correlación de rangos:

Tau de Kendall mide la proporción de pares de ranking concordantes vs. discordantes entre jueces. Un tau de 1.0 significa acuerdo perfecto; 0.0 significa sin correlación. En la práctica, valores de tau superiores a 0.7 indican acuerdo fuerte.

Rho de Spearman mide la correlación de orden de rangos. Es similar al tau de Kendall pero más sensible a grandes desacuerdos de ranking. Valores de rho superiores a 0.8 indican acuerdo fuerte.

Cuando los jueces discrepan significativamente (tau/rho bajo), el sistema señala el bakeoff para revisión humana en lugar de declarar un ganador — porque los jueces en desacuerdo usualmente significan que las salidas son cercanas en calidad o los criterios de evaluación son ambiguos.

Confianza estadística

Cada puntuación en un bakeoff incluye:

Puntuación media entre todas las entradas
Desviación estándar mostrando la consistencia de las puntuaciones
Intervalo de confianza del 95% para que sepa el rango de rendimiento verdadero

Un bakeoff que muestra la Variante A puntuando 7.2 (IC: 6.8-7.6) vs. la Variante B puntuando 7.0 (IC: 6.5-7.5) tiene intervalos de confianza superpuestos — lo que significa que la diferencia no es estadísticamente significativa. Necesitaría más entradas o un enfoque de evaluación diferente.

Un bakeoff mostrando la Variante A en 8.1 (IC: 7.7-8.5) vs. la Variante B en 6.3 (IC: 5.9-6.7) tiene intervalos no superpuestos — eso es un ganador claro.

Consideraciones de costo

LLM-as-judge añade costo de evaluación además del costo base de ejecución. Cada llamada al juez procesa ambas salidas más el prompt de puntuación, lo que típicamente ejecuta 2-4x el conteo de tokens de una sola salida.

El modo multi-juez multiplica esto: 3 jueces significa 3x el costo de evaluación. JieGou muestra los costos estimados antes de ejecutar un bakeoff para que pueda decidir si el presupuesto de evaluación vale la pena.

Para escenarios sensibles al costo, el modo de juez único con más entradas frecuentemente da mejor poder estadístico que el modo multi-juez con menos entradas.

Recomendaciones prácticas

Basado en nuestra experiencia ejecutando miles de bakeoffs internamente:

Comience con 20-30 entradas para una señal inicial, luego escale a 50-100 para decisiones de producción
Use entradas sintéticas cuando no tenga suficientes datos reales — cubren casos extremos que los datos reales podrían no incluir
Un solo juez es suficiente para diferencias claras (> 1 punto de brecha). Use multi-juez para decisiones ajustadas
Verifique los intervalos de confianza antes de actuar — intervalos superpuestos significan que necesita más datos, no una decisión
Varíe sus jueces — usar Claude para juzgar salidas de Claude puede introducir sesgo de auto-preferencia; el juzgamiento cruzado entre proveedores reduce esto

Conozca más

Los bakeoffs están disponibles en planes Pro y Enterprise. Vea la página completa de la funcionalidad de bakeoffs para detalles sobre los seis modos de evaluación.