La muerte de los precios por puesto
La industria SaaS ha facturado por puesto durante dos décadas. Tenía sentido cuando el software servía a empleados nombrados haciendo trabajo predecible. Pero los agentes de IA rompen este modelo por completo.
Un agente de IA no tiene un puesto. Maneja trabajo que podría haber requerido tres representantes de soporte, o redacta documentos en los que un asistente legal habría pasado horas. Facturar por puesto no tiene sentido cuando el “empleado” es software que escala horizontalmente.
Los números cuentan la historia: el 61% de las empresas SaaS ya usan alguna forma de precios basados en uso. El mercado global de SaaS está en $315 mil millones. Y el 73% de los CFOs empresariales exigen rastreo de consumo de IA en tiempo real.
Los precios por puesto están muriendo. La pregunta es: ¿qué los reemplaza?
La trampa de la facturación por tokens
El primer instinto fue la facturación basada en tokens. Usa tokens, paga por tokens. Simple.
Excepto que los tokens no tienen relación con el valor de negocio. Una respuesta de 1,000 tokens que resuelve un problema de un cliente y previene un evento de churn vale mucho más que una respuesta de 10,000 tokens que divaga sin ayudar. Facturar por tokens es como facturar a un bufete de abogados por el número de palabras en sus escritos en lugar de los resultados que entregan.
La facturación por tokens también crea incentivos perversos. Penaliza la exhaustividad y recompensa la brevedad, incluso cuando el cliente necesita una respuesta detallada. Hace los costos impredecibles para los CFOs porque el consumo de tokens varía enormemente por caso de uso.
Cómo se ven los precios basados en resultados
Los precios basados en resultados alinean el costo con el valor: usted paga por resoluciones, no por cómputo.
Una “resolución” significa una consulta de cliente, solicitud interna o tarea de flujo de trabajo que fue completada sin escalamiento humano. El cliente obtuvo su respuesta. El empleado obtuvo su documento. El proceso avanzó.
Para agentes de IA específicamente, esto significa:
- Resolución de agente de chat: Un cliente hace una pregunta y obtiene una respuesta precisa — ya sea de una regla coincidente (gratis), recuperación RAG (barato) o generación LLM (moderado). El negocio paga por consulta resuelta, no por token consumido.
- Resolución de flujo de trabajo: Un flujo de trabajo multi-paso se ejecuta hasta completarse, produciendo la salida esperada. El negocio paga por ejecución exitosa.
- Manejo de escalamiento: Cuando un agente no puede resolver una consulta y la escala a un humano, esa no es una resolución facturable. El negocio solo paga por valor entregado.
Cómo las analíticas de cascada habilitan esto
Los agentes de chat de JieGou usan una cascada de resolución de 4 niveles:
- Coincidencia de reglas — respuestas coincidentes por patrón con cero costo de LLM
- Recuperación RAG — respuestas de base de conocimiento con costo mínimo de embedding
- Respaldo LLM — inferencia de modelo completa cuando las reglas y RAG no pueden responder
- Escalamiento — transferencia humana cuando la confianza es demasiado baja
Esta cascada no es solo una funcionalidad de eficiencia. Es la infraestructura de datos para precios basados en resultados. Porque rastreamos exactamente qué nivel resolvió cada consulta, podemos:
- Contar resoluciones por mes por nivel de origen
- Calcular el costo combinado por resolución (la mayoría de las resoluciones cuestan centavos vía reglas/RAG, algunas cuestan más vía LLM)
- Mostrar a los clientes su tendencia de tasa de resolución a lo largo del tiempo
- Ofrecer niveles de precios basados en resoluciones en lugar de tokens
Un negocio que resuelve el 80% de las consultas vía reglas y RAG tiene un perfil de costos muy diferente de uno que envía el 80% al LLM. Los precios basados en resultados acomodan ambos de manera justa.
El modelo híbrido
Los precios puramente basados en resultados tienen riesgos. ¿Qué pasa si un cliente envía consultas adversariales para inflar los conteos de resolución? ¿Qué pasa si las definiciones de resolución se manipulan?
El enfoque práctico es híbrido: una base de suscripción que cubre acceso a la plataforma, gobernanza e infraestructura, más un componente basado en resultados que escala con el valor real entregado.
Hacia allí se dirige la industria. Salesforce introdujo el Acuerdo de Licencia Enterprise Agéntico (AELA) como modelo de tarifa fija. El playbook “Selling Intelligence” de Chargebee recomienda modelos híbridos. La guía de precios de IA de Bessemer destaca los niveles basados en resultados como la próxima frontera.
Los precios actuales de JieGou ya son híbridos: base de suscripción ($0-149/mes niveles de autoservicio) + margen transparente de tokens basado en plan (2.70x Pro/Team, negociable para Enterprise). La evolución natural es agregar un componente basado en resoluciones junto al margen de tokens — para que los clientes puedan elegir el modelo de facturación que mejor se adapte a su caso de uso.
Lo que esto significa para usted
No estamos anunciando precios basados en resultados hoy. Estamos anunciando que estamos construyendo la infraestructura para hacerlo posible:
- Métricas de resolución: rastreo de resoluciones totales, tasa de resolución y tendencias mensuales en las analíticas de agentes de chat
- Atribución de costos por nivel: saber exactamente lo que cuesta cada resolución por origen (regla, RAG, LLM)
- Reportes de tendencia mensuales: mostrar cómo cambian las tasas de resolución a lo largo del tiempo a medida que las reglas y bases de conocimiento mejoran
Cuando la infraestructura de datos sea sólida, el modelo de precios sigue naturalmente. Creemos que los clientes deberían tener la opción: pagar por token si eso es predecible para su caso de uso, o pagar por resolución si quieren precios vinculados a resultados de negocio.
La cascada no se trata solo de ahorrar costos. Se trata de construir un modelo de precios donde todos — el proveedor y el cliente — ganan cuando las consultas se resuelven eficientemente.