Pourquoi nous explorons la tarification basée sur les résultats pour les agents IA

La tarification par siège est mourante. La facturation par token est opaque. L'avenir de la tarification des agents IA est basé sur les résultats : payez par résolution, pas par token. Voici comment l'analytique en cascade qui alimente les Chat Agents de JieGou rend cela possible.

JieGou Team · 5 mars 2026 · 6 min de lecture

La mort de la tarification par siège

L’industrie SaaS a facturé au siège pendant deux décennies. Cela avait du sens quand le logiciel servait des employés nommés effectuant un travail prévisible. Mais les agents IA cassent complètement ce modèle.

Un agent IA n’a pas de siège. Il gère un travail qui aurait pu nécessiter trois représentants support, ou il rédige des documents qu’un parajuriste aurait passé des heures à faire. Facturer par siège n’a aucun sens quand l’« employé » est un logiciel qui se met à l’échelle horizontalement.

Les chiffres racontent l’histoire : 61 % des entreprises SaaS utilisent déjà une forme de tarification basée sur l’utilisation. Le marché mondial du SaaS est à 315 milliards de dollars. Et 73 % des DAF d’entreprise exigent un suivi en temps réel de la consommation IA.

La tarification par siège est mourante. La question est : qu’est-ce qui la remplace ?

Le piège de la facturation par token

Le premier réflexe a été la tarification basée sur les tokens. Vous utilisez des tokens, vous payez pour des tokens. Simple.

Sauf que les tokens n’ont aucun rapport avec la valeur métier. Une réponse de 1 000 tokens qui résout un problème client et empêche un churn vaut bien plus qu’une réponse de 10 000 tokens qui divague sans aider. Facturer par tokens, c’est comme facturer un cabinet d’avocats au nombre de mots dans leurs mémoires plutôt qu’aux résultats qu’ils délivrent.

La facturation par token crée aussi des incitations perverses. Elle pénalise la rigueur et récompense la brièveté, même quand le client a besoin d’une réponse détaillée. Elle rend les coûts imprévisibles pour les DAF parce que la consommation de tokens varie énormément selon le cas d’usage.

À quoi ressemble la tarification basée sur les résultats

La tarification basée sur les résultats aligne le coût avec la valeur : vous payez pour des résolutions, pas pour du calcul.

Une « résolution » signifie qu’une requête client, demande interne ou tâche de workflow a été complétée sans escalade humaine. Le client a obtenu sa réponse. L’employé a obtenu son document. Le processus a avancé.

Pour les agents IA spécifiquement, cela signifie :

Résolution d’agent chat : Un client pose une question et obtient une réponse précise — que ce soit à partir d’une règle correspondante (gratuit), d’une recherche RAG (peu coûteux) ou d’une génération LLM (modéré). L’entreprise paie par requête résolue, pas par token consommé.
Résolution de workflow : Un workflow multi-étapes s’exécute jusqu’à complétion, produisant la sortie attendue. L’entreprise paie par exécution réussie.
Gestion d’escalade : Quand un agent ne peut pas résoudre une requête et escalade vers un humain, ce n’est pas une résolution facturable. L’entreprise ne paie que pour la valeur délivrée.

Comment l’analytique en cascade rend cela possible

Les Chat Agents de JieGou utilisent une cascade de résolution à 4 niveaux :

Correspondance de règles — réponses par correspondance de patterns avec zéro coût LLM
Recherche RAG — réponses de la base de connaissances avec un coût d’embedding minimal
Repli LLM — inférence complète du modèle quand les règles et le RAG ne peuvent pas répondre
Escalade — transfert humain quand la confiance est trop basse

Cette cascade n’est pas juste une fonctionnalité d’efficacité. C’est l’infrastructure de données pour la tarification basée sur les résultats. Parce que nous suivons exactement quel niveau a résolu chaque requête, nous pouvons :

Compter les résolutions par mois par niveau source
Calculer le coût mixte par résolution (la plupart des résolutions coûtent des centimes via règles/RAG, certaines coûtent plus via LLM)
Montrer aux clients leur tendance de taux de résolution dans le temps
Offrir des niveaux de tarification basés sur les résolutions plutôt que les tokens

Une entreprise qui résout 80 % des requêtes via règles et RAG a un profil de coût très différent de celle qui envoie 80 % au LLM. La tarification basée sur les résultats accommode les deux équitablement.

Le modèle hybride

La tarification purement basée sur les résultats comporte des risques. Que se passe-t-il si un client envoie des requêtes adverses pour gonfler les comptages de résolutions ? Que se passe-t-il si les définitions de résolution sont manipulées ?

L’approche pratique est hybride : une base d’abonnement qui couvre l’accès à la plateforme, la gouvernance et l’infrastructure, plus un composant basé sur les résultats qui évolue avec la valeur réellement délivrée.

C’est la direction que prend l’industrie. Salesforce a introduit l’Agentic Enterprise License Agreement (AELA) comme modèle à forfait. Le playbook « Selling Intelligence » de Chargebee recommande les modèles hybrides. Le guide de tarification IA de Bessemer souligne les niveaux basés sur les résultats comme la prochaine frontière.

La tarification actuelle de JieGou est déjà hybride : base d’abonnement (0-149 $/mois en self-serve) + marge de token transparente et basée sur le plan (2,70x Pro/Team, négociable pour Enterprise). L’évolution naturelle est d’ajouter un composant basé sur les résolutions aux côtés de la marge de token — pour que les clients puissent choisir le modèle de facturation qui correspond le mieux à leur cas d’usage.

Ce que cela signifie pour vous

Nous n’annonçons pas la tarification basée sur les résultats aujourd’hui. Nous annonçons que nous construisons l’infrastructure pour la rendre possible :

Métriques de résolution : suivi des résolutions totales, du taux de résolution et des tendances mensuelles dans l’analytique des Chat Agents
Attribution des coûts par niveau : savoir exactement ce que coûte chaque résolution par source (règle, RAG, LLM)
Reporting de tendance mensuelle : montrant comment les taux de résolution changent au fil du temps à mesure que les règles et bases de connaissances s’améliorent

Quand l’infrastructure de données est solide, le modèle de tarification suit naturellement. Nous croyons que les clients devraient avoir le choix : payer par token si c’est prévisible pour votre cas d’usage, ou payer par résolution si vous voulez une tarification liée aux résultats métier.

La cascade n’est pas seulement une question d’économie. C’est une question de construire un modèle de tarification où tout le monde — le fournisseur et le client — gagne quand les requêtes sont résolues efficacement.