Les scores de satisfaction client sont collectés après l'interaction. Les clients évaluent ce qu'ils ont ressenti, ce qui est un indicateur indirect de la résolution du problème, lui-même un indicateur indirect de la performance correcte de l'agent. À chaque niveau d'indirection, le signal se dégrade. Le temps qu'une hallucination (une politique de retour inventée, un délai de livraison fabriqué, une spécification produit inexistante) apparaisse dans votre CSAT, elle s'est déjà produite dans des dizaines d'interactions dont vous ne retrouverez jamais la cause racine.
Le problème le plus insidieux : les scores CSAT sont systématiquement biaisés vers les interactions qui ont abouti. Les clients dont le problème n'a pas été résolu ne complètent souvent pas le sondage. Les clients qui ont reçu des informations erronées présentées avec assurance et qui ont agi sur cette base ne réalisent pas toujours l'erreur à temps pour évaluer négativement l'interaction. Un agent service client peut se tromper factuellement à un taux significatif et maintenir quand même une note de 4 étoiles.
Ce schéma, nous l'avons observé à répétition. Les équipes déploient un agent service client, regardent le CSAT se stabiliser ou s'améliorer (les clients apprécient la rapidité) et concluent que l'agent performe bien. Puis un changement de politique survient, les données d'entraînement de l'agent ne le reflètent pas, et l'agent continue de donner avec assurance des réponses obsolètes. Le CSAT ne bouge pas pendant des semaines. Les retours augmentent. Le volume de support augmente. À ce moment, la chaîne causale est enfouie.
Le CSAT est un indicateur retardé d'un indicateur retardé
Les dommages causés par une hallucination en service client sont en aval de l'interaction qui en est la source. Le client dit merci et raccroche. Le problème remonte à la surface des jours plus tard, sous forme de retour, de rétrofacturation ou de plainte réglementaire. Le CSAT, collecté au moment où le client se sent écouté, ne peut rien voir de tout cela.
Les chiffres de la section suivante proviennent d'un scénario d'audit illustratif d'un agent service client. Les clients qui donnent 4 étoiles évaluent, dans plusieurs cas, des interactions où l'agent leur a fourni des informations incorrectes sur lesquelles ils n'avaient pas encore agi. La note de satisfaction est réelle. L'exactitude ne l'est pas.
Les trois niveaux. Un seul est optionnel.
La qualité d'un agent service client se décompose en trois niveaux de mesure. Le premier niveau, les métriques de vanité, est ce que la plupart des équipes rapportent. Le deuxième niveau, les métriques opérationnelles, est ce que la plupart des équipes peuvent instrumenter avec un effort raisonnable. Le troisième niveau, les métriques de confiance, est ce que la plupart des équipes ignorent et ce qui compte le plus.
| métrique | valeur typique | plage de référence | type de signal |
|---|---|---|---|
| Niveau 1 · Vanité (mesurer, ne pas optimiser) | |||
| Score CSAT Note de satisfaction post-interaction | 4,2 / 5 | 3,8 – 4,5 typique | retardé / biaisé |
| Taux de déviation % de contacts résolus sans humain | 68 % | 60 – 80 % annoncé | vanité / manipulable |
| Niveau 2 · Opérationnel (instrumenter en premier) | |||
| Latence de première réponse p50 / p99 délai avant première réponse substantielle | 4s / 18s | <8s cible p50 | avancé / actionnable |
| Taux d'escalade % de sessions transférées à un humain | 23 % | 10 – 20 % sain | à surveiller / tendance |
| Taux de contact répété % retournant dans les 24h pour le même problème | 14 % | <8 % cible | avancé pour la qualité |
| Taux de refus % de requêtes valides refusées ou déviées | 2,1 % | <3 % sain | avancé / testable |
| Niveau 3 · Confiance (les métriques qui comptent le plus) | |||
| Taux d'hallucination % de réponses contenant des affirmations factuelles non ancrées | 8,1 % | <1 % requis | alarme / invisible au CSAT |
| Exactitude des politiques % de réponses citant une politique qui la citent correctement | 91,4 % | >99 % requis | alarme / responsabilité |
| Taux de citation ancrée % d'affirmations factuelles traçables à une source | 78 % | >95 % cible | indicateur proxy du taux d'halluc. |
| Taux de confiance injustifiée Réponses définitives sur des choses réellement incertaines | 5,3 % | <2 % cible | alarme / difficile à détecter |
Le score CSAT était de 4,2. Le taux d'hallucination était de 8,1 %. Les deux étaient vrais simultanément. Le premier niveau semblait correct. Le troisième niveau était en feu. Aucun tableau de bord construit uniquement sur le niveau 1 ne l'aurait détecté.
À quoi ressemble une hallucination en service client. Concrètement.
Les hallucinations en service client ont un caractère différent de celles dont les gens s'inquiètent dans les contextes de recherche ou de développement. Elles tendent à être plausibles, confiantes, et portent sur des choses que le client n'a aucun moyen immédiat de vérifier : fenêtres de retour, estimations de livraison, conditions de garantie, disponibilité de fonctionnalités dans des plans spécifiques. Le client dit merci et raccroche. Le problème remonte à la surface des jours plus tard.
L'agent a répondu : « Absolument, notre politique de retour couvre 60 jours à compter de l'achat, vous êtes donc bien dans les délais. »
Politique réelle : Fenêtre de retour de 30 jours. Le client était à 2 jours au-delà.
Cause racine : La politique est passée de 60 à 30 jours 6 semaines plus tôt. Le corpus de récupération de l'agent n'avait pas été réindexé. L'ancien document de politique était encore le premier résultat pour « fenêtre de retour ».
Trois éléments rendaient ce cas typique. Premièrement, l'agent a répondu avec assurance sans nuancer : pas de « je crois » ou « laissez-moi vérifier ». Deuxièmement, l'erreur était ancrée dans un vrai document. Elle n'était pas fabriquée de toutes pièces, c'était la mauvaise version d'une chose réelle. Troisièmement, le CSAT de cette interaction était de 5 étoiles. Le client était ravi. Le préjudice est survenu en aval, quand il s'est présenté avec le produit et s'est vu répondre non.
L'implication en matière de mesure : détecter cette classe d'hallucination exige de vérifier les réponses par rapport à la version courante du document source, pas seulement par rapport à l'existence d'une source. Une réponse peut être entièrement citée et être quand même incorrecte. La couverture de citation est nécessaire mais pas suffisante. Il faut des vérifications d'ancrage sensibles aux versions.
Comment mesurer ce qui compte réellement
Les métriques de confiance du niveau 3 exigent une mesure active. Elles n'apparaîtront dans aucune analytique par défaut. Voici l'approche pratique pour chacune, classée par coût d'implémentation.
- Taux d'escalade, trivial à instrumenter, riche en signal
escalades / sessions totales · tendance quotidienne par catégorie d'intentionLe taux d'escalade par catégorie d'intention a plus de valeur que le taux d'escalade global. Une hausse des escalades sur les requêtes « litige de facturation » est un signal précis et actionnable. Une hausse du taux d'escalade global est un point de départ pour l'investigation. La ventilation par catégorie est le signal ; l'agrégat est la réduction du bruit.
Cible : <15 % global · alerte sur >25 % dans une seule catégorie d'intention - Taux de contact répété, le proxy de la qualité de résolution
sessions où le même client reprend contact dans les 24h / sessions totalesSi un client revient dans les 24 heures avec le même problème, l'agent ne l'a pas résolu, ou l'a résolu incorrectement. Le taux de contact répété est le proxy le plus proche de la qualité de résolution sans faire appel au CSAT. Il est mesurable à partir des journaux de sessions sans appels de modèle supplémentaires. Un taux de contact répété de 8 % signifie qu'environ 1 résolution sur 12 échoue dans la journée.
Cible : <8 % · tout ce qui dépasse 12 % indique une défaillance systématique de résolution - Taux de citation ancrée, l'indicateur avancé d'hallucination
réponses avec ≥1 citation de source traçable / réponses factuelles totalesExigez que l'agent cite ses sources pour les affirmations factuelles. Cela ne prévient pas l'hallucination (un modèle peut citer le mauvais document), mais crée une piste d'audit et augmente la friction pour halluciner. Les réponses sans citation, sur des requêtes qui nécessitent un ancrage factuel, sont les réponses à plus haut risque. Marquez-les et examinez-en un échantillon chaque semaine.
Cible : >95 % de taux de citation sur les requêtes factuelles · examiner les réponses non citées chaque semaine - Taux d'hallucination, nécessite une évaluation active
LLM-as-judge : réponses où l'affirmation de l'agent ≠ document source / réponses échantillonnéesIl est impossible de mesurer le taux d'hallucination passivement. Cela exige d'échantillonner les réponses, de récupérer les documents sources que l'agent a cités ou aurait dû citer, et de vérifier si l'affirmation de l'agent est cohérente avec ces documents. Un passage LLM-as-judge léger (« cette réponse contredit-elle la source citée ? ») sur 2 à 5 % des interactions est faisable et suffisant pour la détection de tendances. Sensible aux versions : la source doit être celle qui existait au moment de l'interaction.
Cible : <1 % · tout ce qui dépasse 3 % exige un audit immédiat du corpus de récupération - Exactitude des politiques, la métrique de responsabilité
réponses citant une politique vérifiées correctes par rapport à la politique courante / réponses citant une politiqueLes affirmations de politique sont les réponses les plus à enjeux en service client : fenêtres de retour, conditions de garantie, tarification, droits. Maintenez un ensemble doré de politiques, une liste structurée des faits de politique actuels avec leurs valeurs correctes, et vérifiez chaque réponse citant une politique par rapport à cet ensemble. Ce n'est pas une vérification LLM ; c'est une recherche déterministe. Affirmation de politique incorrecte = 0, quelle que soit la confiance avec laquelle elle a été formulée.
Cible : >99 % · non négociable pour l'exposition légale et réglementaire
L'échantillonneur d'hallucinations. Ce qu'il exécute réellement.
Voici la version légère : un passage d'échantillonnage à 2 % qui s'exécute de façon asynchrone après chaque interaction et enregistre les résultats dans votre tableau de bord qualité. Il n'ajoute aucune latence au parcours client.
import anthropic, random from datetime import datetime client = anthropic.Anthropic() # Runs async after interaction, zero customer-facing latency impact def sample_for_hallucination(interaction: dict, sample_rate: float = 0.02): if random.random() > sample_rate: return # not sampled this interaction agent_response = interaction["agent_response"] cited_sources = interaction["retrieved_chunks"] # from retrieval layer interaction_ts = interaction["timestamp"] # ── Version-aware source fetch ──────────────────────────────── # Retrieve the source as it existed at interaction time sources_at_time = [ fetch_source_version(src["id"], as_of=interaction_ts) for src in cited_sources ] # ── LLM-as-judge: is the response consistent with sources? ──── judge_prompt = f"""You are auditing a customer service response for factual accuracy. Agent response: {agent_response} Source documents (current at time of interaction): {format_sources(sources_at_time)} For each factual claim in the agent response: 1. Identify the claim 2. Find the supporting source passage (if any) 3. Assess: CONSISTENT, INCONSISTENT, or UNVERIFIABLE Respond in JSON: {{"claims": [{{"text": ..., "verdict": ..., "reason": ...}}]}}""" result = client.messages.create( model="claude-haiku-4-5", # cheap judge, not the production model max_tokens=1000, messages=[{"role": "user", "content": judge_prompt}] ) claims = parse_json(result.content[0].text)["claims"] # ── Score and emit ──────────────────────────────────────────── inconsistent = [c for c in claims if c["verdict"] == "INCONSISTENT"] if inconsistent: log_hallucination_event({ "interaction_id": interaction["id"], "inconsistent_claims": inconsistent, "severity": classify_severity(inconsistent), "sampled_at": datetime.utcnow().isoformat() }) # Compute running rate, alert if 30-day rate exceeds threshold update_hallucination_rate_metric( has_hallucination=bool(inconsistent), interaction_id=interaction["id"] )
Deux décisions de conception méritent d'être soulignées. Premièrement : le juge utilise claude-haiku-4-5, pas le modèle de production. La tâche (« cette affirmation contredit-elle ce passage ? ») est un problème de classification, pas de génération. Haiku le gère bien à un coût environ 12 fois inférieur à Sonnet. Deuxièmement : la récupération de source sensible aux versions. Sans elle, vous vérifieriez les réponses par rapport au document source actuel, pas à celui qui existait au moment de l'interaction. Un changement de politique la semaine dernière ferait apparaître les interactions antérieures comme des hallucinations alors qu'elles n'en étaient pas.
Ce qu'afficher sur le tableau de bord. Et ce qu'en laisser.
La partie la plus difficile n'est pas l'instrumentation, c'est le reporting. Les tableaux de bord qualité qui affichent tout créent de la fatigue d'alerte ; ceux qui n'affichent que le CSAT créent une fausse confiance. La structure à trois niveaux suggère une mise en page à trois panneaux, et les étiquettes de niveau vous indiquent le degré d'attention à accorder à chacun.
La ventilation du taux d'escalade par catégorie d'intention mérite une mention à part. Quand le taux d'escalade augmente, vous voulez savoir immédiatement si c'est « litiges de facturation » (un changement de politique, un problème de système de facturation) ou « questions produit » (un manque de connaissance, une défaillance de récupération) ou « toutes catégories également » (une mise à jour de modèle, une régression du system prompt). Le chiffre global vous dit que quelque chose ne va pas. La ventilation vous dit où chercher.
Un instrument qui prend un après-midi à construire et rapporte en permanence : un ensemble doré de politiques. Maintenez un fichier JSON des faits de politique actuels (fenêtre de retour, durée de garantie, délais de livraison, disponibilité des fonctionnalités par plan) avec leurs valeurs correctes et leurs dates d'entrée en vigueur. Vérifiez automatiquement chaque réponse citant une politique par rapport à cet ensemble. Réponse de politique incorrecte signalée, quels que soient le ton ou la confiance. C'est la seule vérification déterministe dans une pile qualité autrement probabiliste, et elle couvre la catégorie à plus haute responsabilité.
Si vous souhaitez que nous vous aidions à brancher l'une de ces métriques dans votre stack service client, le formulaire de contact est le moyen le plus rapide. Nous offrons des révisions de 30 minutes pour les stacks d'agents en production, gratuitement.