Transmissions depuis des déploiements d'agents en production : post-mortems, evals, courbes de coût, ce qui a marché, ce qui a explosé. Pas de « 10 façons dont l'IA va tout changer ».
Un exemple illustratif : une pile de support à 7 agents pour une fintech de taille moyenne. Trois semaines plus tard, les scores de satisfaction peuvent chuter de 4 points du jour au lendemain, sans changement de modèle ni de prompt et sans anomalie de trafic. La dérive est dans l'index, et elle change la façon de mesurer ces systèmes.
Lire la transmissionLes paiements d'agents sont passés d'un seul bricolage à sept protocoles concurrents en quatre mois : x402, Stripe MPP, Visa TAP, Mastercard Agent Pay, Google AP2 et d'autres. Le calcul de frais qui tranche (30 003 % contre 10 %), comment x402 transforme le code HTTP 402 en rail fonctionnel, le vide réglementaire et ce que nous choisirions.
Notes de lecture sur arXiv:2503.08223 (Université de Zhejiang, avril 2026). Les deux limites qui inquiètent tout le monde, l'épuisement des données et la monopolisation du calcul, pourraient être levées par les appareils déjà dans les mains des gens. Les chiffres, les problèmes ouverts et ce qui est livrable dès aujourd'hui.
Une condition de terminaison absente, aucune alerte de coût, un budget de confiance écrit mais non livré. 24 847 appels API, 9 heures, 3 218 $. Un exemple illustratif de pourquoi chaque mesure de protection est non négociable.
Le CSAT indique que le client s'est senti aidé, pas qu'il l'a été correctement. La pile de mesure à trois niveaux qui détecte les hallucinations avant que votre taux de retour ne le fasse.
La plupart des échecs d'agents ne sont pas de mauvaises réponses, ce sont des boucles infinies. Nous avons ajouté un budget de confiance à notre planificateur et la latence p99 a chuté de 38 %.
Comment une PME logistique québécoise de 12 personnes pourrait réduire son temps de réponse hors heures de 6 heures à 4 minutes en acheminant 73 % des messages entrants via un copilote ancré. Un exemple illustratif avec l'architecture complète.
pgvector, Pinecone, Qdrant, Weaviate. Même jeu de données, même modèle d'embeddings, mêmes requêtes. Latence p50/p99, recall@10, $/1M lectures, complexité opérationnelle. Aucun fournisseur n'a tout raflé.
Les vecteurs denses récoltent le marketing. Sur du contenu technique avec des entités nommées rares, le retrieval sparse gagne encore. Nous avons mesuré le point de croisement.
Les évals n'ont pas à être un projet de recherche. Notre harnais de régression standard tient dans un notebook et détecte 80 % des mauvais swaps de modèle.
Trois ans, quatre runtimes maison, une leçon douloureuse : LangGraph convient à 80 % des workflows multi-agents. Voici quand nous construisons encore le nôtre.
La terminologie est confuse. Un glossaire opérationnel, avec du code pour chacun, et quand chaque approche est le bon choix. À mettre en favori avant la prochaine réunion client.
Nous avons testé 8 stratégies de chunking sur 5 corpus représentatifs. Le chunking sémantique gagne sur les textes ambigus, le chunking à taille fixe gagne sur les documents, et vous ne devriez jamais utiliser 512 par défaut.
Les tableaux de bord de latence sont partout. Les tableaux de bord de coût sont rares. Nous avons construit une trace de coût par étape qui identifie les 12 % d'appels représentant 60 % de votre facture.
Notes de terrain, post-mortems et, à l'occasion, une opinion tranchée sur ce qui fonctionne vraiment en IA agentique de production. Pas de « guides ultimes ». Pas de fils.