FLUX · EN DIRECT v3.2.1 QC · CA EN
notes-terrain/flux · 14 transmissions · cadence aux deux semaines
--:--:-- UTC
QUEBEC · 46.81°N -71.21°W
racine · notes-terrain · /flux

Notes de terrain /
en production.

Transmissions depuis des déploiements d'agents en production : post-mortems, evals, courbes de coût, ce qui a marché, ce qui a explosé. Pas de « 10 façons dont l'IA va tout changer ».

billets14
contributeurs8
dernière publication2026·05·29
temps de lecture moyen~10 min
révisé parJ.P. Levac
cadenceaux deux semaines
filtrer ·
À la une · transmission 018

Pourquoi votre pipeline RAG se dégrade en silence, et comment nous l'avons détecté à la semaine 3.

Un exemple illustratif : une pile de support à 7 agents pour une fintech de taille moyenne. Trois semaines plus tard, les scores de satisfaction peuvent chuter de 4 points du jour au lendemain, sans changement de modèle ni de prompt et sans anomalie de trafic. La dérive est dans l'index, et elle change la façon de mesurer ces systèmes.

JP Jean Pierre Levac
2026·05·14 11m de lecture ● RAG · evals
Lire la transmission
§ flux · toutes les transmissions

Récents / chronologique

13 billets · du plus récent au plus ancien
tx · 022 infra

Votre agent a besoin d'un portefeuille. Sept protocoles veulent l'être.

Les paiements d'agents sont passés d'un seul bricolage à sept protocoles concurrents en quatre mois : x402, Stripe MPP, Visa TAP, Mastercard Agent Pay, Google AP2 et d'autres. Le calcul de frais qui tranche (30 003 % contre 10 %), comment x402 transforme le code HTTP 402 en rail fonctionnel, le vide réglementaire et ce que nous choisirions.

tx · 021 infra

Le mur du scaling est réel. La solution est peut-être dans votre poche.

Notes de lecture sur arXiv:2503.08223 (Université de Zhejiang, avril 2026). Les deux limites qui inquiètent tout le monde, l'épuisement des données et la monopolisation du calcul, pourraient être levées par les appareils déjà dans les mains des gens. Les chiffres, les problèmes ouverts et ce qui est livrable dès aujourd'hui.

tx · 020 agents

Post-mortem : la boucle qui a coûté 3 200 $ en une nuit.

Une condition de terminaison absente, aucune alerte de coût, un budget de confiance écrit mais non livré. 24 847 appels API, 9 heures, 3 218 $. Un exemple illustratif de pourquoi chaque mesure de protection est non négociable.

tx · 019 ops

Votre agent service client a une note de 4,2 étoiles. Son taux d'hallucination est aussi de 8 %.

Le CSAT indique que le client s'est senti aidé, pas qu'il l'a été correctement. La pile de mesure à trois niveaux qui détecte les hallucinations avant que votre taux de retour ne le fasse.

tx · 017 agents

Construire un planificateur d'agent qui sait s'arrêter.

La plupart des échecs d'agents ne sont pas de mauvaises réponses, ce sont des boucles infinies. Nous avons ajouté un budget de confiance à notre planificateur et la latence p99 a chuté de 38 %.

tx · 016 scénario

Exemple illustratif : une équipe ops de 12 personnes, une boîte de réception 24/7, un seul agent.

Comment une PME logistique québécoise de 12 personnes pourrait réduire son temps de réponse hors heures de 6 heures à 4 minutes en acheminant 73 % des messages entrants via un copilote ancré. Un exemple illustratif avec l'architecture complète.

tx · 015 infra

Comparatif bases vectorielles : quatre solutions testées sur 1,2 million de chunks.

pgvector, Pinecone, Qdrant, Weaviate. Même jeu de données, même modèle d'embeddings, mêmes requêtes. Latence p50/p99, recall@10, $/1M lectures, complexité opérationnelle. Aucun fournisseur n'a tout raflé.

tx · 014 RAG

Retrieval hybride : quand BM25 bat votre modèle d'embeddings à 400 $.

Les vecteurs denses récoltent le marketing. Sur du contenu technique avec des entités nommées rares, le retrieval sparse gagne encore. Nous avons mesuré le point de croisement.

tx · 013 ops

La suite d'éval en 6 lignes que nous livrons avec chaque agent.

Les évals n'ont pas à être un projet de recherche. Notre harnais de régression standard tient dans un notebook et détecte 80 % des mauvais swaps de modèle.

tx · 012 agents

Pourquoi nous avons (presque) arrêté de construire des orchestrateurs custom.

Trois ans, quatre runtimes maison, une leçon douloureuse : LangGraph convient à 80 % des workflows multi-agents. Voici quand nous construisons encore le nôtre.

tx · 011 agents

Tool calling, function calling, agents : les vraies différences.

La terminologie est confuse. Un glossaire opérationnel, avec du code pour chacun, et quand chaque approche est le bon choix. À mettre en favori avant la prochaine réunion client.

tx · 010 RAG

Le chunking est un hyperparamètre. Optimisez-le.

Nous avons testé 8 stratégies de chunking sur 5 corpus représentatifs. Le chunking sémantique gagne sur les textes ambigus, le chunking à taille fixe gagne sur les documents, et vous ne devriez jamais utiliser 512 par défaut.

tx · 009 infra

0,0004 $ par étape d'agent : comment nous avons fait du coût une métrique prioritaire.

Les tableaux de bord de latence sont partout. Les tableaux de bord de coût sont rares. Nous avons construit une trace de coût par étape qui identifie les 12 % d'appels représentant 60 % de votre facture.

Reçu dans votre
boîte / aux deux semaines.

Notes de terrain, post-mortems et, à l'occasion, une opinion tranchée sur ce qui fonctionne vraiment en IA agentique de production. Pas de « guides ultimes ». Pas de fils.

désabonnement en 1 clic jamais de pourriel

© 2026 Acceleratech · notes-terrain · v3.2.1 ← retour à la racine Une Stratégie de croissance numérique par Groupe de Croissance Numérique JPL.