Quand les clients demandent du RAG en 2026 : mon arbre de décision (et pourquoi je commence rarement par là)

Les pipelines RAG se construisent encore pour les clients qui en font la demande, mais en 2026 ce n'est presque jamais ma première recommandation. La pile d'outils agents de 2024, celle qui avait fait de la génération augmentée par la récupération la réponse par défaut à toute question de connaissance, a été largement rendue obsolète entre janvier et avril de cette année. Ce post est l'arbre de décision que je parcours avec chaque prospect, et la pile que je livre quand l'arbre écarte le RAG.

De nombreuses agences proposent encore le RAG par défaut, ce qui reflète une architecture 2024 plutôt que la pratique actuelle. Vous en avez probablement reçu une proposition : un poste de dépense pour une base de données vectorielle, une stratégie de découpage, un cron de réindexation, une feuille de route de six mois avant que le système réponde à sa première question. Si vous avez déjà une proposition sur votre bureau, transmettez-la avant de signer et je parcourrai l'arbre avec vous. Voici pourquoi la façon dont on vous a appris à construire des agents conscients de la connaissance a changé, et ce que je livre à la place.

Règles de décision

Le RAG se construit quand les clients insistent. En 2026, ce n'est presque jamais ma première recommandation. Le changement d'outillage est réel, et mon rôle est de le signaler avant la signature.
Sam Hogan a soutenu fin 2025 que des pans entiers de la pile LLM 2024 sont désormais obsolètes (18 avril 2026). RAG, orchestration multi-agents, frameworks ReAct, gestion des prompts, LLMOps, outils d'évaluation, passerelles, bibliothèques de fine-tuning. Les concepts restent valides. Les implémentations populaires n'ont pas suivi le bond des modèles.
Zep a rebaptisé sa catégorie : de la mémoire vers l'ingénierie du contexte. Quand une entreprise bien financée renomme sa propre catégorie, c'est un signal de marché significatif sur la direction que prend l'infrastructure agents.
Les graphes de compétences ont remplacé la recherche vectorielle comme substrat par défaut. Un dossier de fichiers markdown et cinq commandes shell couvrent plus de projets clients que n'importe quel pipeline RAG livré jusqu'ici.
Le RAG conserve sa place sur quatre catégories précises. Corpus multimodaux, millions de documents à mise à jour fréquente, filtres de métadonnées stricts au moment de la récupération, et contenu adversarial non fiable. Tout le reste relève du graphe de compétences.

L'arbre de décision avant toute construction

Chaque engagement client commence par les mêmes quatre questions, et neuf fois sur dix les réponses écartent le RAG. Cet arbre est issu d'une étude portant sur 450 dépôts d'outils de mémoire agent et de gestion de contexte sur GitHub, publiée le 15 avril 2026. Presque personne ne trace explicitement la frontière entre les deux. Cette frontière détermine la facture, d'où l'importance de la tracer.

Question	Si oui	Si non
Le corpus compte-il moins d'environ 1 000 documents ?	Graphes de compétences, dans la plupart des cas actuels.	Continuer.
Le contenu est-il principalement rédigé par quelques personnes soucieuses de son exactitude ?	Graphe de compétences. Fichier d'index plus markdown.	Le RAG devient candidat.
Les requêtes nécessitent-elles des filtres de métadonnées stricts au moment de la récupération (plages de dates, type de document, auteur) ?	Base de données vectorielle avec filtrage de métadonnées. Le RAG s'impose ici.	Continuer.
Le corpus atteindra-t-il des millions de documents avec des mises à jour à la minute ?	RAG avec une vraie couche de récupération. C'est précisément pour ça qu'il a été conçu.	Le graphe de compétences l'emporte sur tous les axes.

La plupart des corpus clients sont des wikis internes, des guides commerciaux, des supports d'intégration, de la documentation produit et des procédures. Petits, stables, maintenus par quelques personnes. Ce sont tous des projets pour graphe de compétences. L'argument du petit corpus chiffré et le guide complet de mise en place de la couche de connaissance couvrent la version praticienne.

Ce qui est devenu obsolète entre janvier et avril 2026

Sam Hogan a publié le diagnostic le plus précis de ce basculement le 18 avril 2026. Sa thèse : l'essentiel de la catégorie outillage LLM a été construit pour un monde qui n'existe plus vraiment, et une grande partie est devenue obsolète dans les trois mois précédents. Sa liste :

RAG et GraphRAG. L'approche de récupération conçue pour des fenêtres de contexte inférieures à 32 000 tokens.
Frameworks d'orchestration multi-agents. Les couches de coordination codées à la main, supplantées par une coordination au niveau du runtime.
Frameworks ReAct. Les échafaudages de raisonnement structuré que les modèles récents produisent désormais sans échafaudage.
Outils de gestion et de versionnement des prompts. Conçus pour un monde où les prompts étaient l'actif. Les compétences et les substrats de contexte sont l'actif désormais.
Piles LLMOps. Orientées aujourd'hui davantage vers le traçage des agents que vers la gestion des prompts en un seul tour.
Outils d'évaluation, passerelles, bibliothèques de fine-tuning. Chacun construit pour un comportement de modèle qui a changé.

Nuance importante formulée par Hogan lui-même : les concepts restent précieux. Ce qui est obsolète, ce sont les implémentations populaires actuelles. Certains outils, il a cité CrewAI explicitement, conservent leur pertinence. Sa thèse plus profonde est celle qui compte pour les clients : les modèles frontière récents avec de très longues fenêtres de contexte ont largement résolu le problème de rappel de faits que le RAG avait été conçu pour contourner.

Le signal de marché le plus fort est venu de Zep, une entreprise financée dans l'espace mémoire agent. Son positionnement entier a migré de la mémoire vers l'ingénierie du contexte. MemSearch, émanant de Zilliz, spécialiste des bases de données vectorielles, a livré un système où leur propre base vectorielle se trouve en aval de simples fichiers markdown. Qu'un fournisseur de base vectorielle concède que les fichiers détiennent la connaissance et que l'index n'est que la couche d'accès, c'est un signal qui met des années à apparaître dans un communiqué de presse et des semaines à lire dans une mise à jour produit.

Ce qui a remplacé le RAG pour la majorité du travail agent

L'étude des 450 dépôts a réparti la mémoire agent en deux camps. Le premier regroupe les backends mémoire : extraction de faits depuis des conversations, stockage en base vectorielle, récupération à la demande. Mem0 (53 100 étoiles GitHub), MemPalace (46 200), Honcho, Cognee. L'optimisation vise le rappel.

Le second camp regroupe les substrats de contexte : contexte structuré et lisible par l'humain, qui s'accumule d'une session à l'autre. Zep y a rejoint ce camp. OpenClaw (250 000 étoiles) en est l'implémentation de référence. Le vault qui produit ce post est un système de ce second camp.

La boucle commune du second camp : l'agent lit un contexte structuré, travaille dedans, réécrit en retour, et à la session suivante le contexte est plus riche. Pas de stratégie de découpage, pas de modèle d'embedding à maintenir, pas de batch de réindexation, pas de suite d'évaluation de la récupération. Un dossier de fichiers markdown liés entre eux par des wikiliens, un fichier d'index à la racine et quelques commandes de lecture et d'écriture. Voilà le substrat.

Shiv Sakhuja a publié le modèle de composition de ce substrat le 23 avril 2026, sous le nom de Skill Graphs 2.0. Trois niveaux : atomes (primitives à usage unique, quasi-déterministes), molécules (tâches délimitées composant 2 à 10 atomes avec un chaînage explicite), composés (orchestrateurs multi-molécules avec une véritable autonomie agent, pilotés par l'humain aujourd'hui). Le framework plafonne la profondeur du graphe de dépendances, ce qui le rend fiable là où les graphes de compétences plats dérivent silencieusement au-delà de trois ou quatre sauts. Pour les clients, cela se traduit en structure de coût : les atomes sont bon marché et déterministes, les molécules concentrent le travail d'ingénierie, les composés exigent un opérateur humain budgété.

Les cas limites où le RAG conserve sa place

webvise livre ce que le projet exige. Le RAG surpasse le graphe de compétences sur quatre catégories précises, et c'est ce que je recommande quand l'arbre de décision y aboutit :

Corpus multimodaux. PDF avec tableaux, documents numérisés, transcriptions audio, rapports riches en images. Un graphe markdown part du principe que tout se réduit au texte. Quand ce n'est pas le cas, la récupération couplée à l'embedding multimodal s'adapte mieux.
Mises à jour à haute fréquence et à grande échelle. Des millions de documents qui changent à la minute et doivent être interrogeables quelques secondes après publication. Le coût de réindexation d'une base vectorielle reste inférieur au coût humain de maintenance d'un fichier d'index à ce volume.
Filtrage strict de métadonnées au moment de la récupération. Quand les requêtes doivent filtrer par plages de dates, type de document ou auteur avant la recherche sémantique, les bases vectorielles conscientes des métadonnées comme Pinecone et Qdrant assurent la composition proprement.
Contenu non fiable ou adversarial. Quand le corpus provient de nombreux rédacteurs aux agendas conflictuels et qu'aucun humain ne peut être chargé de maintenir un index curé, la récupération ne doit pas supposer de supervision éditoriale.

Si votre projet entre dans l'une de ces quatre catégories, le RAG est l'outil adapté et il sera construit. Dans le cas contraire, le graphe de compétences est moins coûteux à livrer, moins coûteux à opérer et plus simple à maintenir. Prenez contact avant de commander l'un ou l'autre et le parcours de l'arbre de décision se fera sur votre corpus spécifique.

Ce que j'utilise en interne et ce que j'ai livré pour des clients

Le wiki interne compte 22 pages de connaissances structurées, maintenu par cinq commandes shell. Pas de base vectorielle, pas d'embeddings, pas de cron de réindexation. La configuration complète fait l'objet d'un post antérieur.

Ce même substrat produit le blog webvise que vous lisez : 76 posts traduits en 7 locales via un seul graphe de compétences de contenu, sans équipe éditoriale dédiée. Une compétence, sept sorties par post, livrées depuis le même dossier que la documentation technique.

Côté client, les travaux agents en production reposent sur la même architecture. Hermes, la plateforme agent auto-améliorante documentée le mois dernier, tourne sur des compétences larges et un runtime léger. Paperclip, le système d'orchestration IA à l'échelle de l'entreprise, compose des molécules sur une base de connaissances markdown. Ni l'un ni l'autre n'intègre de base vectorielle en production, et aucun n'en a eu besoin.

Garry Tan relate la même expérience depuis YC. Son CLAUDE.md personnel a démarré à 20 000 lignes, avec chaque particularité, chaque pattern, chaque leçon accumulée. L'attention du modèle s'est dégradée sous le poids, et Claude Code lui a lui-même suggéré de l'alléger.

Sa solution : 200 lignes de pointeurs vers des documents chargés à la demande. Les 20 000 lignes complètes existent toujours, mais le modèle ne les lit que quand elles sont pertinentes. gstack a atteint 23 000 étoiles GitHub lors de sa première semaine et a livré un volume important de code en production en environ 60 jours ; les compteurs d'étoiles et de lignes mesurent la visibilité et le débit, pas l'adéquation à la production. Le substrat passe à l'échelle parce que le substrat, ce sont des fichiers, pas de l'infrastructure.

Ce qu'il faut demander à un prestataire avant de signer un contrat RAG en 2026

Si vous avez déjà une proposition RAG sur votre bureau, posez ces cinq questions avant de signer :

Quelle est la taille du corpus aujourd'hui et dans 24 mois ? Moins de 1 000 documents dans les deux cas signifie que la base de données vectorielle est un poste de dépense inutile.
Qui rédige le contenu ? Quelques personnes en interne soucieuses de l'exactitude : un fichier d'index maintenu surpasse les embeddings en qualité de récupération. Des milliers de rédacteurs adversariaux ou anonymes : le RAG l'emporte.
Quelle est la fréquence de mise à jour ? Des changements hebdomadaires ne justifient pas un pipeline de réindexation. Des changements à la minute à grande échelle, si.
La requête nécessite-t-elle des filtres de métadonnées stricts au moment de la récupération ? Si oui, une base vectorielle consciente des métadonnées justifie son poste. Si non, la logique de filtrage est moins coûteuse dans la couche de compétences.
À quoi ressemble le devis du prestataire dans 18 mois ? Les coûts des bases vectorielles croissent avec le volume de documents. Ceux du graphe de compétences non. La différence compte au renouvellement.

Si les réponses pointent vers le RAG, construisez du RAG. Si elles pointent vers un graphe de compétences, la difficulté est de désapprendre le playbook 2024. webvise parcourt l'arbre de décision sur votre corpus réel, livre l'architecture que l'arbre indique, et réoriente les économies vers le travail qui nécessite réellement le budget. Prenez contact avant de vous engager auprès d'un prestataire.

Les pratiques de webvise sont alignées sur les normes ISO 27001 et ISO 42001.