Quando i Clienti Chiedono RAG nel 2026: Il Mio Albero Decisionale (e Perché Raramente Parto da Lì)

Realizzo ancora pipeline RAG per i clienti che le richiedono, ma nel 2026 raramente le raccomando come prima scelta. Lo stack di strumenti agente del 2024, quello che aveva reso la retrieval-augmented generation la risposta predefinita a ogni domanda sulla gestione della conoscenza, è diventato in larga parte obsoleto tra gennaio e aprile di quest'anno. Questo articolo presenta l'albero decisionale che percorro con ogni potenziale cliente e lo stack che realizzo quando l'albero indica una direzione diversa da RAG.

Molte agenzie propongono ancora RAG come soluzione predefinita, riflettendo un'architettura del 2024 invece delle pratiche attuali. Con ogni probabilità, Le è già stata presentata una proposta simile: una voce di costo per un database vettoriale, una strategia di chunking, un cron di re-indicizzazione, una roadmap di sei mesi prima che il sistema risponda alla prima domanda. Se ha già una proposta sulla scrivania, me la invii prima di firmare e percorreremo insieme l'albero. Ecco perché l'approccio tradizionale alla costruzione di agenti knowledge-aware è cambiato, e cosa si realizza al suo posto.

Le Regole Decisionali

Realizzo RAG quando i clienti lo richiedono esplicitamente. Nel 2026 raramente lo raccomando come prima scelta. Il cambiamento degli strumenti è reale, ed è compito segnalarlo prima della firma.
Sam Hogan ha sostenuto a fine 2025 che parti significative dello stack di strumenti LLM del 2024 sono ormai obsolete (18 aprile 2026). RAG, orchestrazione multi-agente, framework ReAct, gestione dei prompt, LLMOps, strumenti di valutazione, gateway, librerie di fine-tuning. I concetti restano validi. Le implementazioni più diffuse non hanno tenuto il passo con il salto qualitativo dei modelli.
Zep ha rinominato la propria categoria da memory a context engineering. Quando un'azienda ben finanziata rinomina la propria categoria, è un segnale di mercato significativo sulla direzione dell'infrastruttura agente.
I grafi di competenze hanno sostituito la ricerca vettoriale come substrato predefinito. Una cartella di file markdown con cinque comandi shell gestisce più casi cliente di qualsiasi pipeline RAG realizzata finora.
RAG si guadagna ancora il suo posto in quattro casi specifici. Corpora multimodali, milioni di documenti ad alta frequenza di aggiornamento, filtri di metadati obbligatori al momento del recupero e contenuti non attendibili da fonti avversariali. Tutto il resto è un grafo di competenze.

L'Albero Decisionale Prima di Costruire Qualsiasi Cosa

Ogni coinvolgimento con un cliente inizia con le stesse quattro domande, e nove volte su dieci le risposte indicano una direzione diversa da RAG. Quest'albero è stato costruito a partire da un'analisi di 450 repository di strumenti per la memoria agente e la gestione del contesto su GitHub, pubblicata il 15 aprile 2026. Quasi nessuno traccia esplicitamente il confine tra le due categorie. Il confine viene tracciato perché determina il costo.

Domanda	Se sì	Se no
Il corpus è inferiore a circa 1.000 documenti?	Grafi di competenze, nella maggior parte dei casi attuali.	Continuare.
Il contenuto è prevalentemente testo scritto da poche persone attente alla sua correttezza?	Grafo di competenze. File indice più markdown.	RAG diventa un candidato.
Le query richiedono filtri di metadati rigidi al momento del recupero (intervalli di date, tipo di documento, autore)?	Database vettoriale con filtro per metadati. RAG vince qui.	Continuare.
Il corpus crescerà fino a milioni di documenti con aggiornamenti ogni minuto?	RAG con un vero livello di recupero. È per questo che è stato progettato.	Il grafo di competenze vince su tutti i fronti.

La maggior parte dei corpora aziendali che si incontrano sono wiki interni, playbook di vendita, guide di onboarding, documentazione di prodotto e procedure operative standard. Piccoli, stabili, gestiti da poche persone. Ognuno di questi è un lavoro per un grafo di competenze. L'argomento dei corpus piccoli con dati reali e la guida completa alla configurazione del livello knowledge trattano la versione pratica.

Cosa È Effettivamente Diventato Obsoleto tra Gennaio e Aprile 2026

Sam Hogan ha pubblicato la diagnosi più acuta del cambiamento il 18 aprile 2026. La sua tesi: la maggior parte della categoria di strumenti LLM è stata costruita per un mondo che non esiste più in larga misura, e gran parte è diventata obsoleta nei tre mesi precedenti. L'elenco che ha citato:

RAG e GraphRAG. L'approccio di recupero costruito per finestre di contesto inferiori a 32K.
Framework di orchestrazione multi-agente. Livelli di coordinamento codificati manualmente, sostituiti dalla coordinazione a livello di runtime.
Framework ReAct. Strutture di ragionamento che i modelli più recenti producono senza scaffolding.
Strumenti di gestione e versioning dei prompt. Costruiti per un mondo in cui i prompt erano l'asset principale. Ora l'asset sono le competenze e i substrati di contesto.
Stack LLMOps. Oggi riguardano più il tracciamento degli agenti che la gestione dei prompt a turno singolo.
Strumenti di valutazione, gateway, librerie di fine-tuning. Ciascuno costruito per un comportamento dei modelli che è cambiato.

Un'importante qualificazione di Hogan: i concetti restano preziosi. Ciò che è diventato obsoleto sono le implementazioni popolari attuali. Alcuni strumenti, come CrewAI che ha citato esplicitamente, mantengono ancora una certa rilevanza. La sua affermazione più profonda è quella che conta per i clienti: i modelli frontier recenti con finestre di contesto molto ampie hanno risolto in larga misura il problema del richiamo fattuale che RAG era stato progettato per aggirare.

Il segnale di mercato più forte è arrivato da Zep, un'azienda finanziata nel settore della memoria agente. Ha modificato il proprio posizionamento da memory a context engineering. MemSearch, del vendor di database vettoriali Zilliz, ha rilasciato un sistema in cui il loro stesso database vettoriale si posiziona a valle di semplici file markdown. Un vendor di database vettoriali che concede che i file gestiscono la conoscenza e l'indice è solo il livello di accesso: è il tipo di segnale che richiede anni per leggersi in un comunicato stampa e settimane per leggersi in un aggiornamento di prodotto.

Cosa Ha Sostituito RAG per la Maggior Parte del Lavoro con gli Agenti

L'analisi di 450 repository ha suddiviso la memoria agente in due campi. Il primo è quello dei backend di memoria: estrarre fatti dalle conversazioni, archiviarli in database vettoriali, recuperarli su richiesta. Mem0 (53.100 stelle su GitHub), MemPalace (46.200), Honcho, Cognee. Ottimizzati per il richiamo.

Il secondo campo è quello dei substrati di contesto: contesto strutturato e leggibile dagli esseri umani che si accumula nel corso delle sessioni. Zep si posiziona ora qui. OpenClaw (250.000 stelle) è l'implementazione di riferimento. Il vault che produce questo articolo è un sistema del secondo campo.

Il ciclo comune per il secondo campo: l'agente legge il contesto strutturato, lavora al suo interno, scrive i risultati, e alla sessione successiva il contesto è più ricco. Nessuna strategia di chunking, nessun modello di embedding da mantenere, nessun batch job di re-indicizzazione, nessuna suite di valutazione del recupero. Una cartella di file markdown con wikilink tra loro, un file indice alla radice e una manciata di comandi di lettura e scrittura. Questo è il substrato.

Shiv Sakhuja ha pubblicato il modello di composizione per questo substrato il 23 aprile 2026, sotto il nome Skill Graphs 2.0. Tre livelli: atomi (primitive monouso, quasi deterministiche), molecole (task delimitati che compongono da 2 a 10 atomi con concatenamento esplicito), composti (orchestratori multi-molecola con vera autonomia agente, oggi a guida umana). Il framework limita la profondità del grafo delle dipendenze, il che lo rende affidabile laddove i grafi di competenze piatti derivano silenziosamente oltre tre o quattro livelli. Per i clienti, questo si traduce nella struttura dei costi: gli atomi sono economici e deterministici, le molecole sono dove vive il lavoro ingegneristico, i composti sono dove si pianifica un operatore umano.

I Casi Limite in Cui RAG Si Guadagna Ancora il Suo Posto

webvise realizza ciò che il lavoro richiede. RAG supera ancora un grafo di competenze in quattro classi specifiche di lavoro, e viene proposto quando l'albero decisionale porta lì:

Corpora multimodali. PDF con tabelle, documenti scansionati, trascrizioni audio, report ricchi di immagini. Un grafo markdown presuppone che tutto si riduca a testo. Quando non è così, il recupero con embedding multimodale è la scelta più pulita.
Aggiornamenti ad alta frequenza e su larga scala. Milioni di documenti che cambiano al minuto e devono essere interrogabili entro secondi dalla pubblicazione. Il costo di re-indicizzazione di un database vettoriale è inferiore al costo umano di mantenere un file indice oltre quel volume.
Filtri rigidi di metadati al momento del recupero. Quando le query devono filtrare per intervalli di date, tipo di documento o autore prima che la ricerca semantica venga eseguita, database vettoriali con supporto ai metadati come Pinecone e Qdrant gestiscono la composizione in modo pulito.
Contenuti non attendibili o avversariali. Quando il corpus proviene da molti autori con obiettivi contrastanti e nessun singolo essere umano è in grado di mantenere un indice curato, il recupero automatico è la scelta più sicura.

Se il progetto rientra in uno di questi quattro casi, RAG è lo strumento giusto e verrà realizzato. In caso contrario, il grafo di competenze è più economico da realizzare, più economico da eseguire e più facile da mantenere. Contattaci prima di commissionare entrambe le soluzioni: percorreremo insieme l'albero decisionale sul corpus specifico.

Cosa Viene Utilizzato Internamente e Cosa È Stato Realizzato per i Clienti

Il wiki interno è composto da 22 pagine di conoscenza strutturata, gestite con cinque comandi shell. Nessun database vettoriale, nessun embedding, nessun cron di re-indicizzazione. La configurazione completa è descritta in un articolo precedente.

Lo stesso substrato produce il blog di webvise che sta leggendo: 76 articoli tradotti in 7 lingue attraverso un singolo grafo di competenze per i contenuti, senza un team editoriale dedicato. Una competenza, sette output per articolo, realizzati dalla stessa cartella della documentazione tecnica.

Sul lato clienti, il lavoro di produzione con gli agenti si basa sulla stessa architettura. Hermes, la piattaforma agente auto-migliorante documentata il mese scorso, funziona su competenze robuste e un runtime snello. Paperclip, il sistema di orchestrazione AI aziendale, compone molecole su una base di conoscenza in markdown. Nessuno dei due ha un database vettoriale nello stack di produzione, e nessuno dei due ne ha avuto bisogno.

Garry Tan racconta la stessa storia da YC. Il suo CLAUDE.md personale era partito da 20.000 righe, con ogni quirk, ogni pattern, ogni lezione mai incontrata. L'attenzione del modello degradava sotto quel peso, e Claude Code stesso gli ha suggerito di ridurlo.

La soluzione è stata 200 righe di puntatori a documenti caricati su richiesta. Le 20.000 righe complete esistono ancora, ma il modello le legge solo quando pertinente. gstack ha raggiunto 23.000 stelle su GitHub nella prima settimana e ha rilasciato un volume elevato di codice di produzione in circa 60 giorni; i conteggi di stelle e righe misurano visibilità e produttività, non idoneità alla produzione. Il substrato scala perché il substrato è composto da file, non da infrastruttura.

Cosa Chiedere a un Vendor Prima di Firmare un Contratto RAG nel 2026

Se ha già una proposta RAG sulla scrivania, verifichi questi cinque punti prima della firma:

Quanto è grande il corpus oggi e tra 24 mesi? Meno di 1.000 documenti in entrambi i casi significa che il database vettoriale è una voce di costo non necessaria.
Chi produce il contenuto? Se sono poche persone interne attente all'accuratezza, un file indice curato supera gli embedding in termini di qualità del recupero. Se si tratta di migliaia di autori anonimi o non affidabili, RAG vince.
Qual è la frequenza di aggiornamento? Modifiche una volta alla settimana significano che non è necessaria una pipeline di re-indicizzazione. Modifiche ogni minuto su larga scala significano il contrario.
La query richiede filtri di metadati rigidi al momento del recupero? In caso affermativo, un database vettoriale con supporto ai metadati si guadagna il suo posto. In caso negativo, la logica di filtro è più economica da eseguire nel livello delle competenze.
Come appare il preventivo del vendor tra 18 mesi? I costi dei database vettoriali crescono con il volume dei documenti. I costi di un grafo di competenze no. La differenza è rilevante al rinnovo.

Se le risposte indicano RAG, si costruisce RAG. Se indicano un grafo di competenze, la parte difficile è disimparare il playbook del 2024. webvise percorre l'albero decisionale sul corpus reale del cliente, realizza l'architettura che l'albero indica e destina i risparmi al lavoro che ha davvero bisogno del budget. Contattaci prima di impegnarsi con una proposta di vendor.

Le pratiche di webvise sono allineate agli standard ISO 27001 e ISO 42001.