Cuando los Clientes Piden RAG en 2026: Mi Árbol de Decisión (y Por Qué Raramente Empiezo por Ahí)

Sigo construyendo pipelines de RAG para los clientes que lo solicitan, pero en 2026 rara vez lo recomiendo primero. El stack de herramientas para agentes de 2024, el que convirtió la generación aumentada por recuperación en la respuesta predeterminada a cualquier pregunta de conocimiento, quedó en gran medida obsoleto entre enero y abril de este año. Este artículo es el árbol de decisión que recorro con cada prospecto y el stack que entrego cuando el árbol apunta en otra dirección.

Muchas agencias siguen ofreciendo RAG por defecto, lo que refleja una arquitectura de 2024 más que la práctica actual. Es probable que ya le hayan presentado una propuesta: una línea de base de datos vectorial, una estrategia de fragmentación, un cron de reindexación, un roadmap de seis meses antes de que el sistema responda su primera pregunta. Si ya tiene una propuesta sobre su escritorio, envíela antes de firmarla y recorreremos el árbol juntos. A continuación se explica por qué cambió la forma en que se construyen agentes con conciencia de contexto, y qué se entrega en su lugar.

Reglas de decisión

Construyo RAG cuando los clientes lo exigen. En 2026 rara vez lo recomiendo primero. El cambio en las herramientas es real, y el trabajo es señalarlo antes de que usted firme.
Sam Hogan argumentó a finales de 2025 que partes significativas del stack de herramientas de LLM de 2024 son ahora obsoletas (18 de abril de 2026). RAG, orquestación multiagente, frameworks ReAct, gestión de prompts, LLMOps, herramientas de evaluación, gateways, bibliotecas de fine-tuning. Los conceptos siguen siendo válidos. Las implementaciones populares se quedaron rezagadas respecto al avance de los modelos.
Zep pasó de denominarse solución de memoria a ingeniería de contexto. Cuando una empresa bien financiada renombra su propia categoría, es una señal de mercado significativa sobre el rumbo de la infraestructura para agentes.
Los grafos de habilidades reemplazaron a la búsqueda vectorial como sustrato predeterminado. Una carpeta de archivos markdown más cinco comandos de shell resuelve más trabajos de clientes que cualquier pipeline de RAG entregado hasta la fecha.
RAG sigue justificándose en cuatro casos específicos. Corpus multimodales, millones de documentos con alta frecuencia de actualización, filtros de metadatos estrictos en tiempo de recuperación y contenido adversarial no confiable. Todo lo demás es un grafo de habilidades.

El Árbol de Decisión Antes de Construir Cualquier Cosa

Todo compromiso con un cliente comienza con las mismas cuatro preguntas, y nueve de cada diez veces las respuestas apuntan en dirección contraria a RAG. Este árbol se construyó a partir de una encuesta de 450 repositorios de herramientas de memoria de agentes y gestión de contexto en GitHub, publicada el 15 de abril de 2026. Casi nadie traza la línea entre los dos de forma explícita. Esa línea determina el presupuesto.

Pregunta	Si la respuesta es sí	Si la respuesta es no
¿El corpus tiene menos de aproximadamente 1 000 documentos?	Grafos de habilidades, en la mayoría de los casos actuales.	Continuar.
¿El contenido es principalmente texto escrito por pocas personas que se preocupan por mantenerlo correcto?	Grafo de habilidades. Archivo de índice más markdown.	RAG se convierte en candidato.
¿Las consultas requieren filtros de metadatos estrictos en tiempo de recuperación (rangos de fechas, tipo de documento, autor)?	Base de datos vectorial con filtrado de metadatos. RAG gana aquí.	Continuar.
¿El corpus crecerá hasta millones de documentos con actualizaciones cada minuto?	RAG con una capa de recuperación real. Para eso fue creado.	El grafo de habilidades gana en todos los criterios.

La mayoría de los corpus de clientes que se ven son wikis internas, playbooks de ventas, guías de incorporación, documentación de producto y SOPs. Pequeños, estables, mantenidos por pocas personas. Todos esos son trabajos para un grafo de habilidades. El argumento del corpus pequeño con cifras reales y la guía completa de configuración de la capa de conocimiento cubren la versión para profesionales.

Qué Quedó Realmente Obsoleto Entre Enero y Abril de 2026

Sam Hogan publicó el diagnóstico más certero del cambio el 18 de abril de 2026. Su tesis: la mayor parte de la categoría de herramientas de LLM se construyó para un mundo que en gran medida ya no existe, y buena parte quedó obsoleta en los tres meses anteriores. La lista que enumeró:

RAG y GraphRAG. El enfoque de recuperación construido para ventanas de contexto inferiores a 32K tokens.
Frameworks de orquestación multiagente. Capas de coordinación codificadas manualmente, desplazadas por coordinación a nivel de runtime.
Frameworks ReAct. Andamiajes de razonamiento estructurado que los modelos más recientes producen sin necesidad de andamiaje.
Herramientas de gestión y versionado de prompts. Construidas para un mundo donde los prompts eran el activo. Hoy el activo son las habilidades y los sustratos de contexto.
Stacks de LLMOps. Ahora más orientados al rastreo de agentes que a la gestión de prompts de un solo turno.
Herramientas de evaluación, gateways y bibliotecas de fine-tuning. Cada una construida para un comportamiento de modelo que ha cambiado.

Calificación importante del propio Hogan: los conceptos siguen siendo valiosos. Lo que quedó obsoleto son las implementaciones populares actuales. Algunas herramientas, mencionó CrewAI explícitamente, conservan relevancia. Su afirmación más profunda es la que importa para los clientes: los modelos frontera recientes con ventanas de contexto muy largas resolvieron en gran medida el problema de recuperación de hechos para el que RAG fue diseñado.

La señal de mercado más elocuente provino de Zep, una empresa financiada en el espacio de memoria para agentes. Cambió todo su posicionamiento de memoria a ingeniería de contexto. MemSearch, de la empresa de bases de datos vectoriales Zilliz, lanzó un sistema donde su propia base de datos vectorial queda aguas abajo de archivos markdown planos. Que un proveedor de bases de datos vectoriales ceda al archivo la propiedad del conocimiento, relegando el índice a capa de acceso, es el tipo de señal que tarda años en aparecer en un comunicado de prensa y semanas en leerse en una actualización de producto.

Qué Reemplazó a RAG en la Mayor Parte del Trabajo con Agentes

La encuesta de 450 repositorios clasificó la memoria de agentes en dos grupos. El primero son los backends de memoria: extraen hechos de conversaciones, los almacenan en bases de datos vectoriales y los recuperan bajo demanda. Mem0 (53 100 estrellas en GitHub), MemPalace (46 200), Honcho, Cognee. Optimizados para la recuperación.

El segundo grupo son los sustratos de contexto: contexto estructurado y legible por humanos que se acumula entre sesiones. Zep se ubica aquí ahora. OpenClaw (250 000 estrellas) es la implementación de referencia. El vault que produce este artículo es un sistema del segundo grupo.

El bucle habitual del segundo grupo: el agente lee contexto estructurado, trabaja dentro de él, escribe de vuelta; en la siguiente sesión el contexto es más rico. Sin estrategia de fragmentación, sin modelo de embeddings que mantener, sin proceso por lotes de reindexación, sin suite de evaluación de recuperación. Una carpeta de archivos markdown con wikilinks entre ellos, un archivo de índice en la raíz y un puñado de comandos de lectura y escritura. Ese es el sustrato.

Shiv Sakhuja publicó el modelo de composición para este sustrato el 23 de abril de 2026, como Skill Graphs 2.0. Tres niveles: átomos (primitivas de propósito único, casi deterministas), moléculas (tareas acotadas que componen entre 2 y 10 átomos con encadenamiento explícito), compuestos (orquestadores multimolécula con autonomía real del agente, conducidos por humanos hoy). El framework limita la profundidad del grafo de dependencias, lo que lo hace confiable donde los grafos de habilidades planos derivan silenciosamente pasados tres o cuatro saltos. Para los clientes, esto se traduce en la estructura de costos: los átomos son económicos y deterministas, las moléculas son donde vive el trabajo de ingeniería, los compuestos son donde se presupuesta un operador humano.

Los Casos Límite Donde RAG Sigue Justificándose

webvise entrega lo que el trabajo necesita. RAG sigue superando a un grafo de habilidades en cuatro clases específicas de trabajo, y se propone cuando el árbol de decisión llega a esos casos:

Corpus multimodales. PDFs con tablas, documentos escaneados, transcripciones de audio, informes con muchas imágenes. Un grafo de markdown asume que todo se reduce a texto. Cuando no es así, la recuperación con embeddings multimodales es la opción más limpia.
Actualizaciones de alta frecuencia a escala. Millones de documentos que cambian por minuto y deben ser consultables a segundos de su publicación. El costo de reindexación de una base de datos vectorial es menor que el costo humano de mantener un archivo de índice a ese volumen.
Filtrado estricto de metadatos en tiempo de recuperación. Cuando las consultas deben filtrar por rangos de fechas, tipo de documento o autor antes de ejecutar la búsqueda semántica, bases de datos vectoriales con metadatos como Pinecone y Qdrant realizan la composición de forma limpia.
Contenido no confiable o adversarial. Cuando el corpus proviene de muchos autores con agendas en conflicto y ningún humano puede mantener un índice curado, se necesita una recuperación que no asuma supervisión editorial.

Si su proyecto cae en uno de esos cuatro casos, RAG es la herramienta correcta y se construirá. Si no es así, el grafo de habilidades es más barato de entregar, más barato de operar y más fácil de mantener. Póngase en contacto antes de contratar cualquiera de los dos y recorreremos el árbol de decisión sobre su corpus específico.

Lo Que Se Usa Internamente y Lo Que Se Ha Entregado a Clientes

El wiki interno tiene 22 páginas de conocimiento estructurado, mantenidas con cinco comandos de shell. Sin base de datos vectorial, sin embeddings, sin cron de reindexación. La configuración completa está en un artículo anterior.

Este mismo sustrato produce el blog de webvise que está leyendo: 76 publicaciones traducidas a 7 idiomas a través de un único grafo de habilidades de contenido, sin un equipo de contenido dedicado. Una habilidad, siete salidas por artículo, entregadas desde la misma carpeta que la documentación de ingeniería.

En el lado del cliente, el trabajo de producción con agentes se asienta sobre la misma arquitectura. Hermes, la plataforma de agentes automejorable documentada el mes pasado, funciona sobre habilidades robustas y un runtime liviano. Paperclip, el sistema de orquestación de IA para toda la empresa, compone moléculas sobre una base de conocimiento en markdown. Ninguno tiene una base de datos vectorial en el stack de producción, y ninguno la ha necesitado.

Garry Tan cuenta la misma historia desde YC. Su CLAUDE.md personal comenzó con 20 000 líneas, con cada particularidad, cada patrón, cada lección que había encontrado. La atención del modelo se degradó bajo ese peso, y el propio Claude Code le indicó que lo redujera.

Su solución fueron 200 líneas de punteros a documentos que se cargan bajo demanda. Las 20 000 líneas completas siguen existiendo, pero el modelo las lee solo cuando son relevantes. gstack alcanzó 23 000 estrellas en GitHub en su primera semana y entregó un gran volumen de código en producción en aproximadamente 60 días; los conteos de estrellas y de líneas miden visibilidad y rendimiento, no idoneidad para producción. El sustrato escala porque el sustrato son archivos, no infraestructura.

Qué Preguntar a un Proveedor Antes de Firmar un Contrato de RAG en 2026

Si ya tiene una propuesta de RAG sobre su escritorio, aplique estas cinco preguntas antes de firmar:

¿Qué tamaño tiene el corpus hoy y en 24 meses? Si en ambos casos es menor de 1 000 documentos, la base de datos vectorial es una línea de presupuesto que no necesita.
¿Quién escribe el contenido? Si son pocas personas internas preocupadas por la precisión, un archivo de índice mantenido supera a los embeddings en calidad de recuperación. Si son miles de autores adversariales o anónimos, RAG gana.
¿Cuál es la frecuencia de actualización? Cambios una vez por semana no requieren un pipeline de reindexación. Cambios cada minuto a escala, sí.
¿La consulta requiere filtros de metadatos estrictos en tiempo de recuperación? Si es así, una base de datos vectorial con metadatos justifica su lugar. Si no, la lógica de filtrado es más económica en la capa de habilidades.
¿Cómo se ve la cotización del proveedor en 18 meses? Los costos de las bases de datos vectoriales se acumulan con el crecimiento de documentos. Los costos del grafo de habilidades no. La diferencia importa en la renovación.

Si las respuestas apuntan hacia RAG, se construye RAG. Si apuntan hacia un grafo de habilidades, lo difícil es desaprender el manual de 2024. webvise recorre el árbol de decisión con usted sobre su corpus real, entrega la arquitectura a la que apunta el árbol y destina el ahorro al trabajo que realmente necesita el presupuesto. Póngase en contacto antes de comprometerse con una propuesta de proveedor.

Las prácticas de webvise están alineadas con las normas ISO 27001 e ISO 42001.