Kiedy klienci pytają o RAG w 2026: drzewo decyzyjne (i dlaczego rzadko zaczynam od RAG)

Pipeline'y RAG nadal powstają dla klientów, którzy o nie proszą, ale w 2026 roku rzadko rekomenduje się je w pierwszej kolejności. Stos narzędzi agentowych z 2024 roku, który sprawił, że retrieval-augmented generation stał się domyślną odpowiedzią na każde pytanie o wiedzę, został w dużej mierze zastąpiony między styczniem a kwietniem tego roku. Ten wpis to drzewo decyzyjne, przez które prowadzony jest każdy potencjalny klient, oraz stos, który dostarczany jest wtedy, gdy drzewo wskazuje na inne rozwiązanie niż RAG.

Wiele agencji wciąż domyślnie sprzedaje RAG, co odzwierciedla architekturę z 2024 roku, a nie obecną praktykę. Prawdopodobnie była już Państwu przedstawiana taka propozycja: pozycja z bazą wektorową, strategia dzielenia tekstu na fragmenty, zadanie cron do reindeksowania, sześciomiesięczny plan działania, zanim system odpowie na pierwsze pytanie. Jeśli na biurku leży już propozycja, warto ją przesłać przed podpisaniem, a drzewo decyzyjne zostanie przeanalizowane razem. Oto dlaczego zmienił się sposób budowania agentów ze świadomością wiedzy i co dostarcza się w zamian.

Reguły decyzyjne

Pipeline'y RAG powstają na życzenie klientów. W 2026 roku rzadko rekomenduje się je w pierwszej kolejności. Przesunięcie technologiczne jest realne, a obowiązkiem jest wskazanie go przed podpisaniem umowy.
Sam Hogan przekonywał pod koniec 2025 roku, że znaczące części stosu narzędzi LLM z 2024 są już przestarzałe (18 kwietnia 2026). RAG, orkiestracja wielu agentów, frameworki ReAct, zarządzanie promptami, LLMOps, narzędzia ewaluacyjne, bramy, biblioteki do fine-tuningu. Koncepcje pozostają aktualne. Popularne implementacje nie nadążyły za skokiem możliwości modeli.
Zep przemianowało swoją kategorię z pamięci na inżynierię kontekstu. Gdy dobrze finansowana firma zmienia nazwę własnej kategorii, to znaczący sygnał rynkowy o kierunku, w którym zmierza infrastruktura agentowa.
Grafy umiejętności zastąpiły wyszukiwanie wektorowe jako domyślny substrat. Folder plików markdown i pięć poleceń powłoki radzi sobie z większą liczbą zleceń klientów niż jakikolwiek dostarczony dotąd pipeline RAG.
RAG nadal zasługuje na swoje miejsce w czterech konkretnych zastosowaniach. Korpusy multimodalne, miliony dokumentów o wysokiej częstotliwości aktualizacji, rygorystyczne filtry metadanych w czasie pobierania oraz niezaufane, wrogie treści. Wszystko inne to zadanie dla grafu umiejętności.

Drzewo decyzyjne uruchamiane przed rozpoczęciem jakiejkolwiek budowy

Każde zaangażowanie z klientem zaczyna się od tych samych czterech pytań, a dziewięć razy na dziesięć odpowiedzi wskazują na inne rozwiązanie niż RAG. Drzewo zostało zbudowane na podstawie badania 450 repozytoriów narzędzi do zarządzania pamięcią agentów i kontekstem na GitHub, opublikowanego 15 kwietnia 2026 roku. Prawie nikt nie wytycza wyraźnej granicy między tymi dwoma kategoriami. Granica ta jest istotna, bo determinuje koszty.

Pytanie	Jeśli tak	Jeśli nie
Czy korpus liczy mniej niż około 1 000 dokumentów?	Grafy umiejętności, w większości aktualnych przypadków.	Kontynuuj.
Czy treść to głównie tekst pisany przez kilka osób dbających o jego poprawność?	Graf umiejętności. Plik indeksu i markdown.	RAG staje się kandydatem.
Czy zapytania wymagają rygorystycznych filtrów metadanych w czasie pobierania (zakresy dat, typ dokumentu, autor)?	Baza wektorowa z filtrowaniem metadanych. Tu RAG wygrywa.	Kontynuuj.
Czy korpus urośnie do milionów dokumentów z aktualizacjami co minutę?	RAG z prawdziwą warstwą pobierania. Do tego właśnie został stworzony.	Graf umiejętności wygrywa pod każdym względem.

Większość korpusów klientów to wewnętrzne wiki, podręczniki sprzedaży, materiały onboardingowe, dokumentacja produktu i procedury SOP. Małe, stabilne, utrzymywane przez kilka osób. Każde z tych zastosowań to zadanie dla grafu umiejętności. Argument dla małych korpusów z prawdziwymi liczbami oraz pełny przewodnik konfiguracji warstwy wiedzy zawierają wersję dla praktyków.

Co naprawdę stało się przestarzałe między styczniem a kwietniem 2026

Sam Hogan opublikował 18 kwietnia 2026 roku najbardziej celną diagnozę tej zmiany. Jego teza: większość kategorii narzędzi LLM powstała dla świata, który w dużej mierze już nie istnieje, a znaczna część stała się przestarzała w ciągu poprzednich trzech miesięcy. Lista, którą wskazał:

RAG i GraphRAG. Podejście oparte na pobieraniu, zbudowane dla okien kontekstowych poniżej 32K tokenów.
Wieloagentowe frameworki orkiestracji. Wczesne, ręcznie kodowane warstwy koordynacji wyparte przez koordynację na poziomie środowiska wykonawczego.
Frameworki ReAct. Rusztowania rozumowania strukturalnego, które nowsze modele produkują bez żadnych rusztowań.
Narzędzia do zarządzania promptami i ich wersjonowania. Zbudowane dla świata, w którym promptem był zasób. Teraz aktywem są umiejętności i substraty kontekstowe.
Stosy LLMOps. Dziś bardziej o śledzeniu agentów niż o zarządzaniu promptami jednorazowymi.
Narzędzia ewaluacyjne, bramy, biblioteki do fine-tuningu. Każde zbudowane pod zachowanie modeli, które uległo zmianie.

Ważne zastrzeżenie samego Hogana: koncepcje nadal mają wartość. Przestarzałe stały się obecne popularne implementacje. Niektóre narzędzia, jak CrewAI, którą Hogan wskazał wprost, zachowują trwałość. Jego głębsza teza jest kluczowa dla klientów: najnowsze modele graniczne z bardzo długimi oknami kontekstowymi rozwiązały w praktyce problem odwoływania się do faktów, który RAG był zaprojektowany obejść.

Najsilniejszy sygnał rynkowy wysłał Zep, finansowana firma z przestrzeni pamięci agentowej. Całkowicie zmieniła pozycjonowanie z pamięci na inżynierię kontekstu. MemSearch, od Zilliz, firmy zajmującej się bazami wektorowymi, dostarczył system, w którym własna baza wektorowa firmy stoi niżej niż zwykłe pliki markdown. Dostawca baz wektorowych przyznający, że pliki są właścicielem wiedzy, a indeks to jedynie warstwa dostępu, to sygnał, którego odczytanie z komunikatu prasowego zajmuje lata, a z aktualizacji produktu tygodnie.

Co zastąpiło RAG w większości prac agentowych

Badanie 450 repozytoriów podzieliło pamięć agentową na dwa obozy. Obóz pierwszy to backendy pamięci: ekstrakcja faktów z rozmów, przechowywanie w bazach wektorowych, pobieranie na żądanie. Mem0 (53 100 gwiazdek GitHub), MemPalace (46 200), Honcho, Cognee. Optymalizacja pod kątem odwoływania się do informacji.

Obóz drugi to substraty kontekstowe: ustrukturyzowany, czytelny dla człowieka kontekst, który gromadzi się między sesjami. Zep należy już do tego obozu. OpenClaw (250 000 gwiazdek) to referencyjna implementacja. Repozytorium, które produkuje ten wpis, to system obozu drugiego.

Typowa pętla dla obozu drugiego: agent odczytuje ustrukturyzowany kontekst, pracuje w nim, zapisuje wyniki, a w następnej sesji kontekst jest bogatszy. Bez strategii dzielenia na fragmenty, bez modelu embeddingów do utrzymania, bez zadania wsadowego do reindeksowania, bez zestawu do ewaluacji pobierania. Folder plików markdown z wikilinkami między nimi, plik indeksu w katalogu głównym i kilka poleceń do odczytu i zapisu. To jest substrat.

Shiv Sakhuja opublikował 23 kwietnia 2026 roku model kompozycji dla tego substratu jako Skill Graphs 2.0. Trzy poziomy: atomy (prymitywy jednego przeznaczenia, bliskie deterministycznym), molekuły (zadania z określonym zakresem, komponujące od 2 do 10 atomów z jawnym łańcuchowaniem), złożone (orkiestratory wielo-molekularne z prawdziwą autonomią agentów, dziś wymagające nadzoru człowieka). Framework ogranicza głębokość grafu zależności, co sprawia, że jest niezawodny tam, gdzie płaskie grafy umiejętności po cichu dryfują poza trzy lub cztery przeskoki. Dla klientów przekłada się to na strukturę kosztów: atomy są tanie i deterministyczne, molekuły to miejsce, gdzie koncentruje się praca inżynierska, a złożone to miejsce, gdzie budżetuje się operatora z udziałem człowieka.

Przypadki brzegowe, w których RAG nadal zasługuje na swoje miejsce

webvise dostarcza to, czego wymaga zadanie. RAG nadal bije graf umiejętności w czterech konkretnych klasach prac i będzie rekomendowany, gdy drzewo decyzyjne tam wskaże:

Korpusy multimodalne. Pliki PDF z tabelami, zeskanowane dokumenty, transkrypcje audio, raporty z dużą ilością obrazów. Graf markdown zakłada, że wszystko da się sprowadzić do tekstu. Gdy tak nie jest, pobieranie z wielomodalnym embeddingiem jest lepszym dopasowaniem.
Wysokoczęstotliwościowe aktualizacje na dużą skalę. Miliony dokumentów zmieniających się co minutę, które muszą być dostępne do zapytań w kilka sekund od publikacji. Koszt reindeksowania bazy wektorowej jest niższy niż koszt ludzki utrzymywania pliku indeksu przy takim wolumenie.
Rygorystyczne filtrowanie metadanych w czasie pobierania. Gdy zapytania muszą filtrować według zakresów dat, typu dokumentu lub autora przed uruchomieniem wyszukiwania semantycznego, bazy wektorowe uwzględniające metadane, takie jak Pinecone i Qdrant, wykonują tę kompozycję w sposób przejrzysty.
Niezaufane lub wrogie treści. Gdy korpus pochodzi od wielu autorów o sprzecznych celach i żaden człowiek nie może być obarczony odpowiedzialnością za utrzymanie wyselekcjonowanego indeksu, pobieranie, które nie zakłada nadzoru redakcyjnego, jest właściwym wyborem.

Jeśli projekt należy do jednego z tych czterech przypadków, RAG jest właściwym narzędziem i zostanie zbudowany. Jeśli nie, graf umiejętności jest tańszy w dostarczeniu, tańszy w utrzymaniu i łatwiejszy w eksploatacji. Warto skontaktować się przed zleceniem któregokolwiek z rozwiązań, a drzewo decyzyjne zostanie przeanalizowane dla konkretnego korpusu.

Co jest używane wewnętrznie i co zostało dostarczone klientom

Wewnętrzne wiki to 22 strony ustrukturyzowanej wiedzy, utrzymywane za pomocą pięciu poleceń powłoki. Bez bazy wektorowej, bez embeddingów, bez zadania cron do reindeksowania. Pełna konfiguracja opisana jest we wcześniejszym wpisie.

Ten sam substrat produkuje bloga webvise, który Państwo czytają: 76 artykułów przetłumaczonych na 7 języków przez jeden graf umiejętności do zarządzania treścią, bez dedykowanego zespołu redakcyjnego. Jedna umiejętność, siedem wyjść na wpis, dostarczanych z tego samego folderu co dokumentacja techniczna.

Po stronie klientów produkcyjna praca agentowa opiera się na tej samej architekturze. Hermes, platforma agentowa z samoudoskonalaniem opisana w poprzednim miesiącu, działa na grubych umiejętnościach i cienkim środowisku wykonawczym. Paperclip, system orkiestracji AI dla całej firmy, komponuje molekuły nad bazą wiedzy w markdown. Żadne z tych rozwiązań nie ma bazy wektorowej w stosie produkcyjnym i żadne jej nie potrzebowało.

Garry Tan opowiada tę samą historię z YC. Jego osobisty CLAUDE.md zaczął od 20 000 linii, z każdą osobliwością, każdym wzorcem, każdą lekcją, którą kiedykolwiek napotkał. Uwaga modelu degradowała się pod tym ciężarem, a sam Claude Code powiedział mu, żeby to skrócił.

Jego rozwiązaniem stało się 200 linii wskaźników do dokumentów ładowanych na żądanie. Pełne 20 000 linii nadal istnieje, ale model czyta je tylko wtedy, gdy są istotne. gstack osiągnął 23 000 gwiazdek GitHub w pierwszym tygodniu i dostarczył wysoki wolumen kodu produkcyjnego w około 60 dni. Liczby gwiazdek i linii mierzą widoczność i przepustowość, nie przydatność produkcyjną. Substrat skaluje się, ponieważ substratem są pliki, a nie infrastruktura.

Co zapytać dostawcę przed podpisaniem umowy RAG w 2026 roku

Jeśli na biurku leży już propozycja RAG, warto zadać te pięć pytań przed złożeniem podpisu:

Jak duży jest korpus dziś i za 24 miesiące? Poniżej 1 000 dokumentów w obu przypadkach oznacza, że baza wektorowa to pozycja, której nie potrzeba.
Kto tworzy treść? Jeśli to kilka wewnętrznych osób dbających o dokładność, utrzymywany plik indeksu przewyższa embeddingi pod względem jakości pobierania. Jeśli to tysiące anonimowych lub wrogich autorów, RAG wygrywa.
Jaka jest częstotliwość aktualizacji? Zmiany raz w tygodniu oznaczają, że pipeline do reindeksowania nie jest potrzebny. Zmiany co minutę na dużą skalę oznaczają, że jest.
Czy zapytanie wymaga rygorystycznych filtrów metadanych w czasie pobierania? Jeśli tak, baza wektorowa uwzględniająca metadane zasługuje na swoje miejsce. Jeśli nie, logika filtrowania jest tańsza do uruchomienia w warstwie umiejętności.
Jak wygląda oferta dostawcy za 18 miesięcy? Koszty bazy wektorowej rosną wraz ze wzrostem liczby dokumentów. Koszty grafu umiejętności nie rosną. Różnica ma znaczenie przy odnowieniu.

Jeśli odpowiedzi wskazują na RAG, buduje się RAG. Jeśli wskazują na graf umiejętności, najtrudniejszą częścią jest oduczenie się zasad z 2024 roku. webvise przeprowadzi przez drzewo decyzyjne na podstawie rzeczywistego korpusu, dostarczy architekturę, na którą wskazuje drzewo, i przeznaczy oszczędności na pracę, która naprawdę wymaga budżetu. Warto skontaktować się przed podjęciem zobowiązań wobec propozycji dostawcy.

Praktyki webvise są zgodne z normami ISO 27001 i ISO 42001.