Kognitivní RAG pro regulovanou práci

Výzkumné poznámky k vyhledávacím systémům, které zachovávají odkazy, původ a kontext uvažování pro účely odborného posouzení.

Kognitivní RAG pro regulovanou práci

Kognitivní RAG: Poznámky k architektuře vyhledávání Mendel

Osoba vykonávající samostatnou výdělečnou činnost, která se ptá systému Mendel, kolik letos dluží finančnímu úřadu, neklade pouze jednu otázku. Vyjadřuje tím nedostatek znalostí, který se týká zákona o dani z příjmů, zákona o zdravotním pojištění, příslušných pokynů České národní banky ohledně klasifikace příjmů ze samostatné výdělečné činnosti a – v závislosti na povaze jejího pracovního poměru – případně i judikatury týkající se toho, co představuje závislou práci podle § 2358 občanského zákoníku. Vektorové vyhledávání podobnosti na základě tohoto dotazu v přirozeném jazyce něco najde. Najde tematicky blízké úryvky. Co však nevytvoří, je relační kontext napříč čtyřmi vzájemně propojenými právními oblastmi, protože standardní RAG nezná pojem relačního kontextu. To je klíčový problém vyhledávání, na jehož řešení se zaměřujeme.

Standardní RAG procesy zacházejí s uživatelským dotazem jako se statickým signálem absolutní pravdy. Zabudují jej, najdou nejbližší sousedy v plochém vektorovém indexu a vyhledané úseky předají jazykovému modelu k generaci. Tato architektura funguje dobře, pokud se dotazy jasně vztahují k jedinému zdroji. Její výkonnost však klesá za podmínek, které charakterizují české právní a finanční dotazy: zhuštěný, nejednoznačný přirozený jazyk, který kóduje informační potřebu s více kroky, kterou uživatel nedokáže plně formulovat, protože mu chybí slovní zásoba z oboru, kterému se snaží porozumět.

Literatura v oblasti informační vědy má pro tento stav pojmenování. Ingwersenova kognitivní teorie informačního vyhledávání jej popisuje jako anomální stav poznání: uživatel si uvědomuje mezeru ve svém porozumění, ale nedokáže formulovat dobře strukturovaný dotaz, který by ji vyřešil. Dotaz, který zadá, je podle Ingwersenova pojetí silně zkomprimovaným označením, které zakrývá skutečnou hloubku informační potřeby. Standardní RAG bere toto označení doslovně a vyhledává na základě jeho povrchové podoby.

Myšlení, rychlé a pomalé

Teorie duálního procesu Daniela Kahnemana z knihy „Myšlení, rychlé a pomalé“ se na tento problém vztahuje mnohem přímočařeji, než většina diskusí o architektuře AI připouští. Tento rámec rozlišuje mezi kognicí systému 1 (rychlá, asociativní, řízená vzory) a systému 2 (uvážlivá, sekvenční, náročná na zdroje). LLM založené na transformátorech jsou svou architekturou motory Systému 1. Generují statisticky pravděpodobná pokračování na základě naučených asociací. Jsou rychlé, plynulé a strukturálně náchylné k tomu, co Kahneman nazývá substituční heuristikou: když model nedokáže s jistotou odpovědět na cílovou otázku, nahradí ji související, ale jednodušší heuristickou otázkou a odpoví na ni místo toho. Výstup zní věrohodně. Otázka, která byla skutečně položena, však zůstává bez odpovědi.

Standardní RAG doplňuje Systém 1 o vyhledaný kontext. Pokud je vyhledávání neřízeno a řídí se povrchovou sémantickou podobností vůči nediferencovanému indexu, přidali jste modelu více textu, o kterém může plynule hovořit, aniž byste přidali jakoukoli uvážlivou strukturu. Model stále pracuje v režimu Systému 1.

Kognitivní RAG je architektonický pokus o vynucení chování Systému 2 v procesu ještě předtím, než model vygeneruje token. Model procesu vyhledávání informací podle Kuhlthauové poskytuje strukturální mapu: uživatelé procházejí fázemi iniciace a nejistoty, přecházejí k prozkoumávání a charakteristickému poklesu jistoty, kde nekonzistentní informace vyvolávají zmatek, a směřují k formulaci, kde se objevuje koherentní hypotéza. Architektura musí tyto fáze odrážet. Pokud se uživatel nachází ve fázi prozkoumávání, měl by systém dotaz rozšířit a provádět asociativní vyhledávání. Pokud uživatel dosáhl fáze formulace, měl by systém výsledky přeřadit a zaměřit se. Standardní RAG uplatňuje jedinou strategii vyhledávání bez ohledu na to, kde se uživatel v tomto procesu skutečně nachází.

Nedávný článek AAAI s názvem „Human Cognition Inspired RAG with Knowledge Graph for Complex Problem Solving“ (arXiv:2503.06567) toto formalizuje do konkrétní architektury: vyhledávání v duálním hypergrafu, dekompozice dotazu pomocí myšlenkové mapy a adversariální sebeověření. Kognitivní RAG pipeline, kterou budujeme pro Mendel, čerpá z tohoto výzkumu a přizpůsobuje jej specifickým omezením českých veřejných dat.

Architektura

Prvním krokem je dekompozice dotazu před vyhledáváním. Surový uživatelský dotaz se nedostává přímo do vektorového vyhledávání. Nejprve prochází dekompoziční vrstvou, která sestavuje strukturovanou mapu problému: mezilehlé právní subjekty, regulační vztahy a kauzální závislosti, které dotaz implikuje. To poskytuje vyhledávacímu enginu spíše plán než klíčové slovo. Zároveň to dává ověřovateli, který se objeví později v procesu, podklad pro porovnání s konečnou odpovědí.

Vyhledávání probíhá na vrstveném znalostním grafu, nikoli na plochém indexu. Graf pracuje na třech úrovních granularity.

Na nejvyšší úrovni se nachází doménový graf s přibližně padesáti až sto uzly: ontologická mapa české legislativy, financí a nemovitostí na vysoké úrovni, včetně jejich institucionálních vztahů. Jedná se o navigační vrstvu. Je dostatečně malá, aby ji bylo možné vytvořit a udržovat ručně. Směřuje dotaz do správného podgrafu ještě předtím, než začne jakékoli náročné vyhledávání.

Pod ním se nachází graf entit, který automaticky roste z načítacího potrubí. Rozpoznávání pojmenovaných entit prováděné na načtených dokumentech extrahuje zákony, regulační rozhodnutí, institucionální aktéry a jejich společné výskyty. § 2358 občanského zákoníku, který se v tomtéž dokumentu objevuje vedle konkrétního nařízení ČNB, vytváří relační hranu. Tato hrana se posiluje pokaždé, když se společný výskyt opakuje. Graf entit není navržen předem a ani to není nutné. Vyrůstá z dat a ze skutečného dotazového provozu.

Základem je samotný vektorový index: standardní pgvectorové vnoření, avšak s každým úsekem propojeným zpět k uzlům grafu entit. Vyhledávání neprohledává celý index. Vstupuje přes graf entit, prochází topologicky relevantní uzly a vybere pouze úseky spojené s relační strukturou rozloženého dotazu. Tento přístup vychází z modelu duálního hypergrafu z článku AAAI, který odděluje tematické vyhledávání na makroúrovni (které části právní ontologie jsou relevantní) od šíření entit na mikroúrovni (které konkrétní dokumenty je propojují).

Paralelně probíhá adaptivní směrování napříč vrstvami modelu. Klasifikace dotazů a procházení grafu využívají odlehčené modely. Hluboké uvažování nad vyhledanými důkazy využívá model výkonnější. Rozhodnutí o tom, která vrstva se zapojí, se provádí pro každý dotaz zvlášť na základě složitosti výstupu dekompozice.

Samoověření

Architektura vyhledávání zajišťuje relevanci. O pravdivost se stará samostatná vrstva.

Každá odpověď, kterou Mendel vygeneruje, musí být vysledovatelná k ověřitelnému zdroji. Jedná se o strukturální omezení vynucované v době inferenční pomocí protokolu dual-LLM. Model LLM pro uvažování generuje odpověď s explicitním řetězcem úvah na základě párů pasáží a paměti z fáze vyhledávání. Nezávislý model Verifier LLM prověřuje výstup ještě předtím, než se dostane k uživateli: kontroluje faktickou konzistenci s vyhledanými důkazy, logickou správnost řetězce úvah a soulad se strukturovaným kontrolním seznamem důkazů odvozeným z dekompozice dotazu.

Protokol využívá reflexní tokeny Self-RAG (ISREL, ISSUP, ISUSE) k zajištění detailní kontroly na úrovni jednotlivých tvrzení. Jakékoli tvrzení, které model Reasoner vygeneruje bez podpůrného tokenu ISSUP, se k uživateli nedostane. Verifikátor vyhledává nepodložená tvrzení a před výstupem vrací odpověď k opravě. Jedná se o adversariální nastavení spíše než o jediný model s vlastní kontrolou, protože model s vlastní kontrolou může své vlastní chyby racionalizovat způsobem, jakým to skutečně nezávislý model neudělá.

Toto je mechanismus, který stojí za chováním Mendelova systému „systém se raději zastaví, než aby si něco vymýšlel“. Nejedná se o zásadu aplikovanou až po generování. Je vynucována již v generovacím procesu.

Výzva znalostního grafu

Nejupřímnější částí tohoto dokumentu je právě tato.

Česká veřejná data jsou rozsáhlá a strukturálně roztříštěná. Plný rozsah potřebný pro znalostní bázi Mendela zahrnuje e-Sbírku pro zákonná ustanovení, repozitáře Nejvyššího soudu a Ústavního soudu pro judikaturu, regulační archivy ČNB, katastrální data ČÚZK a dokumenty územního plánování rozptýlené na více než 1 500 webových stránkách obcí a krajských samospráv. Jde o miliony koncových bodů URL, z nichž každý obsahuje dokumenty s odlišnou strukturou, kódováním a frekvencí aktualizací. Entitní graf nelze v takovém měřítku sestavit ručně a nelze jej dokončit před spuštěním.

Praktickým řešením je odložená konstrukce grafu. Graf entit roste na základě skutečného načítání dat a skutečného dotazovacího provozu. Jakmile je zákon poprvé vyhledán uživatelským dotazem, vytvoří se uzel. Každý následující dotaz, který aktivuje stejný zákon, posiluje hrany spojující jej s entitami, které byly vyhledány společně s ním. Po několika měsících skutečného provozu budou v grafu nejhustěji propojeny ty části českého práva, které jsou nejčastěji vyhledávány. To je přesně to chování vyhledávání, které chcete: graf utvářený tím, co uživatelé skutečně potřebují.

Omezení, které tím vzniká, spočívá v tom, že kvalita extrakce entit při načítání dat představuje architektonické úzké místo. NER pipeline, která zaměňuje čísla zákonů s daty nebo nesprávně identifikuje názvy organizací, vnáší šum přímo do grafu entit. Šum v grafu zhoršuje vyhledávání ve všech následných fázích. Technickou prioritou před škálováním načítání dat je přesnost na kontrolovaném vzorkovém korpusu. Změřte přesnost a recall extrakce, vyladěte pipeline a teprve poté škálujte. Škálování chyb v extrakci je horší než začít s omezeným pokrytím.

Současný stav

První verze Mendelu bude implementovat generování založené na zdrojích, explicitní označování nejistot a strukturované vyhledávání v grafu domény. Plný kognitivní RAG-pipeline, včetně grafu entit, vyhledávání v hypergrafu a ověřovacího protokolu s duálním LLM, se paralelně aktivně vyvíjí.

Tento článek je návrhový dokument, nikoli výzkumná práce. Formální článek s experimentálními údaji o přesnosti vyhledávání, míře halucinací a výkonu dotazů s více skoky na reálných českých právních datech bude zveřejněn po uvedení produktu na trh. Nyní můžeme říci, k čemu směřujeme a proč. Zda konkrétní volby implementace obstojí při reálném zatížení dotazy, určí testování.

Architektonické směřování je správné. Standardní RAG vyhledává podle podobnosti. Právní uvažování vyžaduje vztahy. Jedná se o odlišné problémy, které vyžadují odlišné nástroje.

Související články

Budoucnost začíná dnes

Začít hned