Agentní RAG chatbot 3) Umění relevance a ladění RAG

V prvních dvou dílech jsme si připravili kvalitní data a vybrali robustní databázi. Položili jsme základy. Nyní přichází ta nejdůležitější a nejkomplexnější fáze. Musíme náš RAG systém naučit v těchto datech přemýšlet. Musíme ho naučit odlišit podstatné od nepodstatného, signál od šumu. Vstupujeme do světa ladění relevance.

Toto je třetí díl seriálu Agentní RAG chatbot, kde krok za krokem rozebírám, jak správně postavit celou architekturu a čemu se naopak vyhnout. Postupně zde najdete odkazy na všechny díly, které si časem můžete přečíst.

Představte si, že máte k dispozici toho nejlepšího policejního detektiva na světě. Má přístup k obrovskému archivu všech případů, důkazů a svědectví. Když mu zadáte nový případ, jeho genialita nespočívá v tom, že si přečte všechny spisy, kde se vyskytuje slovo „nůž“. Jeho genialita spočívá v tom, že dokáže okamžitě identifikovat ty tři klíčové spisy, které s novým případem skutečně souvisí, odfiltrovat stovky slepých uliček a propojit zdánlivě nesouvisející stopy.

Váš RAG systém je přesně takový detektiv. A vaším úkolem jako AI Architekta je naučit ho přemýšlet jako Sherlock Holmes, ne jako nezkušený praktikant.

Architektura scoring algoritmu

První a největší mýtus o RAG systémech je, že stačí najít texty, které jsou dotazu sémanticky nejpodobnější. To je naprostý základ, který ale v praxi často selhává. Skutečně inteligentní systém se nespoléhá jen na jeden signál, ale vyhodnocuje celou řadu faktorů v rámci sofistikovaného scoring algoritmu. V mých projektech se skládá finální skóre relevance z několika klíčových komponent.

Při stavbě expertního systému pro farmaceutickou firmu jsem narazil na typický problém. Na dotaz „Jaké jsou vedlejší účinky léku CardioStabil?“ systém vracel obecné marketingové brožury. Správný, vysoce specifický dokument, tedy souhrn klinické studie, byl až na osmém místě, protože měl nižší shodu klíčových slov. Řešením bylo přidat do scoring algoritmu inteligenci.

Síla kontextu (Category Boost): Zdvojnásobil jsem váhu kategorie dokumentu. Tím jsem systému řekl: „Pokud najdeš dokument, který je v naprosto správné kategorii (např. Klinické studie), ber ho vážně, i když nemá stoprocentní shodu slov.“
Oslabení šumu (Penalties): Zároveň jsem zavedl penalizaci pro dokumenty z kategorie Marketingové materiály. Tím jsem tyto obecné dokumenty posunul níže a uvolnil místo pro skutečně expertní obsah.

Nástroj č. 1: Reranker aneb druhá, expertní kontrola

I ten nejlepší scoring algoritmus je jen rychlý první filtr. Pro dosažení maximální přesnosti proto do architektury přidávám další vrstvu, reranker.

Představte si ho jako expertního revizora. Zatímco první fáze (retrieval) rychle najde 20 potenciálně relevantních dokumentů, reranker si těchto 20 dokumentů vezme a provede na nich mnohem hlubší a výpočetně náročnější analýzu. Porovná každý z nich s původním dotazem a přeřadí je podle skutečné, hluboké relevance. Je to druhá, expertní kontrola, která dramaticky zvyšuje kvalitu finálního výběru.

Advance RAG schema — *Advanced RAG: Zdroj Medium*

Nástroj č. 2: Transformace dotazu aneb umění se správně zeptat

Někdy problém není ve vyhledávání, ale v samotném dotazu. Uživatel se často ptá příliš obecně. Například dotaz „Je CardioStabil bezpečný?“ je pro AI systém velmi těžko uchopitelný.

Zde přichází na řadu transformace dotazu (Query Transformation). Místo abychom tento vágní dotaz rovnou poslali do databáze, necháme nejprve AI, aby ho analyzovala a rozložila na několik konkrétních, technických podotázek.

„Jaké jsou zdokumentované vedlejší účinky léku CardioStabil?“
„Jaké jsou kontraindikace pro lék CardioStabil?“
„Jaké byly výsledky bezpečnosti ve Fázi III klinických studií pro lék CardioStabil?“

Teprve tento seznam precizních dotazů pošleme do RAG systému. Výsledkem je mnohem komplexnější a přesnější odpověď, která skutečně pokrývá všechny aspekty původní, obecné otázky.

Query transformation RAG schema — *Query transformation RAG: Zdroj Medium*

Nástroj č. 3: Index shrnutí aneb odpověď z ptačí perspektivy

Co když se uživatel neptá na detail, ale na celkový přehled? Například „Jaká je naše celková strategie pro kardiovaskulární léčiva?“. Prohledávat tisíce jednotlivých chunků by bylo neefektivní.

Pro tyto případy buduji takzvaný index shrnutí (Summary Index). Je to speciální, oddělená databáze, která neobsahuje detailní texty, ale jen krátké, AI vygenerované souhrny celých dokumentů nebo jejich hlavních kapitol. Když systém detekuje, že se uživatel ptá na obecný přehled, nesáhne do hlavní databáze, ale právě do tohoto indexu. Získá tak odpověď z ptačí perspektivy, která je rychlá, stručná a k věci.

Nástroj č. 4: Obohacení kontextu pomocí znalostního grafu

Všechny dosavadní techniky, od scoringu po reranker, mají jeden společný limit. Pracují pouze s tou sadou dokumentů, kterou jsme našli v úplně prvním kroku. Co když ale ta nejdůležitější kontextuální informace leží v dokumentu, který nemá vysokou sémantickou podobnost a náš první filtr ho vůbec nezachytil? Zde přichází na řadu skutečná síla mého hybridního přístupu, krok, který nazývám obohacení kontextu pomocí grafové traversace. Nejprve necháme náš rychlý systém najít 5 až 10 nejpravděpodobnějších dokumentů. Tím získáme jádro relevantních informací. Tím ale nekončíme.

Těchto 5 až 10 nalezených dokumentů použijeme jako vstupní body do naší databáze Neo4j. Pro každý z nich se zeptáme znalostního grafu: „Ukaž mi všechny ostatní dokumenty a entity, které s tímto dokumentem úzce souvisí přes vztahy jako [:JE_PŘEDPOKLADEM_PRO] nebo [:JE_V_ROZPORU_S].“

Na dotaz ohledně léku „CardioStabil“ tak systém nejenže najde jeho klinickou studii, ale díky grafu si všimne, že tato studie je propojena se starším výzkumem na účinnou látku „Stabilin“, který odhalil jistá rizika. Do finálního AI modelu tak neposíláme jen izolované texty, ale kurátorovaný balíček informací, který odhaluje i skryté souvislosti.

Neúplnost dat a syndrom syntetických chunků

Vyřešením relevance jsme se dostali k ještě záludnějšímu problému. Systém začal vracet správné dokumenty, ale odpovědi byly neúplné. Například na dotaz ohledně dávkování léku AI odpověděla správně, ale zmínila jen dávkování pro dospělé, ačkoliv dokument obsahoval i klíčové informace o dávkování pro děti.

Po hloubkové analýze jsem zjistil, že systém pro rychlost nepracoval s celými dokumenty, ale jen s jejich úryvky, které si generoval za běhu. A ty chybějící informace byly přesně v té části textu, která se do úryvku nevešla.

Řešením byla kompletní přestavba logiky. Systém sice stále používá úryvky pro rychlé úvodní seřazení, ale v momentě, kdy identifikuje ty nejrelevantnější dokumenty, provede druhý krok. Aktivně si z databáze Neo4j načte jejich 100% kompletní text. Teprve tento kompletní, nezkrácený obsah posílá finálnímu AI modelu.

Byznysový přínos

Relevance není funkce, kterou zapnete. Je to výsledek pečlivé architektonické práce a neustálého ladění. Je to křehká rovnováha mezi desítkami různých signálů a pokročilých technik.

Byznysový přínos je ale obrovský. Rozdíl mezi systémem s přesností 50 % a systémem s přesností 92 % je rozdílem mezi drahým, nepoužívaným projektem a klíčovým byznysovým aktivem, kterému váš tým věří. Je to rozdíl mezi frustrací a efektivitou. Investice do ladění relevance je investicí do důvěry. A důvěra je ta nejdůležitější metrika ze všech.

Díly seriálu

Agentní RAG chatbot 1) Strategie zpracování dat pro RAG
Agentní RAG chatbot 2) Výběr a architektura databáze
Agentní RAG chatbot 3) Umění relevance a ladění RAG
Agentní RAG chatbot 4) Duše v systému aneb jak napsat dokonalý system prompt
Agentní RAG chatbot 5) Výběr správného motoru a strategie pro volbu LLM
Agentní RAG chatbot 6) Pokročilá optimalizace výkonu a nákladů
Agentní RAG chatbot 7) Síla vztahů a praktický průvodce implementací graphRAG
Agentní RAG chatbot 8) Tým expertů aneb stavba agentních systémů v LangGraph
Agentní RAG chatbot 9) Digitální pevnost a zabezpečení dat v AI aplikacích
Agentní RAG chatbot 10) Z laboratoře do praxe a ladění systému v reálném provozu
Agentní RAG chatbot – Bonus: Případová studie

Líbí se Vám obsah?

Odebírejte Newsletter, ať vám nic neunikne.

Sledujte mě na sítích.

Odebírejte Newsletter, ať vám nic neunikne.

Podobné články

Můj rok 2025 a plány na 2026

Daniel Gottwald 31 prosince, 2025

Jaký byl můj rok 2025? Doslova plný změn a tentokrát naštěstí pozitivních! Dá se říci, že jsem si konečně uskutečnil některé vytoužené a jiné méně

Číst více »

Agentní RAG chatbot 7) Síla vztahů a praktický průvodce implementací GraphRAG

Daniel Gottwald 21 listopadu, 2025

V minulých dílech jsme optimalizovali výkon a náklady. Nyní se vrátíme k samotnému jádru inteligence našeho systému. Kdybych měl vybrat jednu jedinou technologii, která v

Číst více »

Agentní RAG chatbot 6) Pokročilá optimalizace výkonu a nákladů

Daniel Gottwald 18 listopadu, 2025

V minulém díle jsme udělali klíčové rozhodnutí, kterým jsme vybrali náš hlavní motor, tedy jazykový model (LLM). Ukázali jsme si také první optimalizaci, inteligentní routing,

Číst více »

Agentní RAG chatbot 3) Umění relevance a ladění RAG

Architektura scoring algoritmu

Nástroj č. 1: Reranker aneb druhá, expertní kontrola

Nástroj č. 2: Transformace dotazu aneb umění se správně zeptat

Nástroj č. 3: Index shrnutí aneb odpověď z ptačí perspektivy

Nástroj č. 4: Obohacení kontextu pomocí znalostního grafu

Neúplnost dat a syndrom syntetických chunků

Byznysový přínos

Díly seriálu

Obsah článku

Líbí se Vám obsah?

Odebírejte Newsletter, ať vám nic neunikne.

Vývoj AI

Odebírejte Newsletter, ať vám nic neunikne.

Podobné články

Můj rok 2025 a plány na 2026

Agentní RAG chatbot 7) Síla vztahů a praktický průvodce implementací GraphRAG

Agentní RAG chatbot 6) Pokročilá optimalizace výkonu a nákladů

Neváhejte mě kontaktovat

Důležité

Spolupráce

Nové články

Můj rok 2025 a plány na 2026

Agentní RAG chatbot 7) Síla vztahů a praktický průvodce implementací GraphRAG

Agentní RAG chatbot 6) Pokročilá optimalizace výkonu a nákladů

Agentní RAG chatbot 5) Výběr správného motoru a strategie pro volbu LLM

Kontakt