Agentní RAG chatbot 5) Výběr správného motoru a strategie pro volbu LLM

RAG chatbot - výběr modelu

Máme data, databázi, vyladěnou relevanci i perfektní system prompt. Náš digitální expert je připraven, ale chybí mu to nejdůležitější, a to mozek. Tím mozkem je velký jazykový model (LLM). Volba správného modelu není jen o tom vybrat ten nejnovější nebo ten největší. Je to komplexní strategické rozhodnutí, které musí vybalancovat výkon, cenu, rychlost a specifické potřeby vašeho projektu.

Toto je pátý díl seriálu Agentní RAG chatbot, kde krok za krokem rozebírám, jak správně postavit celou architekturu a čemu se naopak vyhnout. Postupně zde najdete odkazy na všechny díly, které si časem můžete přečíst.

Představte si, že vybíráte motor pro nové auto. Pokud stavíte formuli 1, potřebujete maximální výkon bez ohledu na spotřebu. Pokud stavíte městské vozítko pro rozvoz pizzy, potřebujete spolehlivost, nízkou spotřebu a obratnost. S jazykovými modely je to stejné. Neexistuje jeden univerzálně nejlepší model pro všechno. Existuje jen ten nejlepší model pro váš konkrétní účel.

Kritéria výběru: Na čem záleží

Při výběru LLM pro své klienty se rozhoduji na základě několika klíčových kritérií:

  1. Inteligence a schopnost uvažování (Reasoning): Jak dobře model chápe složité instrukce? Dokáže provést vícekrokovou analýzu, nebo se při prvním složitějším úkolu ztratí? Pro jednoduché shrnutí textu stačí základní model. Např. pro právní analýzu potřebujete chytrý model, které nedělá chyby.
  2. Kontextové okno (Context Window): Kolik informací dokáže model udržet v hlavě najednou? Starší modely zvládly jen pár stránek textu. Dnešní špičkové modely zvládnou stovky stránek až celé knihy, což je pro RAG systémy pracující s rozsáhlou dokumentací naprosto klíčové.
  3. Latence (Rychlost): Jak rychle model odpoví? Uživatel nechce čekat 30 sekund na jednoduchou odpověď. Zde často platí, že čím chytřejší model, tím je pomalejší. Určitě použijte streaming pro iluzi rychlejší odpovědi.
  4. Cena: Náklady na provoz se mohou dramaticky lišit. Rozdíl v ceně mezi nejvýkonnějším a nejmenším modelem může být až stonásobný.
  5. Jazykové schopnosti: Jak dobře model ovládá češtinu? Zvládá odbornou terminologii a nuance našeho jazyka? Na první pohled se může jevit, že česky umí, ale v dlouhodobém horizontu se může ukázat, že dělá školácké chyby.
  6. Aktualizace modelů: Sledujte všechny ty nové modely od všech firem? Je to náročné, ale vyplatí se sledovat, jak se mění ceny, schopnosti modelů. Nezůstávejte u starých modelů, když můžete mít chytřejší, lepší a levnější model.

Souboj titánů: OpenAI vs. Anthropic vs. Google

Vzestup různých LLM, zdroj: informationisbeautiful

Na trhu je dnes několik hlavních hráčů a situace se mění každým týdnem.

  • OpenAI (GPT-5, GPT-4.1, o3 Pro): Aktuální král trhu pro většinu komplexních úloh je GPT-5. Já mám ale jiného favorita: model GPT-4.1 přináší masivní kontextové okno (až 1 milion tokenů), což otevírá zcela nové možnosti pro analýzu obrovských dokumentů najednou. Je extrémně spolehlivý v dodržování instrukcí a má vynikající češtinu. Model o3 je pak specialista na hluboké logické uvažování.
  • Anthropic (Claude 4.5 Sonnet, Opus 4.1): Hlavní vyzyvatel. Claude 4.5 Sonnet často překonává modely OpenAI v úlohách vyžadujících práci s kódem a má velmi přirozený, lidský styl psaní. Jeho kontextové okno je dostačující, ale ne tak obrovské jako u konkurence.
  • Google (Gemini 2.5 Pro, 2.5 Flash): Google sází na extrémně dlouhý kontext (až 2 miliony tokenů) a multimodální schopnosti. Je silný v analýze videa a audia, což se pro některé RAG systémy může hodit. Dále pak ve vymýšlení strategií a pro komplexní úlohy.
Hlavní hráči LLMs, zdroj: informationisbeautiful

Proč jsem (zatím) zavrhl open-source

Často dostávám otázku, proč nepoužívám open-source modely jako Llama 4 nebo Mixtral, které si mohu provozovat sám a zadarmo. Důvod je pragmatický, a to čeština.

Ačkoliv se tyto modely rychle zlepšují, v kvalitě českého jazyka, zejména v odborných oblastech, stále výrazně zaostávají za komerční špičkou. Pro hobby projekt jsou skvělé. Pro produkční systém, který má analyzovat české smlouvy a komunikovat s českými zákazníky, je riziko chyb a nepochopení zatím příliš vysoké. Náklady na vlastní provoz a ladění navíc často převýší cenu za komerční API.

Moje strategie: Proč sázím na jistotu (GPT-4.1)

Pro většinu svých aktuálních produkčních RAG systémů, včetně těch v právní oblasti, jsem nakonec zvolil model GPT-4.1. Proč?

Je to nejlepší univerzál pro rok 2025. Jeho obrovské kontextové okno (1 milion tokenů) mi umožňuje poslat mu k analýze nejen pár vybraných odstavců, ale klidně celou smlouvu i se souvisejícími přílohami. Má vynikající schopnost poslouchat na slovo a přesně dodržovat složité instrukce v system promptu, což je pro právní analýzu naprosto nezbytné. Jeho cena je vzhledem k výkonu akceptovatelná a rychlost je pro většinu použití dostatečná.

Zkoušel jsem i menší, rychlejší modely (jako GPT-5-mini nebo Claude Haiku) pro dílčí úkoly, abych ušetřil náklady. Narazil jsem ale na problém se spolehlivostí. Ačkoliv byly bleskurychlé, občas halucinovaly nebo přehlédly jemnou nuanci v zadání. V právním kontextu je taková chyba nepřijatelná. Proto raději obětuji pár milisekund a haléřů navíc za jistotu, kterou mi dává velký, robustní model.

Příklad z praxe: Optimalizace právního asistenta

U mého dlouhodobého projektu právního expertního systému jsme narazili na kritický problém. Náklady na provoz začaly s rostoucím počtem uživatelů exponenciálně růst. Každý dotaz, i ten nejbanálnější, byl zpracováván nejdražším modelem, protože jsme nechtěli riskovat snížení kvality u důležitých právních rad.

Řešením nebylo snížení kvality, ale zvýšení inteligence architektury. Implementoval jsem dvoustupňový proces.

Prvním krokem bylo nasazení klasifikačního agenta. Tento specializovaný malý model měl jediný úkol. Rozhodnout, zda jde o jednoduchý informační dotaz (např. Jaká je lhůta pro odvolání?), nebo o komplexní analytický úkol (např. Analyzuj rizika v této nájemní smlouvě s ohledem na nový občanský zákoník).

  • Pro jednoduché dotazy jsme začali používat menší, 10x levnější model, který měl k dispozici stejnou kvalitní RAG databázi. Jeho přesnost na tyto definované typy úloh byla naprosto dostatečná.
  • Pouze komplexní analýzy byly směrovány na velký model GPT-4.1. nebo GPT-5.

Výsledek byl okamžitý. Náklady na průměrný dotaz klesly o 60 %, zatímco vnímaná kvalita a rychlost se pro uživatele dokonce zvýšila, protože jednoduché dotazy byly odbaveny mnohem rychleji.

Od drahé hračky k ziskovému nástroji

Optimalizace není jen technické cvičení, je to existenční nutnost pro každý úspěšný AI projekt. Naučili jsme se, že spoléhat se pouze na hrubou výpočetní sílu největších modelů je ekonomická sebevražda. Skutečná inteligence systému se neprojevuje jen v kvalitě odpovědi, ale v efektivitě, s jakou k ní dojde.

Byznysový dopad těchto technik je transformační. Snížením nákladů o 60 % a dramatickým zrychlením odezvy neměníte jen čísla v excelu. Měníte fundamentální ekonomiku celého projektu. Z drahého experimentu pro pár manažerů se stává škálovatelný nástroj, který si můžete dovolit nasadit pro celou firmu. Optimalizace je přesně ten moment, kdy se z AI stává skutečný business case s tvrdou, měřitelnou návratností investice.

V příštím díle se podíváme na to, jak tento výkon dále optimalizovat a jak z našeho systému vymáčknout maximum za minimum peněz.

Díly seriálu

Obsah článku

Líbí se Vám obsah?

Odebírejte Newsletter, ať vám nic neunikne.

Vývoj AI

Vývoj interních zabezpečených AI systémů.

Sledujte mě na sítích.

Odebírejte Newsletter, ať vám nic neunikne.

Podobné články