V minulém díle jsme si řekli, proč opouštíme cloud. Rozhodli jste se pro svobodu. Skvělé. Teď ale přichází ta fáze, které se většina manažerů děsí. Nákup hardwaru.
Vítejte u 2. dílu seriálu Lokální RAG chatbot. Dnes se podíváme na to, jaký hardware potřebujete pro provoz vlastní AI. Porovnáme NVIDIA a Apple Silicon, ukážeme konkrétní nákupní seznamy a budeme upřímní o tom, kde jsou limity.
Když se zeptáte prodejce IT, co potřebujete na provozování vlastní AI, začne vám citovat ceny serverových řešení od Dellu nebo HP. Uslyšíte názvy jako NVIDIA H100 nebo A100. A uvidíte cenovky, které začínají na půl milionu korun.
Zastavte se.
To, co vám tvrdí, je pravda, pokud trénujete novou GPT-5 pro celý svět. Ale vy ji netrénujete. Vy ji jen provozujete (tzv. inference). A na to, abyste měli vlastního chytrého chatbota nad firemními daty, nepotřebujete serverovnu s dusíkovým chlazením.
V roce 2026 stačí, když na stůl postavíte krabičku velikosti krabice od bot.
Pravidlo č. 1: VRAM je král
Zapomeňte na procesory (CPU). Intel Xeon nebo AMD EPYC jsou pro AI téměř k ničemu. Jsou příliš pomalé. Veškerá magie se odehrává na grafických kartách (GPU). Ale pozor, nezajímá nás ani tak hrubý výpočetní výkon čipu, jako jeho paměť (VRAM) a propustnost.
AI model je v podstatě obrovský soubor matic (čísel), který musí být celý načtený v rychlé paměti grafické karty.
Pokud se model do paměti vejde, odpoví vám okamžitě (milisekundy).
Pokud se nevejde a musí se kouskovat přes systémovou RAM, odpoví vám za minutu. A to je pro chatbota nepoužitelné.
Rovnice je jednoduchá: Čím chytřejší model, tím více paměti potřebuje.
Dvě cesty: Hrubá síla vs. Elegantní integrace
V roce 2026 existují dvě hlavní cesty, jak postavit lokální AI server. Zelená cesta (NVIDIA) a Stříbrná cesta (Apple).
Cesta zelená: NVIDIA a síla GPU
NVIDIA je standard. Všechno na ní funguje hned. Problém je, že NVIDIA si za profesionální karty s velkou pamětí účtuje výpalné. Karta A100 s 80 GB paměti stojí statisíce.
My ale máme tajnou zbraň. Je jí herní segment.
Nejnovější RTX 5090 přináší 32 GB VRAM s brutální propustností 1 792 GB/s. Do 32 GB se vejdou velmi schopné modely do cca 30 miliard parametrů v plné kvalitě. Cena v Česku začíná na 66 000 Kč, pokud ji vůbec seženete.
Pro menší rozpočet existuje bazarový král: RTX 3090 se svými 24 GB VRAM. Na bazaru se dá v roce 2026 sehnat za 10 000–15 000 Kč. To je cena lepší kancelářské židle. Do 24 GB se vejdou modely do cca 14B parametrů v plné kvalitě, nebo kvantizované modely do 30B. Pro firemní RAG chatbot je to více než dost.
Hlavní výhoda NVIDIA je ale jinde než v surové rychlosti. Je to software pro produkční nasazení. Framework vLLM umí zpracovávat desítky dotazů paralelně. Při 8 souběžných uživatelích si RTX 5090 s vLLM drží 81 tokenů za sekundu. To je výkon, který potřebujete, pokud chatbota používá celá firma najednou.
Nevýhoda? Hluk, spotřeba (RTX 5090 žere 575 W), nutnost stavět celý počítač kolem karty a řešit chlazení.
Cesta stříbrná: Apple Silicon
Tohle je volba, kterou doporučuji většině malých a středních firem, které nechtějí řešit Linux, ovladače a hučící větráky. Apple udělal s čipy řady M něco geniálního. Spojil paměť procesoru a grafiky do jednoho balíku (Unified Memory).
Co to znamená? Když si koupíte Mac Studio s 128 GB RAM, máte najednou 128 GB pro AI model. Sehnat 128 GB VRAM u NVIDIA by vás stálo jako nové auto. U Applu to stojí jako lepší notebook.
Na takovém stroji spustíte i ty největší open-source modely, které existují. 70B+ varianty Llama 3, Qwen 3 nebo DeepSeek R1 v plné kvalitě, bez drastické komprese.
Výhody: Ticho, nízká spotřeba (75 W celý systém), rozbalíte a jedete.
Nevýhoda? Musím být upřímný. Apple je pomalejší než NVIDIA, a to platí dvojnásob, když se ptá více lidí najednou. Při jednom uživateli generuje Mac Studio solidních 30–45 tokenů za sekundu na 70B modelu. Ale při 8 souběžných dotazech výkon klesá na třetinu. Důvod je softwarový. Nejlepší produkční framework vLLM na Apple Silicon zatím plně nefunguje.
Pro malou firmu (do 15–20 lidí), kde se typicky ptají 2–3 lidé najednou, to nevadí. Pro firmu s 50+ zaměstnanci, kde se v špičce ptá 10–15 lidí současně, je to problém.
Na obzoru je nový framework vllm-mlx, který slibuje výrazné zlepšení paralelního zpracování na Apple Silicon. Pokud se potvrdí, může to rovnováhu změnit. Ale zatím je čerstvý.
Příklad z mé praxe: Na čem tento seriál vzniká
Abychom nezůstali jen u teorie, rozhodl jsem se jít s kůží na trh. Celý tento seriál a všechny praktické ukázky, které uvidíte v dalších dílech, poběží na mém vlastním železe.
Po dlouhém zvažování poměru cena/výkon/spotřeba jsem zvolil tuto konfiguraci:
| Parametr | Specifikace |
|---|---|
| Model | CTO Apple Mac Studio (2025) |
| Čip | M4 Max (16x CPU / 40x GPU) |
| Paměť | 128 GB Unified Memory |
| Úložiště | 1 TB SSD |
Proč jsem zvolil právě toto zařízení? Důvod je prostý: 128 GB paměti. Ve světě PC bych pro dosažení podobné kapacity VRAM musel koupit čtyři grafické karty RTX 4090, složitě je propojovat a řešit, kam odvést to obrovské teplo. Mac Studio mi nabízí 128 GB sdílené paměti, kterou může AI model využít celou. To mi otevírá dveře k provozování těch největších a nejchytřejších modelů bez nutnosti drastické komprese.
Ekosystém vs. nástroje
Jsem pragmatik. Mám sice iPhone a MacBook Pro na cesty, ale celá moje digitální kancelář běží na službách Google (Workspace, Drive). Přesto mi dává smysl mít jako server Mac.
Ticho a spotřeba. Toto zařízení žere méně než žárovka, i když přemýšlí. Může běžet 24/7 v mé pracovně a neruší mě hlukem ventilátorů, což by se o herním PC s dvěma grafikami říct nedalo.
Kontinuita. Možnost ovládat Mac Studio z mého MacBooku přes Universal Control (jedna myš a klávesnice pro oba počítače) je pro vývojáře extrémně návyková.
Co od něj očekávám
Očekávám, že to bude stabilní mozek mé domácí infrastruktury. Že na něm poběží lokální RAG agenti, kteří budou třídit moje data, aniž by se zadýchali. Očekávám, že nebudu muset řešit ovladače grafiky, které se po aktualizaci systému rozbily (častý problém na Linuxu).
Jestli byla sázka na křemík od Applu správná, nebo jestli budu litovat, že jsem nešlápl po hrubé síle NVIDIA, vám prozradím na konci tohoto seriálu v závěrečném zhodnocení.
Nákupní seznam: Co pořídit zítra
Pokud chcete začít budovat lokálního RAG chatbota, zde jsou tři cenové hladiny. Vyberte si podle rozpočtu a velikosti firmy.
1. Start v garáži (do 40 000 Kč)
Hardware: Repasovaná pracovní stanice nebo herní PC s bazarovou NVIDIA RTX 3090 (24 GB VRAM, cena kolem 10 000–15 000 Kč).
Co to umí: Modely do 14B parametrů v plné kvalitě, kvantizované modely do 30B. Rychlá odezva, ideální pro testování a malý tým do 5 lidí.
2. Zlatá střední cesta (80 000–120 000 Kč) — DOPORUČUJI
Hardware: Apple Mac Studio M4 Max s minimálně 64 GB RAM (ideálně 128 GB).
Co to umí: Spustíte nejchytřejší modely (70B+ parametrů). Zvládne analyzovat desítky dokumentů najednou. Tiché, kompaktní, dá se položit na stůl v kanceláři.
Pro koho: Firmy do 15–20 lidí, vývojáři, prototypování.
3. Produkční dělo (120 000–200 000 Kč+)
Hardware: Custom PC s NVIDIA RTX 5090 (32 GB) nebo 2x RTX 4090 (2x 24 GB) + framework vLLM pro paralelní obsluhu.
Co to umí: Produkční serving pro desítky souběžných uživatelů. Vhodné pro firmy s 30–100+ zaměstnanci, kde chatbota používá celá firma najednou.
Proč nekupovat hardware do zásoby
Možná vás láká koupit to nejdražší, aby to vydrželo. Nedělejte to. AI se vyvíjí opačně než zbytek softwaru. Modely se zmenšují. To, co před rokem vyžadovalo superpočítač, dnes běží na telefonu. Optimalizace a destilace modelů jdou kupředu raketovým tempem. Hardware, který koupíte dnes za 100 tisíc, bude stačit i za tři roky, protože modely v roce 2029 budou efektivnější, ne náročnější.
Ekonomika provozu (CapEx vs. OpEx)
V cloudu platíte za každý token (slovo). Čím víc pracujete, tím víc platíte. U vlastního hardwaru je to naopak.
Jednou zaplatíte 100 000 Kč za Mac Studio (CapEx, investice). Měsíční náklad je pak jen elektřina, cca 300–500 Kč. A protože hardware je hmotný majetek, odepíšete ho z daní za 3 roky. Reálná cena po daňové úspoře je ještě nižší.
Pokud váš chatbot zpracuje tisíce dotazů denně, návratnost investice oproti poplatkům za cloudové API je často méně než 4 měsíce. Pak už generujete tokeny zadarmo.
Co dál
Máme železo. Máme křemíkové srdce našeho systému. Ale zatím je to jen prázdná schránka. V příštím díle do ní vdechneme život. Podíváme se na to, jak vybrat ten správný mozek. Vysvětlím vám, proč model s označením 70B může být chytřejší než vy, a ukážu vám magii zvanou kvantizace, díky které se obří inteligence vejde i do vaší nové grafické karty.
👉 Zajímá vás obecně vývoj interního chatbota pro zabezpečená firemní data (typu chatgpt)? Podívejte se na seriál Agentní RAG chatbot: Kompletní průvodce architekturou.
Celý seriál Lokální RAG
- Datová suverenita: Proč cloudová AI není pro každého
- Křemíková nezávislost: Hardware pro AI ← právě čtete
- Mozek ve sklenici: Výběr a kvantizace modelu
- Inference Engine: Srdce lokálního systému
- Lokální GraphRAG: Vztahy bez poplatků za tokeny
- Autonomní Agenti na vlastním serveru (Local Agents)
- Vlastní Copilot: Bezpečné kódování
- Zpracování tajných dat: OCR a Ingestion pipeline
- Trénink na vlastním železe: Fine-tuning a LoRA adaptéry
- Architektura a Cena: Kolik stojí nezávislost (Case Study)