Zaměřme se nejprve na to, co je pro AMD ROCm zásadní limitací: operační systém. AMD oficiálně podporuje pouze Ubuntu a distribuce založené na RHEL. Na Debianu buď stojíte před kompilací ze zdrojových kódů, nebo se spokojíte se starou verzí ROCm. apt-get balíčky pro Debian oficiálně neexistují. A toto omezení se netýká pouze distribuce jako takové, ale celého ekosystému frameworků, které na ni staví.
Matyho TIP:
Výběr GPU pro LLM inference není jen o papírových specifikacích nebo ceně za GB VRAM. Je to hlavně o tom, kolik času strávíte nastavováním, a kolik času ušetříte pro skutečnou práci s modely. Právě tady se ukazuje zásadní rozdíl mezi teorií a realitou produkčního nasazení.
Rozdíl v podpoře inference frameworků je nejmarkantnější. Podívejte se na přehled, který vychází z oficiální dokumentace a zkušeností z testování.
| Framework | NVIDIA (CUDA) | AMD (ROCm) | Poznámka |
|---|---|---|---|
| vLLM | nativní pip balíček | nutné stavět ze zdroje | žádný ROCm pip balíček, Python 3.13 nepodporován |
| SGLang | nativní pip | nutné stavět ze zdroje | vyžaduje setup_rocm.py, GRUB úpravy |
| llama.cpp | CUDA (rychlé) | ROCm/hip + Vulkan | nejlepší AMD podpora |
| Ollama | nativní | funguje, občas problémy | menší komunita, pomalejší opravy |
| LM Studio | nativní | často selže | ROCm detekce na Linuxu problémová |
Nejzřetelněji je rozdíl vidět na vLLM. U NVIDIA stačí pip install vllm a máte hotovo. U AMD musíte stavět ze zdroje přes Dockerfile.rocm, řešit Python verzi a počkat, až se kompilace dokončí. Podobně je na tom SGLang, kde jsou sice ROCm 7.2 zmínky z června 2026, ale pořád jsou potřeba GRUB úpravy a ruční konfigurace NUMA balanced.
Pro AMD SGLang jsou potřeba následující systémové úpravy, které u NVIDIA nejsou třeba vůbec.
# Upravit /etc/default/grub a přidat do GRUB_CMDLINE_LINUX:
pci=realloc=off iommu=pt
# Poté spustit:
sudo update-grub
# Zakázat NUMA auto-balancing:
sudo sh -c 'echo 0 > /proc/sys/kernel/numa_balancing'
U NVIDIA žádné takové úpravy nejsou potřeba. Prostě nainstalujete a jedete.
ZLuda prošla v posledních měsících výrazným vylepšením. ROCm 7 podpora přišla koncem roku 2025, plná podpora llama.cpp je téměř na úrovni nativního ROCm backendu, a na Windows je situace lepší než dříve. To všechno zní nadějně.
Jenže ZLuda má jednu zásadní limitaci, kterou potvrzuje i jejich dokumentace: PyTorch podpora je stále ve vývoji. ZLuda funguje pro aplikace, které volají CUDA přímo, jako llama.cpp. Pro frameworky postavené na PyTorch interních CUDA vazbách, typicky vLLM, ZLuda nefunguje. Právě to je důvod, proč vám vLLM + ZLuda nepůjde rozjet.
Úspora VRAM přes kvantizaci je pro LLM nasazení zásadní. Ale i tady AMD zaostává, respektive nabízí pomalejší cestu. Podívejte se na přehled kompatibility kvantizačních metod.
| Metoda kvantizace | NVIDIA | AMD |
|---|---|---|
| FP8 | nativní | Aiter/Triton (funguje) |
| AWQ | Marlin (rychlé) | Triton dequant (pomalejší) |
| GPTQ | nativní | hit-and-miss na ROCm 6.3 |
| MXFP4 | nativní | pouze CDNA3/CDNA4 |
| W8A8 | nativní | funguje |
| awq_marlin | funguje | nefunguje |
| gptq_marlin | funguje | nefunguje |
| gguf | funguje | nefunguje |
| modelopt_fp8/fp4 | funguje | nefunguje |
Klíčový rozdíl je u AWQ. Na NVIDIA existuje optimalizovaný Marlin kernel, který je výrazně rychlejší. Na AMD musíte použít Triton dequantizaci, tedy pomalejší cestu. Pro DeepSeek-V3/R1 nebo jiné předkvantifikované FP8 modely to na AMD funguje out-of-the-box, ale pro vlastní kvantizaci nebo použití Marlin kernely se nedostanete.
U NVIDIA je celý proces podstatně přímočařejší. vLLM nainstalujete přes pip, máte Python 3.13 podporu a můžete začít. SGLang jede na pip bez dodatečných úprav. AWQ s Marlin kernely funguje out-of-the-box.
Především ale nepotřebujete žádné GRUB úpravy, žádné NUMA balancing hacky, žádné kompilace ze zdroje. Celý stack funguje na standardních balíčkovacích nástrojích. A pokud něco nefunguje, komunita a dokumentace NVIDIA je podstatně rozsáhlejší, což znamená rychlejší řešení problémů.
„Hned na začátku jsme vsadili na ty nejlepší technologie od NVIDIA a nehledali kompromisy v levnějších řešeních. Toto rozhodnutí se nám jednoznačně vyplatilo a díky němu nadále určujeme trend na poli AI GPU serverů v ČR. Ukazuje se, že pro AMD bude cesta do reálného produkčního nasazení ještě hodně dlouhá. Vidina toho, že za zlomek ceny dostanete na papíře to samé co u NVIDIA, je sice lákavá, ale ve výsledku neušetříte nic – spíše naopak. Výsledky našeho testu to jasně potvrdily.“
Přesvědčte se sami o síle nejvýkonnější AI GPU na trhu. Otestujte RTX PRO 6000 a plaťte až po vyzkoušení. Na AI/GPU serveru rozjedete vLLM, SGLang i llama.cpp bez kompilace, bez GRUB úprav a bez laborování.
Chci vyzkoušet AI/GPU server
NVIDIA je praktická volba, pokud vám záleží na rychlosti nasazení a stabilním provozu bez překvapení.
Existují samozřejmě scénáře, kde může dávat ekonomický smysl investovat čas do ROCm nastavení.
| Aspekt | NVIDIA CUDA | AMD ROCm |
|---|---|---|
| Instalace vLLM | pip install vllm |
nutné stavět ze zdroje |
| Python verze | 3.9 az 3.13 | 3.9 az 3.12 (bez 3.13) |
| OS podpora | Ubuntu, Debian, RHEL, Windows | Ubuntu, RHEL (Debian omezené) |
| Systémové úpravy | žádné | GRUB, NUMA, HSA_OVERRIDE |
| AWQ rychlost | Marlin (rychlé) | Triton (pomalejší) |
| Čas na produkci | hodiny | dny az týdny |
Shrnuto jednoduše: NVIDIA = plug-and-play, AMD = ušetříte peníze, ale strávíte čas. Pro většinu firemních nasazení, kde jede o rychlou implementaci a stabilní provoz, je NVIDIA jednoznačná volba. AMD má smysl pro specifické scénáře nasazení, kde vám jde primárně o maximální VRAM za minimální peníze a máte kapacitu na debugování ROCm.
Nečekejte na finální rozhodnutí. Na AI/GPU serveru otestujte reálný výkon na vašem modelu, vašem kontextu a vašem počtu uživatelů. Rozdíl mezi NVIDIA a AMD v praxi poznáte rychle, a to bez jediného dne laborování.
Chci otestovat NVIDIA RTX PRO 6000
Pro většinu produkčních nasazení, kde chcete rychle rozjet inference, stabilní provoz a širokou podporu frameworků, je však NVIDIA praktičtější volba. Rozdíl v ceně za hardware se vám může vrátit v podobě ušetřených hodin strávených nastavováním a debugováním.
AMD může dávat smysl, pokud máte specifické požadavky na maximální VRAM za dostupnou cenu a jste připravení investovat čas do nastavení ROCm.
Objednejte AI/GPU server s NVIDIA RTX PRO 6000 Blackwell na 7 dní ZDARMA a otestujte vlastní model na připraveném prostředí. Právě praktický test na vašem workloadu vám dá nejlepší odpověď.
Napište nám a připravíme vám srovnání pro váš konkrétní scénář nasazení. Ať už řešíte menší interní API, nebo produkční nasazení pro desítky uživatelů, poradíme s výběrem konfigurace.