Nejvýkonnější servery Nejvýkonnější servery
Papírové specifikace nových grafických karet od AMD vypadají skvěle a jejich cena láká k nákupu nebo pronájmu pro AI projekty. Dokáže ale softwarová platforma ROCm (nebo komunitní berlička ZLUDA) v reálném nasazení LLM modelů konkurovat zavedenému standardu NVIDIA CUDA? Vzali jsme karty řady Radeon W7900 a srovnali s NVIDIA CUDA na RTX PRO 6000 Blackwell. Výsledky testu vás možná překvapí.

Proč je instalace na AMD náročnější, než se zdá

Zaměřme se nejprve na to, co je pro AMD ROCm zásadní limitací: operační systém. AMD oficiálně podporuje pouze Ubuntu a distribuce založené na RHEL. Na Debianu buď stojíte před kompilací ze zdrojových kódů, nebo se spokojíte se starou verzí ROCm. apt-get balíčky pro Debian oficiálně neexistují. A toto omezení se netýká pouze distribuce jako takové, ale celého ekosystému frameworků, které na ni staví.

Maty

Matyho TIP:
Výběr GPU pro LLM inference není jen o papírových specifikacích nebo ceně za GB VRAM. Je to hlavně o tom, kolik času strávíte nastavováním, a kolik času ušetříte pro skutečnou práci s modely. Právě tady se ukazuje zásadní rozdíl mezi teorií a realitou produkčního nasazení.

Frameworky: kde NVIDIA vede na plné čáře

Rozdíl v podpoře inference frameworků je nejmarkantnější. Podívejte se na přehled, který vychází z oficiální dokumentace a zkušeností z testování.

Framework NVIDIA (CUDA) AMD (ROCm) Poznámka
vLLM nativní pip balíček nutné stavět ze zdroje žádný ROCm pip balíček, Python 3.13 nepodporován
SGLang nativní pip nutné stavět ze zdroje vyžaduje setup_rocm.py, GRUB úpravy
llama.cpp CUDA (rychlé) ROCm/hip + Vulkan nejlepší AMD podpora
Ollama nativní funguje, občas problémy menší komunita, pomalejší opravy
LM Studio nativní často selže ROCm detekce na Linuxu problémová

Nejzřetelněji je rozdíl vidět na vLLM. U NVIDIA stačí pip install vllm a máte hotovo. U AMD musíte stavět ze zdroje přes Dockerfile.rocm, řešit Python verzi a počkat, až se kompilace dokončí. Podobně je na tom SGLang, kde jsou sice ROCm 7.2 zmínky z června 2026, ale pořád jsou potřeba GRUB úpravy a ruční konfigurace NUMA balanced.

Pro AMD SGLang jsou potřeba následující systémové úpravy, které u NVIDIA nejsou třeba vůbec.

GRUB a NUMA nastavení
# Upravit /etc/default/grub a přidat do GRUB_CMDLINE_LINUX:
pci=realloc=off iommu=pt

# Poté spustit:
sudo update-grub

# Zakázat NUMA auto-balancing:
sudo sh -c 'echo 0 > /proc/sys/kernel/numa_balancing'

U NVIDIA žádné takové úpravy nejsou potřeba. Prostě nainstalujete a jedete.

ZLuda: zajímavá alternativa, ale s limity

ZLuda prošla v posledních měsících výrazným vylepšením. ROCm 7 podpora přišla koncem roku 2025, plná podpora llama.cpp je téměř na úrovni nativního ROCm backendu, a na Windows je situace lepší než dříve. To všechno zní nadějně.

Jenže ZLuda má jednu zásadní limitaci, kterou potvrzuje i jejich dokumentace: PyTorch podpora je stále ve vývoji. ZLuda funguje pro aplikace, které volají CUDA přímo, jako llama.cpp. Pro frameworky postavené na PyTorch interních CUDA vazbách, typicky vLLM, ZLuda nefunguje. Právě to je důvod, proč vám vLLM + ZLuda nepůjde rozjet.

Kvantizace na AMD: pomalejší cesta k úspoře paměti

Úspora VRAM přes kvantizaci je pro LLM nasazení zásadní. Ale i tady AMD zaostává, respektive nabízí pomalejší cestu. Podívejte se na přehled kompatibility kvantizačních metod.

Metoda kvantizace NVIDIA AMD
FP8 nativní Aiter/Triton (funguje)
AWQ Marlin (rychlé) Triton dequant (pomalejší)
GPTQ nativní hit-and-miss na ROCm 6.3
MXFP4 nativní pouze CDNA3/CDNA4
W8A8 nativní funguje
awq_marlin funguje nefunguje
gptq_marlin funguje nefunguje
gguf funguje nefunguje
modelopt_fp8/fp4 funguje nefunguje

Klíčový rozdíl je u AWQ. Na NVIDIA existuje optimalizovaný Marlin kernel, který je výrazně rychlejší. Na AMD musíte použít Triton dequantizaci, tedy pomalejší cestu. Pro DeepSeek-V3/R1 nebo jiné předkvantifikované FP8 modely to na AMD funguje out-of-the-box, ale pro vlastní kvantizaci nebo použití Marlin kernely se nedostanete.

NVIDIA CUDA: co dává plug-and-play zážitek

U NVIDIA je celý proces podstatně přímočařejší. vLLM nainstalujete přes pip, máte Python 3.13 podporu a můžete začít. SGLang jede na pip bez dodatečných úprav. AWQMarlin kernely funguje out-of-the-box.

Především ale nepotřebujete žádné GRUB úpravy, žádné NUMA balancing hacky, žádné kompilace ze zdroje. Celý stack funguje na standardních balíčkovacích nástrojích. A pokud něco nefunguje, komunita a dokumentace NVIDIA je podstatně rozsáhlejší, což znamená rychlejší řešení problémů.

„Hned na začátku jsme vsadili na ty nejlepší technologie od NVIDIA a nehledali kompromisy v levnějších řešeních. Toto rozhodnutí se nám jednoznačně vyplatilo a díky němu nadále určujeme trend na poli AI GPU serverů v ČR. Ukazuje se, že pro AMD bude cesta do reálného produkčního nasazení ještě hodně dlouhá. Vidina toho, že za zlomek ceny dostanete na papíře to samé co u NVIDIA, je sice lákavá, ale ve výsledku neušetříte nic – spíše naopak. Výsledky našeho testu to jasně potvrdily.“

Vyzkoušejte RTX PRO 6000 Blackwell až na 7 dní ZDARMA

Přesvědčte se sami o síle nejvýkonnější AI GPU na trhu. Otestujte RTX PRO 6000 a plaťte až po vyzkoušení. Na AI/GPU serveru rozjedete vLLM, SGLang i llama.cpp bez kompilace, bez GRUB úprav a bez laborování.

Chci vyzkoušet AI/GPU server
NVIDIA RTX PRO 6000 Blackwell k okamžitému pronájmu

Kdy dává smysl zvolit NVIDIA

NVIDIA je praktická volba, pokud vám záleží na rychlosti nasazení a stabilním provozu bez překvapení.

  • Rychlá implementace - pip install vLLM a funguje. Žádná kompilace, žádný Dockerfile, žádné čekání.
  • Produkční nasazení - stabilní pip wheel, široká komunita, rychlá podpora.
  • Širší framework podpora - vLLM, SGLang, Ollama, LM Studio. Vše funguje bez dodatečných úprav.
  • Rychlejší AWQ - Marlin kernely místo Triton dequant znamenají vyšší throughput při stejné kvantizaci.

Kdy AMD dává smysl

Existují samozřejmě scénáře, kde může dávat ekonomický smysl investovat čas do ROCm nastavení.

  • Max VRAM za méně peněz - podobná kapacita videopaměti za výrazně nižší cenu. Pokud máte čas a chuť laborovat, úspora je reálná.
  • MI300X v data centru - 192 GB HBM3, konkurenční nebo rychlejší než H100 na throughput, žádné tensor-paralel overhead pro velké modely. Tady AMD válí.
  • llama.cpp na ROCm - pokud chcete primárně llama.cpp, jde rozjet přímo na ROCm bez problémů.

Srovnání v kostce

Aspekt NVIDIA CUDA AMD ROCm
Instalace vLLM pip install vllm nutné stavět ze zdroje
Python verze 3.9 az 3.13 3.9 az 3.12 (bez 3.13)
OS podpora Ubuntu, Debian, RHEL, Windows Ubuntu, RHEL (Debian omezené)
Systémové úpravy žádné GRUB, NUMA, HSA_OVERRIDE
AWQ rychlost Marlin (rychlé) Triton (pomalejší)
Čas na produkci hodiny dny az týdny

Shrnuto jednoduše: NVIDIA = plug-and-play, AMD = ušetříte peníze, ale strávíte čas. Pro většinu firemních nasazení, kde jede o rychlou implementaci a stabilní provoz, je NVIDIA jednoznačná volba. AMD má smysl pro specifické scénáře nasazení, kde vám jde primárně o maximální VRAM za minimální peníze a máte kapacitu na debugování ROCm.

Vyzkoušejte NVIDIA RTX PRO 6000 Blackwell

Nečekejte na finální rozhodnutí. Na AI/GPU serveru otestujte reálný výkon na vašem modelu, vašem kontextu a vašem počtu uživatelů. Rozdíl mezi NVIDIA a AMD v praxi poznáte rychle, a to bez jediného dne laborování.

Chci otestovat NVIDIA RTX PRO 6000
NVIDIA RTX PRO 6000 Blackwell

Shrnutí

Pro většinu produkčních nasazení, kde chcete rychle rozjet inference, stabilní provoz a širokou podporu frameworků, je však NVIDIA praktičtější volba. Rozdíl v ceně za hardware se vám může vrátit v podobě ušetřených hodin strávených nastavováním a debugováním.

AMD může dávat smysl, pokud máte specifické požadavky na maximální VRAM za dostupnou cenu a jste připravení investovat čas do nastavení ROCm.

Objednejte AI/GPU server s NVIDIA RTX PRO 6000 Blackwell na 7 dní ZDARMA a otestujte vlastní model na připraveném prostředí. Právě praktický test na vašem workloadu vám dá nejlepší odpověď.

Potřebujete poradit s výběrem GPU?

Kontaktujte odborníka na AI GPU servery

Napište nám a připravíme vám srovnání pro váš konkrétní scénář nasazení. Ať už řešíte menší interní API, nebo produkční nasazení pro desítky uživatelů, poradíme s výběrem konfigurace.