Stavíme efektivní GPU server: Kolik grafických karet zvolit pro různé LLM modely?

Obsah

Úvod
Co jsme testovali a proč je to důležité
Jak benchmark číst: nejde jen o maximální tokeny za sekundu
Test 1: Bez predikce více tokenů (nejčistší pohled na poměr výkonu a ceny)
Test 2: Se zapnutou predikcí více tokenů (vyšší špičková rychlost, ale ne vždy lepší praxe)
Test 3: Dlouhý kontext (proč bývá výhodnější vypnutá predikce)
Srovnání vypnuté a zapnuté predikce podle počtu GPU
KV cache: hlavní důvod, proč 4x GPU stále dává smysl
Velká VRAM otevírá cestu k výrazně větším modelům
Kdy zvolit 1x GPU, 2x GPU nebo 4x GPU
Shrnutí: co se vyplatí nejvíce

Sdílejte článek

Mohlo by vás dále zajímat

Nenašli jste co jste hledali?

Kontaktujte nás

Kolik GPU se vám pro vLLM opravdu vyplatí, když vám nejde jen o hezký benchmark, ale reálný výkon pro více uživatelů a delší kontext? Otestovali jsme menší model Qwen3.6-27B-FP8 na NVIDIA RTX PRO 6000 Blackwell v konfiguraci 1x GPU, 2x GPU a 4x GPU, a právě zde je dobře vidět zásadní rozdíl mezi maximálním "marketingovým" výkonem na papíře a rozumnou investicí.

Poslechněte si článek v audio verzi. Powered by ZonerCloud

0:00 0:00

1.0x

Co jsme testovali a proč je to důležité

Tentokrát jsme nešli po největším dostupném modelu, ale po menším a praktičtějším nasazení. Model Qwen3.6-27B-FP8 je přesně ten typ LLM, který si řada z vás dokáže představit v interním AI API, firemním chatbotu nebo automatizaci nad delšími dokumenty. Právě u takového modelu dává smysl řešit, jestli si vystačíte s jednou kartou, jestli se vyplatí přidat druhou, nebo zda už dává smysl jít rovnou do 4x GPU.

Všechny testy běžely na RTX PRO 6000 Blackwell s 96 GB VRAM na kartu. Porovnávali jsme výkon při krátkém 1K kontextu, ale i delších 10K, 50K a 100K kontextech. Současně jsme otestovali i varianty se zapnutým/vypnutým MTP. Díky tomu je dobře vidět nejen maximální rychlost, ale i to, jak se jednotlivé konfigurace chovají při delším kontextu a více paralelních požadavcích.

RTX PRO 6000 Blackwell k okamžitému pronájmu

Chcete si ověřit, jestli je pro vás lepší 2x GPU nebo 4x GPU? Objednejte AI/GPU server, spusťte vlastní vLLM benchmarky a otestujte reálný výkon bez čekání na nový hardware.

Objednejte testovací AI/GPU server

RTX PRO 6000 Blackwell skladem k okamžitému pronájmu

Jak benchmark číst: nejde jen o maximální tokeny za sekundu

U malého a středního modelu je snadné nechat se zlákat jen nejvyšším číslem v benchmarku. Jenže samotná maximální rychlost nestačí. V praxi vás zajímá také TTFT, tedy za jak dlouho model začne odpovídat, a také to, jak se rychlost chová při delším kontextu. Právě tam se ukazuje, že některá nastavení vypadají skvěle při krátkém promptu, ale při delším kontextu nebo vyšší souběžnosti začnou ztrácet.

Při analýze výsledků je proto užitečné zaměřit se na dva odlišné aspekty. Zaprvé, kolik výkonu přidá další GPU při krátkém kontextu. Zadruhé, jak dobře si konfigurace drží výkon u delších promptů a při více uživatelích. A právě zde začíná být vidět, proč je 2x GPU zlatý střed a proč 4x GPU dává smysl hlavně tam, kde chcete vyšší souběžnost, větší paměťovou rezervu a provoz náročnějších modelů.

Přesná metodika benchmarku, testovací prompt a matici všech testů

Všechny testy běžely na stejném modelu Qwen/Qwen3.6-27B-FP8 a na stejném typu karet RTX PRO 6000 Blackwell 96 GB. Měnili jsme pouze počet GPU, stav MTP, délku kontextu a souběžnost. Díky tomu lze výsledky mezi sebou porovnat přímo.

Pro benchmarky 1K context jsme měřili souběžnost 1, 8, 32 a 64 aktivních uživatelů. Pro benchmarky 10K, 50K a 100K context jsme měřili 1 uživatele, aby bylo čistě vidět, jak se mění rychlost generování s délkou promptu a se zapnutým nebo vypnutým MTP.

Warmup byl zapnutý před každým měřením. Krátké běhy používaly MAX_TOKENS = 1 000, delší testy s 50K a 100K kontextem používaly MAX_TOKENS = 500, protože tam už šlo hlavně o chování modelu při delším kontextu, ne o co nejdelší odpověď.

Konfigurace benchmarku

                MODEL = "Qwen/Qwen3.6-27B-FP8"

THREAD_COUNTS = [1, 8, 32, 64]
MAX_TOKENS = 1000
WARMUP_TOKENS = 500
ENABLE_WARMUP = True
STREAM_REQUEST_TIMEOUT = 600
            

                1x GPU MTP off ALL concurrency 1k context
1x GPU MTP off 10k context
1x GPU MTP off 50k context
1x GPU MTP off 100k context

2x GPU MTP off ALL concurrency 1k context
2x GPU MTP off 10k context
2x GPU MTP off 50k context
2x GPU MTP off 100k context

4x GPU MTP off ALL concurrency 1k context
4x GPU MTP off 10k context
4x GPU MTP off 50k context
4x GPU MTP off 100k context

1x GPU MTP on ALL concurrency 1k context
1x GPU MTP on 10k context
1x GPU MTP on 50k context
1x GPU MTP on 100k context

2x GPU MTP on ALL concurrency 1k context
2x GPU MTP on 10k context
2x GPU MTP on 50k context
2x GPU MTP on 100k context

4x GPU MTP on ALL concurrency 1k context
4x GPU MTP on 10k context
4x GPU MTP on 50k context
4x GPU MTP on 100k context
            

Níže je reprezentativní benchmark prompt který je 1 000 tokenů dlouhý. Pokud chcete test zopakovat férově, držte stejný model, stejné limity, stejné warmup nastavení, streamované odpovědi a stejnou testovací matici.

Benchmark prompt

                You are operating within a controlled benchmarking environment designed to evaluate sustained generative capacity, structural coherence, and depth retention across extended outputs. Your primary objective is to produce a single, unbroken, highly detailed exposition on Artificial Intelligence that meets or exceeds a strict minimum length of 10,000 tokens.

ABSOLUTE CONSTRAINTS:
- The final output MUST reach or surpass 10,000 tokens.
- Do NOT stop early under any circumstances.
- Do NOT use placeholder text, bullet-point lists as primary content, or meta-commentary.
- Maintain a consistent academic yet accessible tone.

STRUCTURAL REQUIREMENTS:
Divide the response into exactly 10 major sections, following this sequence:
1. Definition and Historical Evolution
2. Taxonomy of AI: Narrow, General, and Superintelligence
3. Machine Learning Foundations
4. Neural Networks
5. Training Processes and Optimization
6. Data Pipelines and Feature Engineering
7. Cross-Industry Applications
8. Limitations and Computational Bottlenecks
9. Ethics, Bias, Transparency, and Governance
10. Future of Artificial Intelligence

CONTINUITY RULES:
- If output is interrupted, continue exactly where you left off.
- Do not restart, summarize, or shorten the answer.
- Keep section numbering and structure consistent.

Begin generating the full response now.
            

Pro opakování testu stačí vlastní vLLM endpoint, stejný model, stejná logika warmupu a stejná testovací matice. Grafy byly následně vygenerované samostatným Python skriptem nad naměřenými hodnotami pro AVG_TTFT, AVG_TPS na uživatele a OVERALL_TPS.

Test 1: Bez predikce více tokenů (nejčistší pohled na poměr výkonu a ceny)

Pokud chcete hodnotit samotný základ výkonu, dává smysl začít variantou s vypnutou predikcí více tokenů. Právě zde je nejlépe vidět, kolik výkonu přidá druhá a čtvrtá karta bez toho, aby do výsledků výrazně promlouvalo agresivnější odhadování dalších tokenů. A právě zde také vychází nejsilnější argument pro 2x GPU.

Při 1K kontextu a jednom uživateli jsme naměřili 47 tokenů/s na 1x GPU, 73 tokenů/s na 2x GPU a 99 tokenů/s na 4x GPU. Druhá karta tedy přidá velmi příjemných 55 %, zatímco přechod ze 2x GPU na 4x GPU už přidá jen dalších přibližně 36 %. Pokud cena roste téměř lineárně s počtem karet, právě zde je vidět, proč je 2x GPU nejsilnější volba pro běžné nasazení.

Průměrný počet tokenů za sekundu na uživatele při MTP OFF a 1K contextu

Celkový throughput při MTP OFF a 1K contextu

Na hlavním grafu je dobře vidět, že 4x GPU sice vítězí ve všech bodech, ale rozdíl proti 2x GPU už není tak dramatický jako rozdíl mezi 1x GPU a 2x GPU. Podpůrné grafy zároveň ukazují, že TTFT se bez zapnuté predikce drží velmi rozumně a celkový throughput roste podle očekávání s vyšší souběžností. Jinými slovy, 2x GPU je velmi dobrý kompromis pro většinu produkčních API, zatímco 4x GPU začíná být obhajitelné hlavně tehdy, pokud opravdu využijete vyšší souběžnost nebo chcete větší rezervu do budoucna.

Test 2: Se zapnutou predikcí více tokenů (vyšší špičková rychlost, ale ne vždy lepší praxe)

Když predikci více tokenů zapnete, papírově dostanete výrazně vyšší rychlost při krátkém kontextu. U jednoho uživatele vyskočí výkon na 84 tokenů/s u 1x GPU, 126 tokenů/s u 2x GPU a 162 tokenů/s u 4x GPU. To vypadá skvěle a pro krátké promptování nebo situace, kde potřebujete co nejvyšší okamžitou rychlost, je to zajímavé.

Jenže současně se zhoršuje latence při více uživatelích. Například při osmi aktivních uživatelích roste TTFT na 824 ms, 1 229 ms a 1 000 ms. Ve variantě bez této predikce byly stejné hodnoty pouze 188 ms, 161 ms a 146 ms. To je obrovský rozdíl v pocitu z odezvy.

Průměrný počet tokenů za sekundu na uživatele při MTP ON a 1K contextu

Celkový throughput při MTP ON a 1K contextu

Zapnutá predikce tedy není špatně. Jen je potřeba ji číst správně. Pokud chcete co nejvyšší krátkodobý throughput při menším kontextu, umí přidat velmi pěkná čísla. Pokud vám ale záleží na stabilnější odezvě a reálné práci s delším kontextem, přestává být výhoda tak jednoznačná. Proto jsme další část benchmarku postavili právě na délce kontextu.

Vyzkoušejte RTX PRO 6000 Blackwell pro vLLM

Nečekejte na teoretická čísla. Spusťte vlastní model, vlastní context window a vlastní počet uživatelů na našem AI/GPU serveru. Právě při takovém testu rychle poznáte, jestli vám stačí 2x GPU, nebo už využijete výhodu 4x GPU.

Objednejte AI/GPU server

Vyzkoušejte RTX PRO 6000 Blackwell pro vLLM

Test 3: Dlouhý kontext (proč bývá výhodnější vypnutá predikce)

Tohle je jedna z nejzajímavějších částí celého testu. Jakmile se dostanete na 50K nebo 100K kontext, začíná být velmi dobře vidět, že varianta bez predikce více tokenů se zpomaluje podstatně méně než režim se zapnutou predikcí. A to je důležité, protože právě delší kontext bývá v reálném nasazení velmi drahý na paměť i na výkon.

Na 2x GPU bez predikce klesne rychlost z 73 tokenů/s při 1K na 62 tokenů/s při 100K. Na 4x GPU klesne z 99 tokenů/s na 90 tokenů/s. To je velmi dobrý výsledek. Se zapnutou predikcí je propad mnohem tvrdší. Na 2x GPU padá výkon ze 126 tokenů/s na 30 tokenů/s, na 4x GPU ze 162 tokenů/s na 33 tokenů/s.

Vliv délky kontextu na průměrnou rychlost při MTP OFF

Vliv délky kontextu na průměrnou rychlost při MTP ON

Praktický závěr: Pokud čekáte dlouhé vstupy, velké dokumenty, RAG nad rozsáhlým kontextem nebo více požadavků s delším promptem, je velmi rozumné benchmarkovat i variantu bez predikce více tokenů. U krátkého kontextu totiž může zapnutá predikce vypadat skvěle, ale u dlouhého kontextu se výhoda často ztrácí, nebo se dokonce obrací proti ní.

Právě zde je vidět další důvod, proč je volba 2x GPU tak zajímavá. Bez zapnuté predikce drží i při dlouhém kontextu stále velmi použitelnou rychlost a současně už nabízí podstatně větší paměťovou rezervu než jedna karta. Pro většinu firemních use case je to praktičtější než honit extrémní krátké benchmarky se zapnutou predikcí.

Srovnání vypnuté a zapnuté predikce podle počtu GPU

Následující trojice grafů ukazuje totéž z jiného úhlu. Každý graf patří jedné GPU a porovnává, jak se chová vypnutá a zapnutá predikce více tokenů napříč délkou kontextu. Nejzajímavější je prostřední graf pro 2x GPU, neboť právě ten nejlépe reprezentuje konfiguraci, která se podle dat vyplatí nejčastěji.

MTP OFF vs ON při 2x GPU napříč různými délkami kontextu

MTP OFF vs ON při 1x GPU napříč různými délkami kontextu

MTP OFF vs ON při 4x GPU napříč různými délkami kontextu

Na 1x GPU ještě zapnutá predikce dává smysl při krátkém kontextu, ale u 100K už spadne rychlost na pouhých 28 tokenů/s, zatímco varianta bez predikce drží 38 tokenů/s. Na 2x GPU je rozdíl ještě výmluvnější: 62 tokenů/s bez predikce proti 30 tokenům/s se zapnutou predikcí při 100K kontextu. A na 4x GPU je výsledek nejtvrdší, 90 tokenů/s bez predikce proti 33 tokenům/s se zapnutou predikcí.

Pokud to shrneme jednoduše, zapnutá predikce je výborná pro krátké a rychlé scénáře, vypnutá predikce je jistější volba pro dlouhý kontext. A právě proto je dobré mít při návrhu serveru dost paměti a dost GPU, aby si člověk mohl zvolit nastavení podle workloadu a nebyl tlačený jen jedním benchmarkem.

Z pohledu reálného nasazení se proto jako velmi chytrý návrh nabízí systém složený ze dvou 2x GPU uzlů. Na první 2x GPU konfiguraci můžete nechat zapnutou predikci více tokenů a obsluhovat na ní kratší requesty do 10K kontextu. Před obě varianty pak stačí postavit proxy, která bude požadavky automaticky směrovat podle délky vstupu. Kratší prompty pošle na rychlejší variantu se zapnutou predikcí, delší vstupy nad 10K na druhou 2x GPU variantu bez predikce, která si výrazně lépe drží výkon na dlouhém kontextu. V praxi tak získáte velmi rozumnou kombinaci rychlosti pro krátké dotazy pro náročnější práci s delšími dokumenty.

KV cache: hlavní důvod, proč 4x GPU stále dává smysl

Čistá rychlost generování není jediný důvod, proč přidávat GPU. Ve skutečném provozu je často ještě důležitější velikost KV cache. Čím více GPU máte, tím více prostoru získáte pro velké kontexty a paralelní požadavky. A to je vlastnost, kterou běžný benchmark jedním číslem často vůbec neukáže.

Konfigurace	GPU KV cache size	Maximum uživatelů kteří vytiží kontext na max
1x GPU	980 000 tokenů	4x
2x GPU	2 470 000 tokenů	9x
4x GPU	5 405 000 tokenů	21x

To znamená, že se 4x GPU dokážete obsloužit zhruba 20 uživatelů současně i v případě, že každý z nich přijde s plným 262K kontextem. To je velmi silný argument pro produkční nasazení. V reálném provozu navíc většina uživatelů nebude využívat úplně celý kontext, takže skutečná kapacita může být ještě vyšší.

Právě tady je potřeba číst data správně. 2x GPU vyhrává poměr ceny a rychlosti. 4x GPU ale vyhrává tam, kde je důležitá robustnost, dlouhé context windows, více současných požadavků a menší riziko, že se dostanete na limit paměti příliš brzy.

Matyho TIP:
Zapomeňte na nekonečné fronty a pořadníky na grafické karty. Zatímco ostatní na hardware stále čekají, my máme dostatek výkonných GPU karet skladem k okamžitému pronájmu . Neztrácejte drahocenný čas, začněte trénovat a provozovat své LLM modely hned!

Velká VRAM otevírá cestu k výrazně větším modelům

Se 4x GPU už se nebavíme pouze o Qwen 27B. Dohromady totiž získáte 384 GB VRAM, tedy 96 GB × 4. A právě to otevírá prostor pro modely, které jsou pro menší konfigurace mimo hru, nebo dávají smysl jen s výraznými kompromisy.

V praxi jsme takto rozběhli i další velké modely, které ukazují, kam se dá s podobnou konfigurací posunout. Nejde tedy jen o vyšší throughput na Qwenu, ale i o to, že si s větší VRAM můžete dovolit mnohem ambicióznější AI stack.

MiniMax-M2.7 - 230 B total parameters, 10 B active parameters
DeepSeek-V4-Flash - 284 B total parameters, 13 B activated parameters, až 1 M context
MiMo-V2.5 - Sparse MoE, 310 B total parameters, 15 B activated parameters, až 1 M context

Pokud tedy dnes stavíte server jen pro jeden konkrétní model, může se vám zdát 4x GPU zbytečné. Pokud ale chcete nechat otevřené dveře pro větší MoE modely, delší kontext a vyšší souběžnost, je to už úplně jiný typ infrastruktury.

Kdy zvolit 1x GPU, 2x GPU nebo 4x GPU

Kdy dává smysl 1x GPU

První testy a prototypy - pokud chcete rozumný vstupní bod bez větší investice
Menší počet uživatelů - pro lehčí interní použití může být výkon dostačující
Jednodušší workload - kratší prompty, menší souběžnost a nižší nároky na KV cache

Doporučujeme

Proč je 2x GPU nejvýhodnější volba

Nejlepší poměr ceny a rychlosti - skok z 47 na 73 tokenů/s je v praxi velmi znatelný
Výrazně větší KV cache - zvládnete přibližně 9 plnohodnotných requestů najednou
Lepší dlouhý kontext bez MTP - i při 100K contextu zůstává rychlost velmi použitelná
Rozumná produkční rezerva - dost výkonu pro API, ale bez přestřelené ceny

Přejít do konfigurátoru GPU serveru.

Kdy už se vyplatí 4x GPU

Vysoká souběžnost - vyšší celkový throughput a podstatně větší paměťová rezerva
Dlouhé context windows - kolem 21 plných 262K requestů najednou už je velmi silný parametr
Větší modely a MoE - 384 GB VRAM otevírá prostor pro třídu modelů, kam se menší sestavy nedostanou
Budoucí růst - pokud víte, že workload poroste, 4x GPU vám dá klidnější rezervu

Co od 4x GPU nečekat

Nejlepší poměr ceny a rychlosti pro menší model - u Qwen 27B vychází nejlépe 2x GPU
Lineární škálování výkonu - 4 karty nepřinesou 4násobek rychlosti proti 1 kartě
Automaticky nejlepší nastavení - bez správné práce s MTP a kontextem můžete o část výkonu zbytečně přijít

Matyho TIP:
Pokud vám jde čistě o poměr cena/výkon, data mluví jasně pro 2x GPU. Pokud ale řešíte dlouhé kontexty, více aktivních uživatelů současně nebo chcete otevřít cestu k výrazně větším modelům, 4x GPU má stále velmi silný praktický smysl.

Konfigurace	Rychlost při 1 uživateli	Zisk výkonu	KV cache	262K kontext naráz	Praktický závěr
1x GPU	47 tokenů/s	základ	980 000 tokenů	4 uživatelé	Dobrá vstupní varianta, ale výkonová rezerva je omezená.
2x GPU	73 tokenů/s	+55 %	2 470 000 tokenů	9 uživatelů	Nejlepší poměr ceny, rychlosti a použitelnosti v praxi.
4x GPU	99 tokenů/s	+111 %	5 405 000 tokenů	21 uživatelů	Nejlepší pro vysokou souběžnost, velkou KV cache a větší modely.

Shrnutí: co se vyplatí nejvíce

Pokud chcete z menšího modelu Qwen dostat co nejlepší poměr cena výkon, vyplatí se nejvíce 2x GPU. Získáte výrazný skok proti 1x GPU, větší KV cache, lepší rezervu pro více uživatelů a přitom se ještě nedostáváte do situace, kdy za další karty platíte více, než kolik vám vrátí v rychlosti.

4x GPU ale rozhodně není slepá ulička. Jen je potřeba ho prodávat poctivě. U Qwen 27B není nejvýhodnější jen na samotné tokeny za sekundu. Dává však velmi dobrý smysl ve chvíli, kdy řešíte dlouhé kontexty, vyšší souběžnost, velkou KV cache a budoucí přechod na výrazně větší modely. A právě to je důvod, proč může být 4x GPU správná volba pro náročnější produkční infrastrukturu.

Začněte tedy podle reálného workloadu. Pro většinu firemních deploymentů volte 2x GPU. Pakliže ale chcete maximum prostoru pro růst, robustní API a velké modely, objednejte 4x GPU server pro vLLM.

Chcete s výběrem přesto poradit?
Jsme vám k dispozici!

Napište nám a připravíme vám vhodné řešení pro menší i velké jazykové modely, delší kontexty i vlastní AI API.

Přehled aktualit

Cloud Server VPS

Cloud Server VPS Dedicated

Cloud Server VPS + LAMP

Cloud Server Ekonom

Cloud Server Nextcloud

Cloud Server Webhosting

Cloud Server WordPress

Cloud Server Managed Windows

Cloud Mail

Cloud Newsleter

Cloud Disk

AI/GPU Server

Pronájem LLM s API

Inference AI Cloud s API

Zoner AI Image Creator

Zoner AI Editor

AirGPT

Technologie a datacentra

Virtualizace

Software

Grafické karty pro AI/GPU služby

Zálohování dat

Zákaznická administrace

SSL certifikát Basic DV

SSD Storage

DKIM

Nápověda

Pomocné nástroje

Platební metody

Ceník služeb

Licencování softwaru společnosti Microsoft

Garance dostupnosti

Garance vrácení platby

Srovnání výkonu serverů s konkurencí

Cloud Server vs. Azure

Kdo jsme

Udržitelnost a životní prostředí

Smluvní podmínky

Zákaznické reference

Stavíme efektivní GPU server: Kolik grafických karet zvolit pro různé LLM modely?

Obsah

Obsah

Sdílejte článek

Mohlo by vás dále zajímat

Nenašli jste co jste hledali?

Co jsme testovali a proč je to důležité

RTX PRO 6000 Blackwell k okamžitému pronájmu

Jak benchmark číst: nejde jen o maximální tokeny za sekundu

Přesná metodika benchmarku, testovací prompt a matici všech testů

Konfigurace benchmarku

Benchmark prompt

Test 1: Bez predikce více tokenů (nejčistší pohled na poměr výkonu a ceny)

Test 2: Se zapnutou predikcí více tokenů (vyšší špičková rychlost, ale ne vždy lepší praxe)

Vyzkoušejte RTX PRO 6000 Blackwell pro vLLM

Test 3: Dlouhý kontext (proč bývá výhodnější vypnutá predikce)

Srovnání vypnuté a zapnuté predikce podle počtu GPU

KV cache: hlavní důvod, proč 4x GPU stále dává smysl

Velká VRAM otevírá cestu k výrazně větším modelům

Kdy zvolit 1x GPU, 2x GPU nebo 4x GPU

Kdy dává smysl 1x GPU

Proč je 2x GPU nejvýhodnější volba

Kdy už se vyplatí 4x GPU

Co od 4x GPU nečekat

Shrnutí: co se vyplatí nejvíce

Chcete s výběrem přesto poradit? Jsme vám k dispozici!

Chcete s výběrem přesto poradit?
Jsme vám k dispozici!