Nejvýkonnější servery Nejvýkonnější servery
Kolik GPU se vám pro vLLM opravdu vyplatí, když vám nejde jen o hezký benchmark, ale reálný výkon pro více uživatelů a delší kontext? Otestovali jsme menší model Qwen3.6-27B-FP8 na NVIDIA RTX PRO 6000 Blackwell v konfiguraci 1x GPU, 2x GPU a 4x GPU, a právě zde je dobře vidět zásadní rozdíl mezi maximálním "marketingovým" výkonem na papíře a rozumnou investicí.
Maty
Poslechněte si článek v audio verzi.
0:00 0:00
1.0x

Co jsme testovali a proč je to důležité

Tentokrát jsme nešli po největším dostupném modelu, ale po menším a praktičtějším nasazení. Model Qwen3.6-27B-FP8 je přesně ten typ LLM, který si řada z vás dokáže představit v interním AI API, firemním chatbotu nebo automatizaci nad delšími dokumenty. Právě u takového modelu dává smysl řešit, jestli si vystačíte s jednou kartou, jestli se vyplatí přidat druhou, nebo zda už dává smysl jít rovnou do 4x GPU.

Všechny testy běžely na RTX PRO 6000 Blackwell96 GB VRAM na kartu. Porovnávali jsme výkon při krátkém 1K kontextu, ale i delších 10K, 50K100K kontextech. Současně jsme otestovali i varianty se zapnutým/vypnutým MTP. Díky tomu je dobře vidět nejen maximální rychlost, ale i to, jak se jednotlivé konfigurace chovají při delším kontextu a více paralelních požadavcích.

RTX PRO 6000 Blackwell k okamžitému pronájmu

Chcete si ověřit, jestli je pro vás lepší 2x GPU nebo 4x GPU? Objednejte AI/GPU server, spusťte vlastní vLLM benchmarky a otestujte reálný výkon bez čekání na nový hardware.

Objednejte testovací AI/GPU server
RTX PRO 6000 Blackwell skladem k okamžitému pronájmu

Jak benchmark číst: nejde jen o maximální tokeny za sekundu

U malého a středního modelu je snadné nechat se zlákat jen nejvyšším číslem v benchmarku. Jenže samotná maximální rychlost nestačí. V praxi vás zajímá také TTFT, tedy za jak dlouho model začne odpovídat, a také to, jak se rychlost chová při delším kontextu. Právě tam se ukazuje, že některá nastavení vypadají skvěle při krátkém promptu, ale při delším kontextu nebo vyšší souběžnosti začnou ztrácet.

Při analýze výsledků je proto užitečné zaměřit se na dva odlišné aspekty. Zaprvé, kolik výkonu přidá další GPU při krátkém kontextu. Zadruhé, jak dobře si konfigurace drží výkon u delších promptů a při více uživatelích. A právě zde začíná být vidět, proč je 2x GPU zlatý střed a proč 4x GPU dává smysl hlavně tam, kde chcete vyšší souběžnost, větší paměťovou rezervu a provoz náročnějších modelů.

Všechny testy běžely na stejném modelu Qwen/Qwen3.6-27B-FP8 a na stejném typu karet RTX PRO 6000 Blackwell 96 GB. Měnili jsme pouze počet GPU, stav MTP, délku kontextu a souběžnost. Díky tomu lze výsledky mezi sebou porovnat přímo.

Pro benchmarky 1K context jsme měřili souběžnost 1, 8, 32 a 64 aktivních uživatelů. Pro benchmarky 10K, 50K a 100K context jsme měřili 1 uživatele, aby bylo čistě vidět, jak se mění rychlost generování s délkou promptu a se zapnutým nebo vypnutým MTP.

Warmup byl zapnutý před každým měřením. Krátké běhy používaly MAX_TOKENS = 1 000, delší testy s 50K100K kontextem používaly MAX_TOKENS = 500, protože tam už šlo hlavně o chování modelu při delším kontextu, ne o co nejdelší odpověď.

Konfigurace benchmarku
MODEL = "Qwen/Qwen3.6-27B-FP8"

THREAD_COUNTS = [1, 8, 32, 64]
MAX_TOKENS = 1000
WARMUP_TOKENS = 500
ENABLE_WARMUP = True
STREAM_REQUEST_TIMEOUT = 600

Níže je reprezentativní benchmark prompt který je 1 000 tokenů dlouhý. Pokud chcete test zopakovat férově, držte stejný model, stejné limity, stejné warmup nastavení, streamované odpovědi a stejnou testovací matici.

Benchmark prompt
You are operating within a controlled benchmarking environment designed to evaluate sustained generative capacity, structural coherence, and depth retention across extended outputs. Your primary objective is to produce a single, unbroken, highly detailed exposition on Artificial Intelligence that meets or exceeds a strict minimum length of 10,000 tokens.

ABSOLUTE CONSTRAINTS:
- The final output MUST reach or surpass 10,000 tokens.
- Do NOT stop early under any circumstances.
- Do NOT use placeholder text, bullet-point lists as primary content, or meta-commentary.
- Maintain a consistent academic yet accessible tone.

STRUCTURAL REQUIREMENTS:
Divide the response into exactly 10 major sections, following this sequence:
1. Definition and Historical Evolution
2. Taxonomy of AI: Narrow, General, and Superintelligence
3. Machine Learning Foundations
4. Neural Networks
5. Training Processes and Optimization
6. Data Pipelines and Feature Engineering
7. Cross-Industry Applications
8. Limitations and Computational Bottlenecks
9. Ethics, Bias, Transparency, and Governance
10. Future of Artificial Intelligence

CONTINUITY RULES:
- If output is interrupted, continue exactly where you left off.
- Do not restart, summarize, or shorten the answer.
- Keep section numbering and structure consistent.

Begin generating the full response now.

Pro opakování testu stačí vlastní vLLM endpoint, stejný model, stejná logika warmupu a stejná testovací matice. Grafy byly následně vygenerované samostatným Python skriptem nad naměřenými hodnotami pro AVG_TTFT, AVG_TPS na uživateleOVERALL_TPS.

Test 1: Bez predikce více tokenů (nejčistší pohled na poměr výkonu a ceny)

Pokud chcete hodnotit samotný základ výkonu, dává smysl začít variantou s vypnutou predikcí více tokenů. Právě zde je nejlépe vidět, kolik výkonu přidá druhá a čtvrtá karta bez toho, aby do výsledků výrazně promlouvalo agresivnější odhadování dalších tokenů. A právě zde také vychází nejsilnější argument pro 2x GPU.

Při 1K kontextu a jednom uživateli jsme naměřili 47 tokenů/s na 1x GPU, 73 tokenů/s na 2x GPU a 99 tokenů/s na 4x GPU. Druhá karta tedy přidá velmi příjemných 55 %, zatímco přechod ze 2x GPU na 4x GPU už přidá jen dalších přibližně 36 %. Pokud cena roste téměř lineárně s počtem karet, právě zde je vidět, proč je 2x GPU nejsilnější volba pro běžné nasazení.

Na hlavním grafu je dobře vidět, že 4x GPU sice vítězí ve všech bodech, ale rozdíl proti 2x GPU už není tak dramatický jako rozdíl mezi 1x GPU a 2x GPU. Podpůrné grafy zároveň ukazují, že TTFT se bez zapnuté predikce drží velmi rozumně a celkový throughput roste podle očekávání s vyšší souběžností. Jinými slovy, 2x GPU je velmi dobrý kompromis pro většinu produkčních API, zatímco 4x GPU začíná být obhajitelné hlavně tehdy, pokud opravdu využijete vyšší souběžnost nebo chcete větší rezervu do budoucna.

Test 2: Se zapnutou predikcí více tokenů (vyšší špičková rychlost, ale ne vždy lepší praxe)

Když predikci více tokenů zapnete, papírově dostanete výrazně vyšší rychlost při krátkém kontextu. U jednoho uživatele vyskočí výkon na 84 tokenů/s u 1x GPU, 126 tokenů/s u 2x GPU a 162 tokenů/s u 4x GPU. To vypadá skvěle a pro krátké promptování nebo situace, kde potřebujete co nejvyšší okamžitou rychlost, je to zajímavé.

Jenže současně se zhoršuje latence při více uživatelích. Například při osmi aktivních uživatelích roste TTFT na 824 ms, 1 229 ms1 000 ms. Ve variantě bez této predikce byly stejné hodnoty pouze 188 ms, 161 ms146 ms. To je obrovský rozdíl v pocitu z odezvy.

Zapnutá predikce tedy není špatně. Jen je potřeba ji číst správně. Pokud chcete co nejvyšší krátkodobý throughput při menším kontextu, umí přidat velmi pěkná čísla. Pokud vám ale záleží na stabilnější odezvě a reálné práci s delším kontextem, přestává být výhoda tak jednoznačná. Proto jsme další část benchmarku postavili právě na délce kontextu.

Vyzkoušejte RTX PRO 6000 Blackwell pro vLLM

Nečekejte na teoretická čísla. Spusťte vlastní model, vlastní context window a vlastní počet uživatelů na našem AI/GPU serveru. Právě při takovém testu rychle poznáte, jestli vám stačí 2x GPU, nebo už využijete výhodu 4x GPU.

Objednejte AI/GPU server
Vyzkoušejte RTX PRO 6000 Blackwell pro vLLM

Test 3: Dlouhý kontext (proč bývá výhodnější vypnutá predikce)

Tohle je jedna z nejzajímavějších částí celého testu. Jakmile se dostanete na 50K nebo 100K kontext, začíná být velmi dobře vidět, že varianta bez predikce více tokenů se zpomaluje podstatně méně než režim se zapnutou predikcí. A to je důležité, protože právě delší kontext bývá v reálném nasazení velmi drahý na paměť i na výkon.

Na 2x GPU bez predikce klesne rychlost z 73 tokenů/s při 1K na 62 tokenů/s při 100K. Na 4x GPU klesne z 99 tokenů/s na 90 tokenů/s. To je velmi dobrý výsledek. Se zapnutou predikcí je propad mnohem tvrdší. Na 2x GPU padá výkon ze 126 tokenů/s na 30 tokenů/s, na 4x GPU ze 162 tokenů/s na 33 tokenů/s.

Praktický závěr: Pokud čekáte dlouhé vstupy, velké dokumenty, RAG nad rozsáhlým kontextem nebo více požadavků s delším promptem, je velmi rozumné benchmarkovat i variantu bez predikce více tokenů. U krátkého kontextu totiž může zapnutá predikce vypadat skvěle, ale u dlouhého kontextu se výhoda často ztrácí, nebo se dokonce obrací proti ní.

Právě zde je vidět další důvod, proč je volba 2x GPU tak zajímavá. Bez zapnuté predikce drží i při dlouhém kontextu stále velmi použitelnou rychlost a současně už nabízí podstatně větší paměťovou rezervu než jedna karta. Pro většinu firemních use case je to praktičtější než honit extrémní krátké benchmarky se zapnutou predikcí.

Srovnání vypnuté a zapnuté predikce podle počtu GPU

Následující trojice grafů ukazuje totéž z jiného úhlu. Každý graf patří jedné GPU a porovnává, jak se chová vypnutázapnutá predikce více tokenů napříč délkou kontextu. Nejzajímavější je prostřední graf pro 2x GPU, neboť právě ten nejlépe reprezentuje konfiguraci, která se podle dat vyplatí nejčastěji.

Na 1x GPU ještě zapnutá predikce dává smysl při krátkém kontextu, ale u 100K už spadne rychlost na pouhých 28 tokenů/s, zatímco varianta bez predikce drží 38 tokenů/s. Na 2x GPU je rozdíl ještě výmluvnější: 62 tokenů/s bez predikce proti 30 tokenům/s se zapnutou predikcí při 100K kontextu. A na 4x GPU je výsledek nejtvrdší, 90 tokenů/s bez predikce proti 33 tokenům/s se zapnutou predikcí.

Pokud to shrneme jednoduše, zapnutá predikce je výborná pro krátké a rychlé scénáře, vypnutá predikce je jistější volba pro dlouhý kontext. A právě proto je dobré mít při návrhu serveru dost paměti a dost GPU, aby si člověk mohl zvolit nastavení podle workloadu a nebyl tlačený jen jedním benchmarkem.

Z pohledu reálného nasazení se proto jako velmi chytrý návrh nabízí systém složený ze dvou 2x GPU uzlů. Na první 2x GPU konfiguraci můžete nechat zapnutou predikci více tokenů a obsluhovat na ní kratší requesty do 10K kontextu. Před obě varianty pak stačí postavit proxy, která bude požadavky automaticky směrovat podle délky vstupu. Kratší prompty pošle na rychlejší variantu se zapnutou predikcí, delší vstupy nad 10K na druhou 2x GPU variantu bez predikce, která si výrazně lépe drží výkon na dlouhém kontextu. V praxi tak získáte velmi rozumnou kombinaci rychlosti pro krátké dotazy pro náročnější práci s delšími dokumenty.

KV cache: hlavní důvod, proč 4x GPU stále dává smysl

Čistá rychlost generování není jediný důvod, proč přidávat GPU. Ve skutečném provozu je často ještě důležitější velikost KV cache. Čím více GPU máte, tím více prostoru získáte pro velké kontexty a paralelní požadavky. A to je vlastnost, kterou běžný benchmark jedním číslem často vůbec neukáže.

Konfigurace GPU KV cache size Maximum uživatelů kteří vytiží kontext na max
1x GPU 980 000 tokenů 4x
2x GPU 2 470 000 tokenů 9x
4x GPU 5 405 000 tokenů 21x

To znamená, že se 4x GPU dokážete obsloužit zhruba 20 uživatelů současně i v případě, že každý z nich přijde s plným 262K kontextem. To je velmi silný argument pro produkční nasazení. V reálném provozu navíc většina uživatelů nebude využívat úplně celý kontext, takže skutečná kapacita může být ještě vyšší.

Právě tady je potřeba číst data správně. 2x GPU vyhrává poměr ceny a rychlosti. 4x GPU ale vyhrává tam, kde je důležitá robustnost, dlouhé context windows, více současných požadavků a menší riziko, že se dostanete na limit paměti příliš brzy.

Maty

Matyho TIP:
Zapomeňte na nekonečné fronty a pořadníky na grafické karty. Zatímco ostatní na hardware stále čekají, my máme dostatek výkonných GPU karet skladem k okamžitému pronájmu . Neztrácejte drahocenný čas, začněte trénovat a provozovat své LLM modely hned!

Velká VRAM otevírá cestu k výrazně větším modelům

Se 4x GPU už se nebavíme pouze o Qwen 27B. Dohromady totiž získáte 384 GB VRAM, tedy 96 GB × 4. A právě to otevírá prostor pro modely, které jsou pro menší konfigurace mimo hru, nebo dávají smysl jen s výraznými kompromisy.

V praxi jsme takto rozběhli i další velké modely, které ukazují, kam se dá s podobnou konfigurací posunout. Nejde tedy jen o vyšší throughput na Qwenu, ale i o to, že si s větší VRAM můžete dovolit mnohem ambicióznější AI stack.

  • MiniMax-M2.7 - 230 B total parameters, 10 B active parameters
  • DeepSeek-V4-Flash - 284 B total parameters, 13 B activated parameters, až 1 M context
  • MiMo-V2.5 - Sparse MoE, 310 B total parameters, 15 B activated parameters, až 1 M context

Pokud tedy dnes stavíte server jen pro jeden konkrétní model, může se vám zdát 4x GPU zbytečné. Pokud ale chcete nechat otevřené dveře pro větší MoE modely, delší kontext a vyšší souběžnost, je to už úplně jiný typ infrastruktury.

Kdy zvolit 1x GPU, 2x GPU nebo 4x GPU

Kdy dává smysl 1x GPU

  • První testy a prototypy - pokud chcete rozumný vstupní bod bez větší investice
  • Menší počet uživatelů - pro lehčí interní použití může být výkon dostačující
  • Jednodušší workload - kratší prompty, menší souběžnost a nižší nároky na KV cache

Kdy už se vyplatí 4x GPU

  • Vysoká souběžnost - vyšší celkový throughput a podstatně větší paměťová rezerva
  • Dlouhé context windows - kolem 21 plných 262K requestů najednou už je velmi silný parametr
  • Větší modely a MoE - 384 GB VRAM otevírá prostor pro třídu modelů, kam se menší sestavy nedostanou
  • Budoucí růst - pokud víte, že workload poroste, 4x GPU vám dá klidnější rezervu

Co od 4x GPU nečekat

  • NeNejlepší poměr ceny a rychlosti pro menší model - u Qwen 27B vychází nejlépe 2x GPU
  • NeLineární škálování výkonu - 4 karty nepřinesou 4násobek rychlosti proti 1 kartě
  • NeAutomaticky nejlepší nastavení - bez správné práce s MTPkontextem můžete o část výkonu zbytečně přijít
Maty

Matyho TIP:
Pokud vám jde čistě o poměr cena/výkon, data mluví jasně pro 2x GPU. Pokud ale řešíte dlouhé kontexty, více aktivních uživatelů současně nebo chcete otevřít cestu k výrazně větším modelům, 4x GPU má stále velmi silný praktický smysl.

Konfigurace Rychlost při 1 uživateli Zisk výkonu KV cache 262K kontext naráz Praktický závěr
1x GPU 47 tokenů/s základ 980 000 tokenů 4 uživatelé Dobrá vstupní varianta, ale výkonová rezerva je omezená.
2x GPU 73 tokenů/s +55 % 2 470 000 tokenů 9 uživatelů Nejlepší poměr ceny, rychlosti a použitelnosti v praxi.
4x GPU 99 tokenů/s +111 % 5 405 000 tokenů 21 uživatelů Nejlepší pro vysokou souběžnost, velkou KV cache a větší modely.

Shrnutí: co se vyplatí nejvíce

Pokud chcete z menšího modelu Qwen dostat co nejlepší poměr cena výkon, vyplatí se nejvíce 2x GPU. Získáte výrazný skok proti 1x GPU, větší KV cache, lepší rezervu pro více uživatelů a přitom se ještě nedostáváte do situace, kdy za další karty platíte více, než kolik vám vrátí v rychlosti.

4x GPU ale rozhodně není slepá ulička. Jen je potřeba ho prodávat poctivě. U Qwen 27B není nejvýhodnější jen na samotné tokeny za sekundu. Dává však velmi dobrý smysl ve chvíli, kdy řešíte dlouhé kontexty, vyšší souběžnost, velkou KV cache a budoucí přechod na výrazně větší modely. A právě to je důvod, proč může být 4x GPU správná volba pro náročnější produkční infrastrukturu.

Začněte tedy podle reálného workloadu. Pro většinu firemních deploymentů volte 2x GPU. Pakliže ale chcete maximum prostoru pro růst, robustní API a velké modely, objednejte 4x GPU server pro vLLM.

Chcete s výběrem přesto poradit?
Jsme vám k dispozici
!

Kontaktujte odborníka na AI GPU servery

Napište nám a připravíme vám vhodné řešení pro menší i velké jazykové modely, delší kontexty i vlastní AI API.