Tentokrát jsme nešli po největším dostupném modelu, ale po menším a praktičtějším nasazení. Model Qwen3.6-27B-FP8 je přesně ten typ LLM, který si řada z vás dokáže představit v interním AI API, firemním chatbotu nebo automatizaci nad delšími dokumenty. Právě u takového modelu dává smysl řešit, jestli si vystačíte s jednou kartou, jestli se vyplatí přidat druhou, nebo zda už dává smysl jít rovnou do 4x GPU.
Všechny testy běžely na RTX PRO 6000 Blackwell s 96 GB VRAM na kartu. Porovnávali jsme výkon při krátkém 1K kontextu, ale i delších 10K, 50K a 100K kontextech. Současně jsme otestovali i varianty se zapnutým/vypnutým MTP. Díky tomu je dobře vidět nejen maximální rychlost, ale i to, jak se jednotlivé konfigurace chovají při delším kontextu a více paralelních požadavcích.
Chcete si ověřit, jestli je pro vás lepší 2x GPU nebo 4x GPU? Objednejte AI/GPU server, spusťte vlastní vLLM benchmarky a otestujte reálný výkon bez čekání na nový hardware.
Objednejte testovací AI/GPU server
U malého a středního modelu je snadné nechat se zlákat jen nejvyšším číslem v benchmarku. Jenže samotná maximální rychlost nestačí. V praxi vás zajímá také TTFT, tedy za jak dlouho model začne odpovídat, a také to, jak se rychlost chová při delším kontextu. Právě tam se ukazuje, že některá nastavení vypadají skvěle při krátkém promptu, ale při delším kontextu nebo vyšší souběžnosti začnou ztrácet.
Při analýze výsledků je proto užitečné zaměřit se na dva odlišné aspekty. Zaprvé, kolik výkonu přidá další GPU při krátkém kontextu. Zadruhé, jak dobře si konfigurace drží výkon u delších promptů a při více uživatelích. A právě zde začíná být vidět, proč je 2x GPU zlatý střed a proč 4x GPU dává smysl hlavně tam, kde chcete vyšší souběžnost, větší paměťovou rezervu a provoz náročnějších modelů.
Všechny testy běžely na stejném modelu Qwen/Qwen3.6-27B-FP8 a na stejném typu karet RTX PRO 6000 Blackwell 96 GB. Měnili jsme pouze počet GPU, stav MTP, délku kontextu a souběžnost. Díky tomu lze výsledky mezi sebou porovnat přímo.
Pro benchmarky 1K context jsme měřili souběžnost 1, 8, 32 a 64 aktivních uživatelů. Pro benchmarky 10K, 50K a 100K context jsme měřili 1 uživatele, aby bylo čistě vidět, jak se mění rychlost generování s délkou promptu a se zapnutým nebo vypnutým MTP.
Warmup byl zapnutý před každým měřením. Krátké běhy používaly MAX_TOKENS = 1 000, delší testy s 50K a 100K kontextem používaly MAX_TOKENS = 500, protože tam už šlo hlavně o chování modelu při delším kontextu, ne o co nejdelší odpověď.
MODEL = "Qwen/Qwen3.6-27B-FP8"
THREAD_COUNTS = [1, 8, 32, 64]
MAX_TOKENS = 1000
WARMUP_TOKENS = 500
ENABLE_WARMUP = True
STREAM_REQUEST_TIMEOUT = 600
Níže je reprezentativní benchmark prompt který je 1 000 tokenů dlouhý. Pokud chcete test zopakovat férově, držte stejný model, stejné limity, stejné warmup nastavení, streamované odpovědi a stejnou testovací matici.
You are operating within a controlled benchmarking environment designed to evaluate sustained generative capacity, structural coherence, and depth retention across extended outputs. Your primary objective is to produce a single, unbroken, highly detailed exposition on Artificial Intelligence that meets or exceeds a strict minimum length of 10,000 tokens.
ABSOLUTE CONSTRAINTS:
- The final output MUST reach or surpass 10,000 tokens.
- Do NOT stop early under any circumstances.
- Do NOT use placeholder text, bullet-point lists as primary content, or meta-commentary.
- Maintain a consistent academic yet accessible tone.
STRUCTURAL REQUIREMENTS:
Divide the response into exactly 10 major sections, following this sequence:
1. Definition and Historical Evolution
2. Taxonomy of AI: Narrow, General, and Superintelligence
3. Machine Learning Foundations
4. Neural Networks
5. Training Processes and Optimization
6. Data Pipelines and Feature Engineering
7. Cross-Industry Applications
8. Limitations and Computational Bottlenecks
9. Ethics, Bias, Transparency, and Governance
10. Future of Artificial Intelligence
CONTINUITY RULES:
- If output is interrupted, continue exactly where you left off.
- Do not restart, summarize, or shorten the answer.
- Keep section numbering and structure consistent.
Begin generating the full response now.
Pro opakování testu stačí vlastní vLLM endpoint, stejný model, stejná logika warmupu a stejná testovací matice. Grafy byly následně vygenerované samostatným Python skriptem nad naměřenými hodnotami pro AVG_TTFT, AVG_TPS na uživatele a OVERALL_TPS.
Pokud chcete hodnotit samotný základ výkonu, dává smysl začít variantou s vypnutou predikcí více tokenů. Právě zde je nejlépe vidět, kolik výkonu přidá druhá a čtvrtá karta bez toho, aby do výsledků výrazně promlouvalo agresivnější odhadování dalších tokenů. A právě zde také vychází nejsilnější argument pro 2x GPU.
Při 1K kontextu a jednom uživateli jsme naměřili 47 tokenů/s na 1x GPU, 73 tokenů/s na 2x GPU a 99 tokenů/s na 4x GPU. Druhá karta tedy přidá velmi příjemných 55 %, zatímco přechod ze 2x GPU na 4x GPU už přidá jen dalších přibližně 36 %. Pokud cena roste téměř lineárně s počtem karet, právě zde je vidět, proč je 2x GPU nejsilnější volba pro běžné nasazení.
Na hlavním grafu je dobře vidět, že 4x GPU sice vítězí ve všech bodech, ale rozdíl proti 2x GPU už není tak dramatický jako rozdíl mezi 1x GPU a 2x GPU. Podpůrné grafy zároveň ukazují, že TTFT se bez zapnuté predikce drží velmi rozumně a celkový throughput roste podle očekávání s vyšší souběžností. Jinými slovy, 2x GPU je velmi dobrý kompromis pro většinu produkčních API, zatímco 4x GPU začíná být obhajitelné hlavně tehdy, pokud opravdu využijete vyšší souběžnost nebo chcete větší rezervu do budoucna.
Když predikci více tokenů zapnete, papírově dostanete výrazně vyšší rychlost při krátkém kontextu. U jednoho uživatele vyskočí výkon na 84 tokenů/s u 1x GPU, 126 tokenů/s u 2x GPU a 162 tokenů/s u 4x GPU. To vypadá skvěle a pro krátké promptování nebo situace, kde potřebujete co nejvyšší okamžitou rychlost, je to zajímavé.
Jenže současně se zhoršuje latence při více uživatelích. Například při osmi aktivních uživatelích roste TTFT na 824 ms, 1 229 ms a 1 000 ms. Ve variantě bez této predikce byly stejné hodnoty pouze 188 ms, 161 ms a 146 ms. To je obrovský rozdíl v pocitu z odezvy.
Zapnutá predikce tedy není špatně. Jen je potřeba ji číst správně. Pokud chcete co nejvyšší krátkodobý throughput při menším kontextu, umí přidat velmi pěkná čísla. Pokud vám ale záleží na stabilnější odezvě a reálné práci s delším kontextem, přestává být výhoda tak jednoznačná. Proto jsme další část benchmarku postavili právě na délce kontextu.
Nečekejte na teoretická čísla. Spusťte vlastní model, vlastní context window a vlastní počet uživatelů na našem AI/GPU serveru. Právě při takovém testu rychle poznáte, jestli vám stačí 2x GPU, nebo už využijete výhodu 4x GPU.
Objednejte AI/GPU server
Tohle je jedna z nejzajímavějších částí celého testu. Jakmile se dostanete na 50K nebo 100K kontext, začíná být velmi dobře vidět, že varianta bez predikce více tokenů se zpomaluje podstatně méně než režim se zapnutou predikcí. A to je důležité, protože právě delší kontext bývá v reálném nasazení velmi drahý na paměť i na výkon.
Na 2x GPU bez predikce klesne rychlost z 73 tokenů/s při 1K na 62 tokenů/s při 100K. Na 4x GPU klesne z 99 tokenů/s na 90 tokenů/s. To je velmi dobrý výsledek. Se zapnutou predikcí je propad mnohem tvrdší. Na 2x GPU padá výkon ze 126 tokenů/s na 30 tokenů/s, na 4x GPU ze 162 tokenů/s na 33 tokenů/s.
Právě zde je vidět další důvod, proč je volba 2x GPU tak zajímavá. Bez zapnuté predikce drží i při dlouhém kontextu stále velmi použitelnou rychlost a současně už nabízí podstatně větší paměťovou rezervu než jedna karta. Pro většinu firemních use case je to praktičtější než honit extrémní krátké benchmarky se zapnutou predikcí.
Následující trojice grafů ukazuje totéž z jiného úhlu. Každý graf patří jedné GPU a porovnává, jak se chová vypnutá a zapnutá predikce více tokenů napříč délkou kontextu. Nejzajímavější je prostřední graf pro 2x GPU, neboť právě ten nejlépe reprezentuje konfiguraci, která se podle dat vyplatí nejčastěji.
Na 1x GPU ještě zapnutá predikce dává smysl při krátkém kontextu, ale u 100K už spadne rychlost na pouhých 28 tokenů/s, zatímco varianta bez predikce drží 38 tokenů/s. Na 2x GPU je rozdíl ještě výmluvnější: 62 tokenů/s bez predikce proti 30 tokenům/s se zapnutou predikcí při 100K kontextu. A na 4x GPU je výsledek nejtvrdší, 90 tokenů/s bez predikce proti 33 tokenům/s se zapnutou predikcí.
Pokud to shrneme jednoduše, zapnutá predikce je výborná pro krátké a rychlé scénáře, vypnutá predikce je jistější volba pro dlouhý kontext. A právě proto je dobré mít při návrhu serveru dost paměti a dost GPU, aby si člověk mohl zvolit nastavení podle workloadu a nebyl tlačený jen jedním benchmarkem.
Z pohledu reálného nasazení se proto jako velmi chytrý návrh nabízí systém složený ze dvou 2x GPU uzlů. Na první 2x GPU konfiguraci můžete nechat zapnutou predikci více tokenů a obsluhovat na ní kratší requesty do 10K kontextu. Před obě varianty pak stačí postavit proxy, která bude požadavky automaticky směrovat podle délky vstupu. Kratší prompty pošle na rychlejší variantu se zapnutou predikcí, delší vstupy nad 10K na druhou 2x GPU variantu bez predikce, která si výrazně lépe drží výkon na dlouhém kontextu. V praxi tak získáte velmi rozumnou kombinaci rychlosti pro krátké dotazy pro náročnější práci s delšími dokumenty.
Čistá rychlost generování není jediný důvod, proč přidávat GPU. Ve skutečném provozu je často ještě důležitější velikost KV cache. Čím více GPU máte, tím více prostoru získáte pro velké kontexty a paralelní požadavky. A to je vlastnost, kterou běžný benchmark jedním číslem často vůbec neukáže.
| Konfigurace | GPU KV cache size | Maximum uživatelů kteří vytiží kontext na max |
|---|---|---|
| 1x GPU | 980 000 tokenů | 4x |
| 2x GPU | 2 470 000 tokenů | 9x |
| 4x GPU | 5 405 000 tokenů | 21x |
To znamená, že se 4x GPU dokážete obsloužit zhruba 20 uživatelů současně i v případě, že každý z nich přijde s plným 262K kontextem. To je velmi silný argument pro produkční nasazení. V reálném provozu navíc většina uživatelů nebude využívat úplně celý kontext, takže skutečná kapacita může být ještě vyšší.
Právě tady je potřeba číst data správně. 2x GPU vyhrává poměr ceny a rychlosti. 4x GPU ale vyhrává tam, kde je důležitá robustnost, dlouhé context windows, více současných požadavků a menší riziko, že se dostanete na limit paměti příliš brzy.
Matyho TIP:
Zapomeňte na nekonečné fronty a pořadníky na grafické karty. Zatímco ostatní na hardware stále čekají, my máme dostatek výkonných GPU karet skladem k okamžitému pronájmu . Neztrácejte drahocenný čas, začněte trénovat a provozovat své LLM modely hned!
Se 4x GPU už se nebavíme pouze o Qwen 27B. Dohromady totiž získáte 384 GB VRAM, tedy 96 GB × 4. A právě to otevírá prostor pro modely, které jsou pro menší konfigurace mimo hru, nebo dávají smysl jen s výraznými kompromisy.
V praxi jsme takto rozběhli i další velké modely, které ukazují, kam se dá s podobnou konfigurací posunout. Nejde tedy jen o vyšší throughput na Qwenu, ale i o to, že si s větší VRAM můžete dovolit mnohem ambicióznější AI stack.
Pokud tedy dnes stavíte server jen pro jeden konkrétní model, může se vám zdát 4x GPU zbytečné. Pokud ale chcete nechat otevřené dveře pro větší MoE modely, delší kontext a vyšší souběžnost, je to už úplně jiný typ infrastruktury.
Přejít do konfigurátoru GPU serveru.
Matyho TIP:
Pokud vám jde čistě o poměr cena/výkon, data mluví jasně pro 2x GPU. Pokud ale řešíte dlouhé kontexty, více aktivních uživatelů současně nebo chcete otevřít cestu k výrazně větším modelům, 4x GPU má stále velmi silný praktický smysl.
| Konfigurace | Rychlost při 1 uživateli | Zisk výkonu | KV cache | 262K kontext naráz | Praktický závěr |
|---|---|---|---|---|---|
| 1x GPU | 47 tokenů/s | základ | 980 000 tokenů | 4 uživatelé | Dobrá vstupní varianta, ale výkonová rezerva je omezená. |
| 2x GPU | 73 tokenů/s | +55 % | 2 470 000 tokenů | 9 uživatelů | Nejlepší poměr ceny, rychlosti a použitelnosti v praxi. |
| 4x GPU | 99 tokenů/s | +111 % | 5 405 000 tokenů | 21 uživatelů | Nejlepší pro vysokou souběžnost, velkou KV cache a větší modely. |
Pokud chcete z menšího modelu Qwen dostat co nejlepší poměr cena výkon, vyplatí se nejvíce 2x GPU. Získáte výrazný skok proti 1x GPU, větší KV cache, lepší rezervu pro více uživatelů a přitom se ještě nedostáváte do situace, kdy za další karty platíte více, než kolik vám vrátí v rychlosti.
4x GPU ale rozhodně není slepá ulička. Jen je potřeba ho prodávat poctivě. U Qwen 27B není nejvýhodnější jen na samotné tokeny za sekundu. Dává však velmi dobrý smysl ve chvíli, kdy řešíte dlouhé kontexty, vyšší souběžnost, velkou KV cache a budoucí přechod na výrazně větší modely. A právě to je důvod, proč může být 4x GPU správná volba pro náročnější produkční infrastrukturu.
Začněte tedy podle reálného workloadu. Pro většinu firemních deploymentů volte 2x GPU. Pakliže ale chcete maximum prostoru pro růst, robustní API a velké modely, objednejte 4x GPU server pro vLLM.
Napište nám a připravíme vám vhodné řešení pro menší i velké jazykové modely, delší kontexty i vlastní AI API.