Nejvýkonnější servery Nejvýkonnější servery

AI novinky 06/2026: NVIDIA zasypala trh novinkami, Google s Qwenem posouvají hranice autonomního programování

Červnové AI novinky představují čtyři silné směry: rychlejší vizuální generování, efektivnější open modely pro agentické úlohy, nástup multimodálních systémů a lepší benchmarky pro reálné programování. NVIDIA posouvá výzkum v oblasti obrazu, 3D rekonstrukce a vlastní AI infrastruktury, zatímco Google, MiniMax, Datacurve a Qwen přidávají modely a nástroje zajímavé pro produkční provoz, interní AI nasazení i vývojové týmy.
Maty
Poslechněte si článek v audio verzi.
0:00 0:00
1.0x

Cosmos 3 - NVIDIA

Cosmos 3 je omnimodální world model od NVIDIA pro oblast Physical AI. V jednom systému spojuje porozumění, generování, simulaci i akci nad textem, obrazem, videem, audiem a robotickými akcemi. Pokrývá šest schopností od vision-language reasoning přes generování obrazu a videa až po robot policy a forward nebo inverse dynamics.

Cosmos 3 je důležitý hlavně tím, že posouvá open ekosystém směrem k modelům, které nejsou jen jazykové nebo obrazové, ale mají ambici řídit celé simulační a robotické workflow. NVIDIA uvádí první místo mezi open modely v benchmarcích pro robotiku, smart space, autonomní řízení a také špičku v text-to-image, image-to-video a robot policy úlohách. Součástí vydání jsou navíc reporty, model cards i kód. Náš pohled je, že právě podobné foundation modely budou zajímavé pro týmy, které chtějí stavět vlastní interní AI nasazení kolem robotiky nebo průmyslové automatizace bez uzavřeného vendor lock-inu.

Introducing NVIDIA Cosmos 3: The Open Model That Thinks, Generates, and Acts Zdroj: https://www.youtube.com/watch?v=q7Hj3J9SOXw

Zdroje: projekt Cosmos 3 od NVIDIA Research, video Introducing NVIDIA Cosmos 3.

PiD - NVIDIA

PiD je nový dekódovací postup pro latentní difuzní modely, který spojuje dekódování a super-resolution do jednoho kroku. Místo klasického postupu, kdy se obraz nejprve dekóduje a až následně se zvyšuje jeho rozlišení, generuje obraz rovnou v pixelovém prostoru ve vysokém rozlišení. NVIDIA uvádí převod z 512 x 512 na 2 048 x 2 048 pod 210 ms na GB200 a až 6x vyšší rychlost oproti kaskádovým přístupům.

Důležité je hlavně to, že PiD není jen dílčí optimalizace, ale změna celé inference cesty. Podle NVIDIA dosahuje 99,4 % preference proti nejlepší baseline a funguje napříč latentními prostory jako FLUX, SD3, DINOv2.

Zdroje: projekt PiD od NVIDIA Research.

Deja View - NVIDIA

Deja View je nový model pro multi-view 3D rekonstrukci, který místo hlubokého zásobníku unikátních vrstev opakovaně používá transformer blok. Počet iterací při zpřesňování tak funguje jako praktický výpočetní knoflík při inferenci. Model má jen 117 M parametrů, ale v pěti benchmarcích dorovnává nebo překonává mnohem větší systémy jako pi3 se 959 M, VGGT1 257 MDepth Anything 3-G1 201 M parametry.

Proč je to důležité: Deja View zpochybňuje jednoduchou logiku, že lepší výsledek nutně znamená větší model. NVIDIA ukazuje, že u 3D rekonstrukce může být iterativní zpřesňování lepší induktivní předpoklad než čisté zvětšování sítě. Pro organizace, které staví digitální dvojčata, robotické simulace nebo vizuální inspekci, je to zajímavé hlavně kvůli nižším nárokům na výpočet i snazšímu škálování.

Zdroje: projekt Deja View od NVIDIA Research.

Vyzkoušejte AI/GPU server až na 7 dní ZDARMA

Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pro vLLM, firemní AI API i více uživatelů současně.
Bez investice do vlastního hardwaru si ověříte, kolik výkonu skutečně dostanete z jednoho GPU.

Chci vyzkoušet AI/GPU server
RTX PRO 6000 Blackwell

Nemotron 3 Ultra - NVIDIA

Nemotron 3 Ultra 550B A55B je zatím nejvýkonnější otevřený LLM od NVIDIA. Jde o MoE model s 550 B celkovými a 55 B aktivními parametry, hybridní architekturou Mamba-Attention, routováním LatentMoE a nativní podporou speculative decoding přes MTP vrstvy. NVIDIA uvádí až 5x vyšší throughput, respektive až 5,9x rychlejší inferenci než srovnatelné otevřené modely typu GLM-5.1, a to při zachování podobné kvality.

Model míří na dlouho běžící agentické workflow, kde hraje roli nejen přesnost, ale i cena každého kroku. NVIDIA uvádí snížení nákladů agentických úloh až o 30 %, kontext až 1 M tokenů, otevřenou licenci OpenMDW-1.1 a kompletní vydání checkpointů, datasetů i tréninkových receptů. V porovnání s GLM 5.1 nebo Kimi K2.6 je zajímavé hlavně to, že Nemotron 3 Ultra 550B A55B kombinuje vysoký výkon s výrazně efektivnější inferencí.

Pro týmy, které chtějí model provozovat samy, je to důležitá zpráva hlavně kvůli variantám BF16NVFP4. Právě zde dává smysl testovat chování modelu na dedikovaném AI GPU serveru, kde si ověříte skutečný throughput, spotřebu paměti i to, zda se podobně velký open model hodí pro Váš produkční provoz.

Nemotron 3 Ultra Tutorial: Build an Autonomous Research Agent with NemoHermes and OpenCode Zdroj: https://www.youtube.com/watch?v=TaR3FKKuxvc

Zdroje: NVIDIA blog k Nemotron 3 Ultra, výzkumná stránka Nemotron 3 Ultra, video Nemotron 3 Ultra Tutorial.

Gemma 4 12B - Google

Gemma 4 12B od Google DeepMind je středně velký multimodální model, který má běžet lokálně i na spotřebitelském notebooku se 16 GB RAM. Hlavní novinkou je encoder-free architektura, ve které obraz i audio vstupují přímo do jazykového backbone modelu. Google tím z Gemma 4 12B dělá první středně velkou variantu řady Gemma s nativním zpracováním audia.

Důležité je, že se model výkonově přibližuje většímu 26B MoE modelu, ale s výrazně nižší paměťovou stopou. Výhodou je i otevřenost pod licencí Apache 2.0 a rychlá podpora v Hugging Face, Ollama, llama.cppvLLM.

Představení modelu Gemma 4 12B od Google DeepMind Zdroj: https://www.youtube.com/watch?v=LJIfSr2fVTc

Zdroje: představení Gemma 4 12B od Google, video k Gemma 4 12B.

MiniMax M3 - MiniMax

MiniMax M3 je open-weight LLM, který spojuje silné programování, agentické reasoning úlohy, nativní multimodalitu a kontext až 1 M tokenů. Podle MiniMax jde o první otevřený model, který zvládá tuto kombinaci v jednom balení. Trénink od začátku zahrnoval text i vision data nad více než 100 T tokeny a architektura stojí na Sparse Attention.

Důležitost MiniMax M3 je hlavně v ukázkách dlouhého autonomního běhu. Model měl během 12 hodin samostatně reprodukovat ICLR paper18 commity a 23 figurami a během 24 hodin optimalizovat CUDA FP8 GEMM kernel na 9,4x zrychlení bez lidského zásahu. To je přesně ten typ signálu, který zajímá vývojové týmy řešící delší agentické workflow, automatizaci výzkumu nebo interní nástroje nad velkými repozitáři.

MiniMax M3 IS INSANE! BEST Opensource AI Model! Beats Opus 4.7 and 50x Cheaper! (Fully Tested) Zdroj: https://www.youtube.com/watch?v=p6Npi-HBoRU

Zdroje: stránka modelu MiniMax M3, video k MiniMax M3.

DeepSWE - Datacurve

DeepSWE je nový benchmark od Datacurve zaměřený na frontier AI coding agenty v dlouhých softwarově inženýrských úlohách. Obsahuje 113 ručně psaných úloh nad 91 aktivními open-source repozitáři v jazycích TypeScript, Go, Python, JavaScriptRust. Každá úloha vyžaduje průzkum repozitáře, zásah do více souborů a ověření chování. V průměru jde o 668 přidaných řádků přes 7 souborů.

Hlavní přínos je v tom, že úlohy nejsou převzaté z již sloučených pull requestů, takže benchmark výrazně snižuje problém úniku benchmarkových úloh a zapamatování známých řešení, který trápí část starších sad typu SWE-Bench Pro. V žebříčku k 30. 5. 2026 vede GPT-5.5 se 70 %, následuje Claude Opus 4.858 %GPT-5.456 %. Pro podnikové použití je důležité i to, že DeepSWE sleduje nejen úspěšnost, ale i cenu, runtime a objem tokenů. Pokud podobné agenty plánujete integrovat přes API do vlastních workflow, dává smysl sledovat i Pronájem LLM s API, kde můžete modely napojit do interních nástrojů bez stavby celé integrační vrstvy od nuly.

Zdroje: benchmark DeepSWE, leaderboard DeepSWE z 30. 5. 2026.

Qwen3.7-Max - Qwen

Qwen3.7-Max je proprietární model od Alibaba zaměřený přímo na éru agentů. Míří na programování, kancelářskou automatizaci a dlouhé autonomní běhy v řádu tisíců kroků. Podle zveřejněných výsledků vede na Terminal Bench 2.0, na SWE-Verified je na úrovni Claude Opus 4.6 a zároveň patří na špičku benchmarků GPQA Diamond, HLE, HMMT 2026IMO.

Silný dojem dělají hlavně praktické ukázky. Qwen3.7-Max měl více než den autonomně optimalizovat kernel pro neznámý hardware a dosáhnout výrazně lepšího výkonu než referenční Triton. Další demo ukazuje podstatně lepší výsledek na YC-Bench než starší Qwen3.6-PlusQwen3.5-Plus. Pro interní AI nasazení je to důležité hlavně tam, kde chcete dlouhé autonomní workflow, ale zároveň potřebujete, aby model dobře fungoval napříč různými harnessy jako Claude Code, OpenClaw nebo Qwen Code.

Qwen 3.7 Max: NEW Powerful AI Model! Beats Opus 4.6, Gemini 3.1, Deepseek v4! (Fully Tested) Zdroj: https://www.youtube.com/watch?v=UXar6lNCNcc

Zdroje: představení Qwen3.7-Max, video k Qwen3.7-Max.

Qwen3.7-Plus - Qwen

Qwen3.7-Plus je multimodální agentický model, který spojuje vision a jazyk do jedné agentní základny. Prakticky to znamená, že umí vnímat scénu, číst a ovládat GUI, psát kód podle vizuální předlohy a propojovat práci v grafickém rozhraní i v CLI v jedné smyčce. Ve zveřejněných benchmarkách překonává Claude Opus 4.6 v GUI a mobilních agentických úlohách a silně roste i v oblasti multimodálního vnímání.

Důležitý je i praktický dopad. Qwen uvádí autonomní full-cycle vývoj aplikace od zadání přes kód až po testy a dokumentaci. Další ukázka zahrnuje věrnou rekonstrukci aplikace macOS Stocks s napojením na živá tržní data. Náš pohled je, že Qwen3.7-Plus bude zajímavý hlavně pro týmy, které chtějí stavět vlastní multimodální agenty pro interní použití, QA nebo ovládání podnikových aplikací bez přepínání mezi několika specializovanými modely.

Zdroje: představení Qwen3.7-Plus.