Google vydal čtyři různé varianty modelů Gemma 4 pod licencí Apache 2.0, což je pro komerční použití velmi zajímavé z hlediska otevřenosti i možnosti širšího nasazení. Nejvíce pozornosti přitahuje Gemma 4 - 31B, která představuje přímý výkonový posun oproti Gemma 3 27B a cílí na uživatele, kteří chtějí co nejsilnější otevřený model z této řady.
Vedle toho Google představil i menší varianty Gemma 4 - E2B a Gemma 4 - E4B. Tyto modely míří na velmi efektivní provoz a dávají smysl tam, kde je důležitá nízká hardwarová náročnost, například na koncových zařízeních nebo v mobilních scénářích. Zajímavá je také Gemma 4 26B-A4B, která je o něco slabší než varianta 31B, ale část tohoto rozdílu vyvažuje vyšší rychlostí generování tokenů.
Gemma 4 je důležitá hlavně tím, že rozšiřuje nabídku použitelných open source modelů napříč výkonovými třídami. Dá se tedy lépe vybírat mezi maximálním výkonem, menší paměťovou náročností a rychlejší inferencí podle konkrétního use case. Pokud si chcete Gemma 4 31B a Gemma 4 26B rovnou vyzkoušet zdarma, můžete využít také AirGPT.cz.
Oficiální představení What’s new in Gemma 4 přímo od Google Zdroj: https://www.youtube.com/watch?v=jZVBoFOJK-Q
Zdroje: článek od Google, Gemma 4 31B na Hugging Face, Gemma 4 26B-A4B na Hugging Face, Gemma 4 E4B na Hugging Face, AirGPT.cz.
Google také ukázal technologii Turbo Quant, tedy novou kvantizaci, která má podle popisu umožnit provoz modelu až na úrovni Q3 bez výrazné ztráty schopností. Součástí je i komprese KV cache, což je důležité zejména pro delší kontext a efektivnější využití paměti.
Na papíře jde o velmi zajímavý posun, protože nižší kvantizace obvykle znamená menší paměťové nároky i lepší dostupnost lokálního provozu. První neoficiální testy ale naznačují, že rychlost generování tokenů může být slabší, než by uživatelé čekali. Prozatím proto půjde spíše o technologii, kterou bude potřeba hodnotit až podle oficiální implementace a reálného nasazení.
Pokud řešíte provoz větších modelů, kvantizaci nebo testování výkonu v praxi, vlastní dedikovaný výkon bývá jistější než čekání na sdílené kapacity. Právě proto řada týmů volí AI GPU server, kde mají prostředí plně pod kontrolou.
Zdroj: research od Google.
Anthropic představil soukromý model Claude Mythos Preview, který vznikl primárně jako špičkový programovací model. Vedlejším efektem ale je, že dokáže velmi dobře hledat exploity, zranitelnosti a závažné chyby v systémech, prohlížečích i aplikacích. Nejde tedy o model navržený čistě pro bezpečnostní výzkum, ale o velmi silný coding model, který se v této oblasti ukázal jako mimořádně schopný.
Důležité je, že Anthropic zatím neplánuje tento model zpřístupnit veřejnosti. Důvodem je vysoké riziko zneužití, protože stejná schopnost, která pomáhá obráncům, může významně pomoci i útočníkům.
Claude Mythos Preview v krátkém video shrnutí Zdroj: https://youtube.com/watch?v=XRgGFQ0EgM0
Z pohledu interní bezpečnosti je zajímavé hlavně to, že podobné modely mohou výrazně zrychlit audit aplikací, knihoven i vlastního kódu. Pokud hledáte službu, přes kterou můžete podobné modely rychle napojit do vlastních aplikací a workflow, podívejte se na Pronájem LLM s API.
Zdroje: Projekt Glasswing, research článek, další video shrnutí.
Anthropic zároveň upravil limity v předplatném pro Claude Code a omezení byla podle všeho cílená hlavně na OpenClaw. Jde o open-source framework pro autonomní AI agenty, který umožňuje spouštět a ovládat umělou inteligenci přímo z běžných komunikačních aplikací, jako jsou Telegram, WhatsApp nebo Discord. Prakticky to znamená, že část workflow, která dříve mohla fungovat volněji přes externí nástroje, je nyní více svázaná s oficiálním prostředím Anthropicu.
Velkou pozornost vzbudil také únik Claude Code, díky kterému bylo možné nahlédnout do pozadí toho, jak celý program funguje. Nešlo tedy jen o reputační problém, ale i o situaci, která ukázala vnitřní principy nástroje, jeho logiku a způsob, jakým je postavené samotný workflow.
Video shrnutí změn kolem Claude Code a omezení napojení na OpenClaw Zdroj: https://youtube.com/watch?v=stZr6U_7S90
Zdroje: video shrnutí úniku source code.
Scrya přišla s technologií Rotor Quant, která podle prvních informací řeší slabiny, jež se objevovaly u Turbo Quantu od Google. Pokud se tyto výsledky potvrdí i v praxi, může jít o velmi důležitý krok pro efektivní inferenci větších modelů při zachování použitelného výkonu i rozumné rychlosti.
Právě oblast kvantizace dnes rozhoduje o tom, zda se pokročilý model dá provozovat lokálně, ve firemní infrastruktuře nebo jen ve velkých cloudových instalacích. Rotor Quant proto může být důležitý nejen pro vývojáře, ale i pro interní AI týmy, které hledají cestu k levnějšímu a praktičtějšímu nasazení bez výrazných kompromisů.
Zdroj: článek o Rotor Quant.
Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pro vLLM, firemní AI API i více uživatelů současně.
Bez investice do vlastního hardwaru si ověříte, kolik výkonu skutečně dostanete z jednoho GPU.
Alibaba rozšiřuje řadu Qwen o model Qwen3.5-Omni, který pracuje nejen s textem, ale také s obrázky, videem a zvukem. Nejde tedy jen o další jazykový model, ale o multimodální systém, který dokáže spojovat více typů vstupů do jednoho workflow.
Z praktického pohledu je zajímavé zejména to, že Qwen3.5-Omni umí z nahraného videa a textového popisku připravit program nebo návrh řešení. To rozšiřuje možnosti promptování daleko za čistě textové scénáře. Pro komerční nasazení může být tato schopnost užitečná například při automatizaci analýzy obrazových dat, interní dokumentace nebo převodu vizuálních postupů do strojově zpracovatelné podoby.
Druhou velkou novinkou je Qwen3.6-Plus, který není open source a podle dostupných informací míří výkonově proti silným modelům typu Claude Sonnet 4.6. Alibaba ho cílí hlavně na programování a agentic coding, tedy na scénáře, kde model neřeší jen jeden prompt, ale delší pracovní úlohu.
Zajímavé je i to, že později mají být vydány slabší varianty tohoto směru na Hugging Face. Pokud se potvrdí dobrý poměr výkonu a ceny, může jít o další silnou alternativu pro vývojová oddělení, která chtějí moderní coding model bez plné závislosti na amerických poskytovatelích.
Nezávislé video s testem Qwen3.6-Plus Zdroj: https://youtube.com/watch?v=LQnoFIKJP3Q
Zdroj: Qwen3.6-Plus.
Model GLM-5.1 od Z.ai patří mezi nejzajímavější open source novinky poslední doby. Výkonově se podle dostupných informací dostává na úroveň Claude Opus 4.6 a zároveň míří i na náročnější agentic coding úkoly.
Velkou výhodou je otevřenost modelu a nižší cena oproti komerčním alternativám nejvyšší třídy. Nevýhodou naopak zůstává jeho velikost, která může být zásadní překážkou pro lokální provoz. Pro organizace s dostatečně silnou infrastrukturou však může jít o velmi zajímavou cestu, jak získat špičkový model bez nutnosti platit cenu za uzavřená API řešení.
Zdroje: článek GLM-5.1, GLM-5.1 na Hugging Face.
Minimax 2.7 je open source model s 229 B parametry, který vnímáme jako velmi vhodný výkonný interní model pro firmy. Výkonově se pohybuje kolem úrovně Claude Sonnet 4.6, ale zároveň dává smysl i tam, kde chcete mít model pod vlastní kontrolou a neřešit vše jen přes externí API.
Z našeho pohledu je na Minimax 2.7 nejzajímavější to, že jde o velký model, který už lze realisticky plánovat pro interní provoz. Dvojice karet 2× RTX PRO 6000 Blackwell nabízí dohromady 192 GB VRAM, tedy 96 GB + 96 GB, takže je reálné uvažovat i o provozu kolem Q5 s plným kontextem až 200 k. Přesná čísla budou vždy záviset na konkrétní implementaci, ale právě tento typ odhadu z Minimaxu 2.7 dělá velmi zajímavou volbu pro interní AI nasazení s vysokým výkonem.
Pokud chcete podobné modely testovat ve vlastní režii, podívejte se na AI GPU servery. Vyhnete se čekání na veřejné kapacity a máte jistotu, že výkon, VRAM i síť zůstávají pod Vaší kontrolou.
Zdroje: hlavní stránka Minimax 2.7, Minimax 2.7 na Hugging Face.
Intel Arc B70 Pro je podle dosavadních informací mimořádně zajímavá GPU novinka hlavně z pohledu poměru cena, výkon a kapacita paměti. Jedna karta stojí přibližně 950 USD a nabízí 32 GB VRAM, což je v této cenové hladině velmi atraktivní kombinace pro lokální AI experimenty i menší firemní nasazení.
Slabším místem zůstává software podpora. Ovladače a frameworky bývají podle zkušeností pozadu zhruba o 2 měsíce, takže novější modely nebo nové inferenční postupy na těchto kartách nemusí fungovat okamžitě. Pokud ale Intel tempo podpory zlepší, může jít o velmi silnou volbu pro uživatele, kteří hledají levnější alternativu k zavedenějším GPU platformám.
Praktické testování sestavy se 4× Intel Arc B70 Pro Zdroj: https://youtube.com/watch?v=RcIWhm16ouQ
PrismML ukazuje na modelu Bonsai 8B velmi agresivní kompresi až na 1-bit. Podle zveřejněných informací tím model přichází asi o 30 % svých schopností, ale zároveň je přibližně 14× menší v paměti a až 8× rychlejší při generování tokenů. To je velmi výrazný kompromis, který může být v některých scénářích překvapivě užitečný.
Firma si technologii zatím nechává pro sebe, ale tvrdí, že ji lze použít i na jiné modely. Pokud by se to potvrdilo ve větším měřítku, mohlo by jít o zajímavou cestu pro provoz AI v prostředí s velmi omezenou pamětí nebo tam, kde je rychlost důležitější než absolutní kvalita odpovědí. Pro specializované provozy by to mohlo znamenat levnější nasazení modelů na běžnějším hardwaru.
Praktické testování komprese Bonsai 8B Zdroj: https://youtube.com/watch?v=aNg47-U_x6A
Zdroje: Bonsai 8B na Hugging Face, web PrismML.