OpenAI představilo ChatGPT-5.5, nový frontier model zaměřený na reálnou práci s komplexními cíli. Model má lépe rozumět delším zadáním, používat nástroje, kontrolovat vlastní výstupy a dotahovat vícekrokové úkoly až do konce. Pro uživatele je důležité hlavně to, že nejde jen o lepší odpovědi v chatu, ale o posun k modelu, který dokáže samostatněji pracovat nad celým zadáním.
Mezi hlavní novinky patří pokročilejší řízení reasoning režimu, velké kontextové okno, práce s textem i obrázky a silnější podpora programování. GPT-5.5 nyní pohání jak ChatGPT, tak Codex, takže se jeho schopnosti promítají i do vývojářských nástrojů.
Představení modelu GPT-5.5 od OpenAI Zdroj: https://www.youtube.com/watch?v=blGtYq9mL18
Zdroje: představení GPT-5.5 od OpenAI, video Introducing GPT-5.5.
Codex 3.0 od OpenAI posouvá coding asistenta směrem k autonomnímu vývojovému agentovi. Díky modelu GPT-5.5 má zvládat návrh, implementaci, testování i ladění aplikací ve více krocích. Důležitá je také práce s vizuálním prostředím a prohlížečem, kde agent dokáže testovat workflow podobně jako běžný uživatel.
Z praktického pohledu je zajímavé hlavně propojení s browser automation, konzolí, síťovými logy a generováním dokumentů v Microsoft Office nebo Google Drive. Cílem je automatizovat celý cyklus build, test a debug, což může výrazně zrychlit vývojové týmy i interní QA.
Pokud podobné agentické workflow plánujete napojit do vlastních aplikací přes API, podívejte se na Pronájem LLM s API. Získáte prostředí, přes které lze modely integrovat do interních nástrojů, automatizací a firemních systémů.
Codex is INSANE - Everything New in 10 Minutes Zdroj: https://www.youtube.com/watch?v=t2G0L0cqktw
OpenAI rozšířilo Realtime API o tři nové hlasové modely. GPT Realtime 2 přidává konfigurovatelné reasoning schopnosti do speech-to-speech scénářů, má lepší dodržování instrukcí a spolehlivější používání nástrojů u složitějších hlasových agentů.
Vedle něj přichází GPT Realtime Translate pro streamovaný překlad řeči do řeči a GPT Realtime Whisper pro živý přepis zvuku, titulky a poznámky. Všechny tři modely jsou podle OpenAI obecně dostupné pro produkční použití, což je důležité pro call centra, asistenty, interní support i aplikace s hlasovým ovládáním.
Zdroje: OpenAI o nových hlasových modelech v API.
Grok 4.3 je nový pre-trained model od xAI, který zachovává podobnou velikost jako Grok 4.2, ale přináší upravenou architekturu a znalostní cutoff v prosinci 2025. Delší tréninkové běhy mají zlepšovat hloubku reasoning schopností, což je důležité hlavně u komplexních dotazů a vícekrokového řešení problémů.
Z provozního pohledu potěší i nové API, cena za vstupní tokeny je oproti předchozí verzi téměř o polovinu nižší. Slabším místem zůstává absence trvalé paměti mezi relacemi, což je znatelné hlavně při dlouhodobější práci nad projekty nebo při osobnějších asistentech.
Zdroj: release notes Grok 4.3.
NVIDIA Nemotron 3 Nano Omni je open omni-modal reasoning model s 30B celkovými a 3B aktivními parametry v architektuře MoE. Spojuje porozumění textu, obrazu, zvuku a videa, takže míří na agenty, kteří musí pracovat s více typy vstupů v jednom procesu.
NVIDIA uvádí až 9× vyšší efektivitu pro agentické workflow, například computer use, práci s dokumenty nebo audio-video reasoning. Model je dostupný ve formátech NVFP4, FP8 a BF16, což usnadňuje výběr mezi rychlostí, přesností a nároky na hardware.
Představení NVIDIA Nemotron 3 Nano Omni Zdroj: https://www.youtube.com/watch?v=AZ2zr0zOi5M
Pro týmy, které chtějí podobné modely testovat ve vlastní režii, dává smysl dedikovaný výkon bez sdílených limitů. AI GPU server Vám umožní ověřit reálnou rychlost inference, paměťové nároky i chování modelu v praktických úlohách.
Zdroje: NVIDIA blog, Nemotron 3 Nano Omni na Hugging Face, video NVIDIA Nemotron 3 Nano Omni.
Kimi-K2.6 od Moonshot AI je open-weight multimodální agentický model s 1T parametry. Podle uvedených benchmarků dorovnává GPT-5.5 na SWE-Bench Pro s výsledkem 58,6 % a vede na Humanity's Last Exam s nástroji, kde dosahuje 54,0 %.
Výrazným parametrem je i cena. Moonshot AI uvádí přibližně 80 % nižší cenu za milion tokenů, což může být zásadní pro produkční provoz a větší interní nasazení. Model má navíc škálovat až na 300 sub-agentů a 4 000 koordinovaných kroků, takže míří na velmi dlouhé agentické úlohy.
Pokud se výsledky potvrdí v praxi, Kimi-K2.6 bude patřit mezi nejsilnější otevřené modely pro programování, analýzu a automatizaci. Zajímavý je hlavně pro týmy, které chtějí špičkový výkon, ale zároveň hledají větší kontrolu nad provozem a náklady.
Představení Kimi K2.6 jako open-source coding modelu Zdroj: https://www.youtube.com/watch?v=scuzhhZpoHs
Zdroje: blog Kimi-K2.6, Kimi-K2.6 na Hugging Face, video Meet Kimi K2.6.
Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pro vLLM, firemní AI API i více uživatelů současně.
Bez investice do vlastního hardwaru si ověříte, kolik výkonu skutečně dostanete z jednoho GPU.
DeepSeek-V4-Pro je preview release masivního Mixture-of-Experts modelu s 1,6T celkovými parametry a 49B aktivními parametry. DeepSeek ho staví jako model pro frontier-level výkon v reasoningu, programování a vícejazyčných úlohách.
Velikost modelu ukazuje, že open-weight scéna se rychle přibližuje segmentu nejlepších uzavřených systémů. Pro běžné lokální použití ale půjde o velmi náročnou kategorii, která bude dávat smysl spíše ve výkonných serverových sestavách nebo specializovaném clusteru.
Videoshrnutí modelu DeepSeek V4 a jeho výkonu Zdroj: https://www.youtube.com/watch?v=p7K3xfViWCE
Zdroje: DeepSeek-V4-Pro na Hugging Face, video shrnutí DeepSeek V4.
DeepSeek-V4-Flash je rychlejší a úspornější sourozenec modelu V4-Pro. Nabízí 284B celkových a 13B aktivních parametrů, takže cílí na lepší poměr kvality a výpočetních nákladů.
Zdroj: DeepSeek-V4-Flash na Hugging Face.
Qwen3.6-35B-A3B je otevřený 35B MoE model s aktivními přibližně 3B parametry. Qwen ho směřuje hlavně na agentické programování a praktické coding úlohy, kde je důležitý výkon, cena inference a stabilita dlouhého kontextu.
Podle uživatelských testů si model velmi dobře drží informace i v dlouhém kontextu okolo 200K tokenů, a to i při agresivnější kvantizaci. To je důležité pro práci nad většími repozitáři, rozsáhlou dokumentací nebo delšími technickými zadáními.
Praktické srovnání Qwen3.6 a Gemma 4 v dlouhém kontextu Zdroj: https://www.youtube.com/watch?v=ONQcX9s6_co
Zdroje: Qwen blog, Qwen3.6-35B-A3B na Hugging Face, video Qwen3.6 vs Gemma 4.
Qwen3.6-27B je dense model s 27B parametry, který má nabídnout velmi silný coding výkon v kompaktnějším formátu.
Podle dostupných benchmarků překonává Claude Opus 4.5 a dotahuje na Claude Opus 4.6, což je u modelu této velikosti velmi působivé. Pro interní použití je to zajímavé hlavně tam, kde chcete silný lokální model, ale nechcete stavět infrastrukturu kolem velmi velkého MoE systému.
Videoshrnutí modelu Qwen3.6-27B pro lokální použití Zdroj: https://www.youtube.com/watch?v=geYiiJV2ccU
Zdroje: Qwen3.6-27B blog, Qwen3.6-27B na Hugging Face, videoshrnutí Qwen3.6-27B.
ZAYA1-8B od Zyphry je reasoning MoE model s 8B celkovými a pouze 700M aktivními parametry. Přesto má být konkurenceschopný s výrazně většími modely v matematice, programování a složitějším uvažování.
Zajímavý je i trénink na akcelerátorech AMD Instinct MI300. Ukazuje to, že výkonný trénink AI modelů nemusí být nutně navázaný pouze na NVIDIA ekosystém. Pro trh je to dobrá zpráva, protože širší hardwarová konkurence může časem snížit cenu vývoje i provozu.
Zdroje: Zyphra blog, ZAYA1-8B na Hugging Face.
Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pro vLLM, firemní AI API i více uživatelů současně.
Bez investice do vlastního hardwaru si ověříte, kolik výkonu skutečně dostanete z jednoho GPU.
Ternary Bonsai 8B od PrismML ukazuje extrémní kompresi na 1,58 bitu na váhu. Celý 8B model se vejde do přibližně 1,75 GB, což je zhruba 9× méně než u full-precision variant podobné velikosti.
Model dosahuje průměrného benchmark skóre 75,5, překonává dosavadní 1-bit modely a běží přibližně na 82 tokenech/s. PrismML zároveň uvádí až 5× lepší energetickou efektivitu a 8× vyšší rychlost, což může být důležité pro levné lokální AI, edge nasazení nebo interní asistenty s nižšími nároky na absolutní kvalitu.
Praktické otestování modelu Ternary Bonsai 8B Zdroj: https://www.youtube.com/watch?v=lDlkkDs43aw
Zdroje: PrismML Ternary Bonsai, Ternary Bonsai 8B GGUF na Hugging Face, video test Ternary Bonsai.