Danny Weber
18:33 27-09-2025
© A. Krivonosov
Apple vyvíjí Manzano, model umělé inteligence pro analýzu i generování obrázků. Hybridní tokenizér, více velikostí a trénink na 1,6T tokenů. Výsledky v testech.
Apple vyvíjí nový model umělé inteligence Manzano, který má zvládnout nejen analýzu obrázků, ale také jejich tvorbu. Jde o jednu z nejtěžších disciplín v oboru a většina hráčů zatím citelně zaostává za komerčními těžkými vahami, jako jsou GPT‑4o od OpenAI a Google Gemini 2.5 Flash Image Generation (dříve známý jako Nano Banana).
V jádru Manzana stojí hybridní tokenizér: jediný enkodér vytváří spojité tokeny pro vizuální porozumění a diskrétní tokeny pro samotnou tvorbu. Tento přístup má snížit tření mezi oběma úlohami a umožnit jednomu systému obě zvládat s jistotou. Architektura kombinuje tokenizér se sjednoceným jazykovým modelem a samostatným modulem pro dekódování obrazu. Počítá se s několika velikostmi — od 900 milionů do 35 miliard parametrů — aby si model poradil s různými rozměry snímků. Na papíře jde o čisté, promyšlené řešení.
Trénink probíhal ve třech etapách na 1,6 bilionu tokenů a zahrnoval 2,3 miliardy dvojic text–obraz a 1 miliardu dvojic obraz–text. Část dat pocházela z generování pomocí DALL‑E 3 a ShareGPT‑4o. V interních testech dosáhl Manzano silných výsledků v úlohách ScienceQA, MathVista a MMMU, zejména při čtení grafů a textově bohatých dokumentů. Na straně generování umí následovat složité instrukce, přepínat styly a zvládá i rekonstrukci hloubky. To zní slibně, ale stejně jako u všech interních měření je na místě střízlivý odstup.