Apple Manzano: hibrid, multimodális MI képelemzéshez és képgeneráláshoz

Danny Weber

18:34 27-09-2025

© A. Krivonosov

Az Apple Manzano hibrid tokenizálóval egyesíti a képelemzést és a képgenerálást. Teljesítmény, tréningadatok, iOS 26, Apple Intelligence és GPT‑5 integráció.

Az Apple Manzano néven egy új MI-modellen dolgozik, amely nemcsak képeket elemez, hanem képeket is képes előállítani. Ez az egyik legnehezebb terep a szakmában, és jelenleg a legtöbb kihívó jócskán lemarad a kereskedelmi óriásokhoz képest, mint az OpenAI GPT‑4o-ja és a Google Gemini 2.5 Flash Image Generation (korábban Nano Banana).

A Manzano középpontjában egy hibrid tokenizáló áll: egyetlen enkóder folytonos tokeneket termel a vizuális megértéshez, míg diszkrét tokeneket a létrehozáshoz. A konstrukció célja, hogy elsimítsa a két feladat közti súrlódást, így egy rendszer magabiztosan vigye mindkettőt. Az architektúra ezt a tokenizálót egy egységes nyelvi modellel, valamint egy önálló képdekódoló modullal párosítja. Több modellméret készül — 900 milliótól 35 milliárd paraméterig —, hogy különböző képméretekkel is elboldoguljon.

A tanítás három szakaszban zajlott, összesen 1,6 billió tokenen, beleértve 2,3 milliárd szöveg–kép és 1 milliárd kép–szöveg párt. Az adathalmaz egy részét a DALL‑E 3 és a ShareGPT‑4o generálta. Belső teszteken a Manzano erős eredményeket hozott a ScienceQA, a MathVista és az MMMU feladatain, különösen a grafikonok és a szövegben gazdag dokumentumok értelmezésében. Generatív oldalon összetett utasításokat követ, kezeli a stílusváltásokat, és még mélységrekonstrukcióra is vállalkozik. Az ilyen házon belüli mérőszámok biztatóak, de érdemes rájuk mértéktartóan tekinteni.

A haladás ellenére az Apple szerint az alapmodellek még lemaradásban vannak a piacvezetőkhöz képest. Emiatt az iOS 26-ban az Apple Intelligence továbbra is az OpenAI GPT‑5 megoldását használja majd az Apple saját fejlesztései mellett. Ebben a megvilágításban a Manzano inkább stratégiai lépésnek tűnik: a cél a harmadik felektől való függés fokozatos csökkentése, miközben épül az Apple többfeladatú MI-je.