Apple werkt aan Manzano: hybride AI-model voor beeldanalyse en generatie

Apple werkt aan een nieuw AI-model, Manzano, dat niet alleen beelden kan analyseren maar ze ook kan genereren. Dat is een van de lastigste disciplines binnen het vakgebied; voorlopig blijven de meeste uitdagers nog achter bij commerciële zwaargewichten als OpenAI’s GPT-4o en Google’s Gemini 2.5 Flash Image Generation (voorheen Nano Banana).

Aan de basis van Manzano staat een hybride tokenizer: één encoder levert continue tokens voor visueel begrip en discrete tokens voor creatie. Die opzet moet de frictie tussen beide taken wegnemen, zodat één systeem ze met overtuiging aankan. De architectuur koppelt deze tokenizer aan een uniform taalmodel en een zelfstandige module voor beelddecodering. Er komen meerdere groottes—van 900 miljoen tot 35 miljard parameters—waardoor het model met beelden van uiteenlopende afmetingen kan werken.

De training verliep in drie stappen over 1,6 biljoen tokens, met onder meer 2,3 miljard tekst-beeldparen en 1 miljard beeld-tekstparen. Een deel van de dataset is gegenereerd met DALL-E 3 en ShareGPT-4o. In interne tests liet Manzano sterke resultaten zien op ScienceQA, MathVista en MMMU, vooral bij het lezen van grafieken en tekstrijke documenten. Aan de generatieve kant volgt het complexe instructies, schakelt tussen stijlen en voert zelfs dieptereconstructie uit. Zoals bij alle interne benchmarks zijn de cijfers bemoedigend, maar verdienen ze een bedachtzame lezing.

Ondanks die vooruitgang geeft Apple aan dat de basismodellen nog achterlopen op de marktleiders. Daarom blijft iOS 26 binnen Apple Intelligence gebruikmaken van OpenAI’s GPT-5, naast Apple’s eigen werk. In dat licht oogt Manzano als een strategische stap om de afhankelijkheid van derden af te bouwen en een eigen, multifunctionele AI in huis te brengen.