Manzano: Apples hybrid-AI för att tolka och skapa bilder

Apple utvecklar en ny AI-modell vid namn Manzano som inte bara kan analysera bilder utan också skapa dem. Det här är en av fältets tuffaste nischer, och än så länge ligger de flesta utmanare klart efter de kommersiella tungviktarna som OpenAI:s GPT-4o och Googles Gemini 2.5 Flash Image Generation (tidigare kallad Nano Banana). Ambitionen är tydlig: ett system som behärskar både tolkning och skapande.

I centrum för Manzano finns en hybrid-tokeniserare: en enda encoder producerar kontinuerliga token för visuell förståelse och diskreta token för skapande. Upplägget ska minska friktionen mellan dessa uppgifter och låta ett och samma system hantera båda med trygghet. Arkitekturen parar denna tokeniserare med en enhetlig språkmodell och en fristående bildavkodningsmodul. Flera storlekar planeras — från 900 miljoner till 35 miljarder parametrar — så att modellen kan arbeta med bilder i olika storlekar.

Träningen skedde i tre etapper över 1,6 biljoner token, inklusive 2,3 miljarder text–bild-par och 1 miljard bild–text-par. En del av datamängden genererades med DALL-E 3 och ShareGPT-4o. I interna tester levererade Manzano starka resultat på ScienceQA, MathVista och MMMU, särskilt vid tolkning av diagram och texttunga dokument. På den generativa sidan följer modellen komplexa instruktioner, hanterar stilskiften och kan till och med göra djuprekonstruktion. Som brukligt med interna mätningar är siffrorna uppmuntrande men förtjänar en avvägd läsning.

Trots framstegen uppger Apple att deras basmodeller fortfarande ligger efter marknadsledarna. Därför kommer iOS 26 att fortsätta använda OpenAI:s GPT-5 inom Apple Intelligence, parallellt med Apples eget arbete. I det ljuset framstår Manzano som ett strategiskt steg för att minska beroendet av tredjepartsteknik och bygga upp Apples egen månguppgifts-AI — ett drag som snarare handlar om långsiktig kontroll än att jaga rekord här och nu.