Manzano: Apples hybride KI for bildeforståelse og bildegenerering

Apple utvikler en ny KI-modell kalt Manzano som ikke bare kan analysere bilder, men også generere dem. Dette er blant de mest krevende grenene i bransjen, og foreløpig ligger de fleste utfordrere et stykke bak kommersielle tungvektere som OpenAIs GPT-4o og Googles Gemini 2.5 Flash Image Generation (tidligere kjent som Nano Banana).

I kjernen av Manzano står en hybrid-tokeniserer: én felles enkoder produserer kontinuerlige token for visuell forståelse og diskrete token for skapelse. Utformingen skal dempe friksjonen mellom disse oppgavene, slik at ett system kan håndtere begge med trygghet. Arkitekturen kobler tokenisereren til en samlet språkmodell og en separat bilde-dekoder. Flere størrelser er planlagt — fra 900 millioner til 35 milliarder parametere — slik at modellen kan jobbe med bilder i ulike størrelser.

Opplæringen foregikk i tre etapper over 1,6 billioner token, inkludert 2,3 milliarder tekst–bilde-par og 1 milliard bilde–tekst-par. En del av datasettet ble generert med DALL-E 3 og ShareGPT-4o. I interne tester leverte Manzano solide resultater på ScienceQA, MathVista og MMMU, særlig når den tolket diagrammer og teksttunge dokumenter. På den generative siden følger den komplekse instruksjoner, håndterer stilskifter og kan til og med utføre dybderekonstruksjon. Som med alle interne målinger ser tallene lovende ut, men de fortjener en nøktern tolkning.

Til tross for fremgangen oppgir Apple at grunnmodellene fortsatt ligger bak markedslederne. Derfor vil iOS 26 fortsatt bruke OpenAIs GPT-5 i Apple Intelligence, parallelt med Apples egne løsninger. I det lyset fremstår Manzano som et strategisk steg for å redusere avhengigheten av tredjepartsteknologi og bygge opp en fleroppgave-KI på egne premisser.