Apple Manzano: hybriditokenisaattorilla varustettu multimodaali tekoäly kuvien analyysiin ja generointiin

Danny Weber

18:32 27-09-2025

Apple esittelee Manzano-mallin: hybriditokenisaattori yhdistää kuvien analyysin ja generoinnin. Koot 900M–35B, vahvoja tuloksia; iOS 26 nojaa yhä GPT-5:een.

Lisää Pepelac News Googlen ensisijaisiin lähteisiisi

Apple kehittää uutta Manzano-nimistä tekoälymallia, joka osaa paitsi analysoida kuvia myös tuottaa niitä. Kyse on alan vaikeimmasta sarjasta, ja toistaiseksi suurin osa haastajista jää selvästi jälkeen kaupallisista jättiläisistä, kuten OpenAI:n GPT-4o:sta ja Googlen Gemini 2.5 Flash Image Generationista (aiemmin nimellä Nano Banana).

Manzanon ytimessä on hybriditokenisaattori: yksi enkooderi tuottaa jatkuvia tokeneita visuaalista ymmärrystä varten ja diskreettejä tokeneita luontia varten. Lähestymistapa vaikuttaa pragmaattiselta keinolta purkaa näiden tehtävien välistä kitkaa, jotta yksi järjestelmä hallitsee molemmat vaivattomammin. Arkkitehtuuri yhdistää tokenisaattorin yhtenäiseen kielimalliin ja erilliseen kuvien dekoodausmoduuliin. Tarjolle on tulossa useita kokoluokkia, 900 miljoonasta 35 miljardiin parametriin, jotta malli pystyy käsittelemään erikokoisia kuvia.

Koulutus eteni kolmessa vaiheessa 1,6 biljoonan tokenin yli, mukana 2,3 miljardia teksti–kuvaparia ja 1 miljardi kuva–tekstiparia. Osa aineistosta tuotettiin DALL-E 3:lla ja ShareGPT-4o:lla. Sisäisissä testeissä Manzano ylsi vahvoihin tuloksiin ScienceQA:ssa, MathVistassa ja MMMU:ssa, erityisesti kaavioiden ja tekstiraskaiden dokumenttien tulkinnassa. Generatiivisella puolella malli seuraa monimutkaisia ohjeita, vaihtaa tyylejä ja yltää jopa syvyysrekonstruktioon. Kuten talon omissa mittauksissa yleensä, luvut näyttävät lupaavilta, mutta niiden tulkinnassa on syytä pitää pää kylmänä.

Edistyksestä huolimatta Apple kertoo perusmalliensa jäävän yhä markkinajohtajien taakse. Siksi iOS 26 käyttää Apple Intelligencessa toistaiseksi OpenAI:n GPT-5:tä Applen oman työn rinnalla. Tässä valossa Manzano vaikuttaa strategiselta askeleelta kohti riippuvuuden vähentämistä kolmannen osapuolen teknologiasta ja Applen oman monitoimi‑tekoälyn rakentamista.