Danny Weber
18:28 27-09-2025
© A. Krivonosov
Scopri Manzano, il modello IA di Apple con tokenizer ibrido: analizza e genera immagini, segue istruzioni e punta a ridurre la dipendenza da GPT in iOS 26.
Apple sta sviluppando un nuovo modello di intelligenza artificiale, Manzano, capace non solo di analizzare le immagini, ma anche di generarle. È una delle sfide più complesse del settore. Un’ambizione non da poco, e per ora la maggior parte dei concorrenti resta distante dai pesi massimi commerciali come GPT-4o di OpenAI e Gemini 2.5 Flash Image Generation di Google (in precedenza noto come Nano Banana).
Al centro di Manzano c’è un tokenizer ibrido: un unico encoder produce token continui per la comprensione visiva e token discreti per la creazione. L’idea è ridurre l’attrito tra i due compiti, permettendo a un solo sistema di gestirli con sicurezza. L’architettura abbina questo tokenizer a un modello linguistico unificato e a un modulo autonomo di decodifica delle immagini. Sono previste più taglie, da 900 milioni a 35 miliardi di parametri, così da lavorare con immagini di dimensioni diverse.
L’addestramento si è articolato in tre fasi su 1,6 trilioni di token, con 2,3 miliardi di coppie testo–immagine e 1 miliardo di coppie immagine–testo. Una parte del dataset è stata generata con DALL-E 3 e ShareGPT-4o. Nei test interni Manzano ha ottenuto risultati solidi su ScienceQA, MathVista e MMMU, soprattutto nell’analisi di grafici e documenti densi di testo. Sul fronte generativo segue istruzioni complesse, gestisce cambi di stile e arriva anche alla ricostruzione della profondità. Come sempre con benchmark interni, i numeri sono incoraggianti ma vanno letti con prudenza.
Nonostante i progressi, Apple afferma che i suoi modelli di base sono ancora dietro ai leader del mercato. Per questo, iOS 26 continuerà a usare GPT-5 di OpenAI all’interno di Apple Intelligence, affiancandolo al lavoro proprietario: una scelta che suona prudente. In questa prospettiva, Manzano appare come un passo strategico per ridurre la dipendenza da tecnologie di terze parti e consolidare un’IA multitasking sviluppata in casa.