Danny Weber
18:35 27-09-2025
© A. Krivonosov
Apple lansează Manzano, un model AI cu tokenizator hibrid ce înțelege și generează imagini. Detalii despre arhitectură, antrenare și rolul în iOS 26 cu GPT-5.
Apple dezvoltă un nou model de inteligență artificială, Manzano, capabil nu doar să analizeze imagini, ci și să le genereze. Este una dintre zonele cele mai dificile ale domeniului, iar deocamdată mulți rivali rămân în urma greilor comerciali precum GPT-4o de la OpenAI și Gemini 2.5 Flash Image Generation, denumit anterior Nano Banana. Ambiția e vizibilă: un singur sistem care să înțeleagă și să creeze, fără compromisuri evidente.
La baza lui Manzano se află un tokenizator hibrid: un singur encoder produce tokeni continui pentru înțelegerea vizuală și tokeni discreți pentru generare. Această construcție încearcă să reducă frecarea dintre cele două tipuri de sarcini, astfel încât un singur model să le poată gestiona cu încredere. Arhitectura combină tokenizatorul cu un model lingvistic unificat și un modul separat pentru decodarea imaginilor. Sunt prevăzute mai multe dimensiuni, de la 900 de milioane la 35 de miliarde de parametri, pentru a lucra cu imagini de mărimi diferite.
Antrenarea s-a desfășurat în trei etape pe 1,6 trilioane de tokeni, incluzând 2,3 miliarde de perechi text–imagine și 1 miliard de perechi imagine–text. O parte a setului de date a fost generată cu DALL-E 3 și ShareGPT-4o. În testele interne, Manzano a obținut rezultate solide pe ScienceQA, MathVista și MMMU, în special la interpretarea graficelor și a documentelor încărcate cu text. La capitolul generare, urmează instrucțiuni complexe, schimbă stiluri și poate realiza reconstrucții de profunzime. Ca în orice evaluare internă, cifrele arată promițător, dar merită privite cu măsură.
În pofida progreselor, Apple susține că modelele sale de bază sunt încă în urma liderilor pieței. Drept urmare, iOS 26 va continua să folosească GPT-5 de la OpenAI în cadrul Apple Intelligence, alături de soluțiile proprii. Din această perspectivă, Manzano pare mai degrabă un pas strategic spre reducerea dependenței de tehnologie terță și consolidarea unui AI multitask construit în interior, semn că miza este controlul pe termen lung, nu sprintul pe termen scurt.