Apple का नया AI मॉडल Manzano: हाइब्रिड टोकनाइज़र से इमेज समझ और जनरेशन

Danny Weber

18:37 27-09-2025

© A. Krivonosov

Apple का Manzano हाइब्रिड टोकनाइज़र से इमेज समझ व जनरेशन करता है; 1.6T टोकन पर ट्रेन, चार्ट/दस्तावेज़ों में मजबूत, फिर भी GPT-4o और Gemini से पीछे.

Apple एक नया AI मॉडल Manzano विकसित कर रहा है, जो न सिर्फ तस्वीरों का विश्लेषण कर सकता है, बल्कि उन्हें बना भी सकता है. यह AI का सबसे चुनौतीपूर्ण मोर्चों में से एक है, और फिलहाल अधिकांश दावेदार व्यावसायिक दिग्गज—OpenAI के GPT-4o और Google के Gemini 2.5 Flash Image Generation (जिसे पहले Nano Banana कहा जाता था)—से अभी भी पीछे हैं.

Manzano के केंद्र में एक हाइब्रिड टोकनाइज़र है: एक ही एन्कोडर दृश्य समझ के लिए सतत टोकन देता है और सृजन के लिए विविक्त टोकन. यह डिजाइन दोनों कामों के बीच का घर्षण कम करने की कोशिश करता है, ताकि एक ही सिस्टम भरोसे के साथ दोनों भूमिकाएं निभा सके. आर्किटेक्चर इस टोकनाइज़र को एकीकृत भाषा मॉडल और एक स्वतंत्र इमेज-डीकोडिंग मॉड्यूल के साथ जोड़ता है. कई आकारों की योजना है—900 मिलियन से 35 बिलियन पैरामीटर तक—ताकि यह अलग-अलग आकार की छवियों के साथ काम कर सके.

ट्रेनिंग तीन चरणों में 1.6 ट्रिलियन टोकन पर हुई, जिनमें 2.3 बिलियन टेक्स्ट–इमेज पेयर और 1 बिलियन इमेज–टेक्स्ट पेयर शामिल थे. डेटासेट का एक हिस्सा DALL-E 3 और ShareGPT-4o से तैयार किया गया था. आंतरिक परीक्षणों में Manzano ने ScienceQA, MathVista और MMMU पर मजबूत प्रदर्शन दिखाया, खासकर चार्ट और टेक्स्ट-हेवी दस्तावेज़ों को पार्स करते समय. जनरेटिव पक्ष पर, यह जटिल निर्देशों का पालन करता है, शैली में बदलाव संभालता है और डेप्थ रिकंस्ट्रक्शन भी करता है. जैसे हर इन-हाउस बेंचमार्क के साथ होता है, आंकड़े उत्साह जगाते हैं, लेकिन उन्हें संयत नज़र से देखने में ही समझदारी है.

तरक्की के बावजूद, Apple का कहना है कि इसके बेस मॉडल अभी भी बाजार के नेताओं से पीछे हैं. इसी वजह से iOS 26 में Apple Intelligence के भीतर OpenAI का GPT-5, Apple के अपने समाधानों के साथ, इस्तेमाल होता रहेगा. इस पृष्ठभूमि में, Manzano तीसरे पक्ष की तकनीक पर निर्भरता घटाने और अपना मल्टी-टास्क AI खड़ा करने की दिशा में एक सुविचारित चाल जैसा दिखता है.