Danny Weber
18:37 27-09-2025
© A. Krivonosov
Apple का Manzano हाइब्रिड टोकनाइज़र से इमेज समझ व जनरेशन करता है; 1.6T टोकन पर ट्रेन, चार्ट/दस्तावेज़ों में मजबूत, फिर भी GPT-4o और Gemini से पीछे.
Apple एक नया AI मॉडल Manzano विकसित कर रहा है, जो न सिर्फ तस्वीरों का विश्लेषण कर सकता है, बल्कि उन्हें बना भी सकता है. यह AI का सबसे चुनौतीपूर्ण मोर्चों में से एक है, और फिलहाल अधिकांश दावेदार व्यावसायिक दिग्गज—OpenAI के GPT-4o और Google के Gemini 2.5 Flash Image Generation (जिसे पहले Nano Banana कहा जाता था)—से अभी भी पीछे हैं.
Manzano के केंद्र में एक हाइब्रिड टोकनाइज़र है: एक ही एन्कोडर दृश्य समझ के लिए सतत टोकन देता है और सृजन के लिए विविक्त टोकन. यह डिजाइन दोनों कामों के बीच का घर्षण कम करने की कोशिश करता है, ताकि एक ही सिस्टम भरोसे के साथ दोनों भूमिकाएं निभा सके. आर्किटेक्चर इस टोकनाइज़र को एकीकृत भाषा मॉडल और एक स्वतंत्र इमेज-डीकोडिंग मॉड्यूल के साथ जोड़ता है. कई आकारों की योजना है—900 मिलियन से 35 बिलियन पैरामीटर तक—ताकि यह अलग-अलग आकार की छवियों के साथ काम कर सके.
ट्रेनिंग तीन चरणों में 1.6 ट्रिलियन टोकन पर हुई, जिनमें 2.3 बिलियन टेक्स्ट–इमेज पेयर और 1 बिलियन इमेज–टेक्स्ट पेयर शामिल थे. डेटासेट का एक हिस्सा DALL-E 3 और ShareGPT-4o से तैयार किया गया था. आंतरिक परीक्षणों में Manzano ने ScienceQA, MathVista और MMMU पर मजबूत प्रदर्शन दिखाया, खासकर चार्ट और टेक्स्ट-हेवी दस्तावेज़ों को पार्स करते समय. जनरेटिव पक्ष पर, यह जटिल निर्देशों का पालन करता है, शैली में बदलाव संभालता है और डेप्थ रिकंस्ट्रक्शन भी करता है. जैसे हर इन-हाउस बेंचमार्क के साथ होता है, आंकड़े उत्साह जगाते हैं, लेकिन उन्हें संयत नज़र से देखने में ही समझदारी है.
तरक्की के बावजूद, Apple का कहना है कि इसके बेस मॉडल अभी भी बाजार के नेताओं से पीछे हैं. इसी वजह से iOS 26 में Apple Intelligence के भीतर OpenAI का GPT-5, Apple के अपने समाधानों के साथ, इस्तेमाल होता रहेगा. इस पृष्ठभूमि में, Manzano तीसरे पक्ष की तकनीक पर निर्भरता घटाने और अपना मल्टी-टास्क AI खड़ा करने की दिशा में एक सुविचारित चाल जैसा दिखता है.