Danny Weber
18:36 27-09-2025
© A. Krivonosov
Apple’ın Manzano modeli, hibrit belirteçleyiciyle görselleri hem analiz ediyor hem üretiyor. Eğitim verileri, kıyaslamalar ve iOS 26’daki rolü bu yazıda.
Apple, yalnızca görselleri analiz etmekle kalmayıp onları üretebilen Manzano adlı yeni bir yapay zekâ modeli üzerinde çalışıyor. Alanın en zorlu kulvarlarından biri olan bu alanda, şimdilik çoğu aday OpenAI’nin GPT‑4o’su ve Google’ın önce Nano Banana olarak bilinen Gemini 2.5 Flash Image Generation’ı gibi ticari ağır sıkletlerin hayli gerisinde. Çıta hâlâ yüksek.
Manzano’nun kalbinde hibrit bir belirteçleyici yer alıyor: tek bir kodlayıcı, görsel kavrayış için sürekli, üretim içinse ayrık belirteçler üretiyor. Tasarım, iki görev arasındaki sürtünmeyi azaltmayı ve tek bir sistemin ikisini de güvenle üstlenmesini amaçlıyor. Mimari, bu belirteçleyiciyi birleşik bir dil modeli ve bağımsız bir görüntü kod çözme modülüyle eşleştiriyor. Farklı görsel boyutlarına uyum için 900 milyon ile 35 milyar parametre arasında değişen çeşitli sürümler planlanıyor.
Eğitim, 1,6 trilyon belirtece yayılan üç aşamada ilerledi; buna 2,3 milyar metin–görsel çifti ve 1 milyar görsel–metin çifti dâhil. Veri kümesinin bir bölümü DALL‑E 3 ve ShareGPT‑4o ile üretildi. Dahili testlerde Manzano, özellikle grafikler ve metin ağırlıklı belgeleri çözümlemede ScienceQA, MathVista ve MMMU üzerinde güçlü sonuçlar verdi. Üretim tarafında karmaşık talimatları izliyor, tarz değişimlerini yönetiyor ve hatta derinlik rekonstrüksiyonu yapıyor. Kurum içi kıyaslamalarda her zamanki gibi rakamlar umut verici, ancak temkinli okunmayı hak ediyor.
Tüm bu ilerlemeye karşın Apple, temel modellerinin pazar liderlerinin gerisinde kaldığını söylüyor. Bu nedenle iOS 26, Apple Intelligence içinde Apple’ın kendi çalışmalarının yanında OpenAI’nin GPT‑5’ini kullanmaya devam edecek. Bu tabloda Manzano, üçüncü taraf teknolojilere bağımlılığı azaltma ve Apple’ın çok görevli yapay zekâsını güçlendirme yolunda stratejik bir adım gibi görünüyor.