Apple Manzano – model AI łączący rozumienie i generowanie obrazów
Apple Manzano to hybrydowy model AI do rozumienia i generowania obrazów. Opis architektury, treningu i wyników; w iOS 26 wsparcie GPT-5 pozostaje na razie.
Apple Manzano to hybrydowy model AI do rozumienia i generowania obrazów. Opis architektury, treningu i wyników; w iOS 26 wsparcie GPT-5 pozostaje na razie.
© A. Krivonosov
Apple rozwija nowy model AI o nazwie Manzano, który potrafi nie tylko analizować obrazy, ale także je tworzyć. To jedna z najtrudniejszych dziedzin w tej branży, a na razie większość graczy wyraźnie odstaje od komercyjnych gigantów, takich jak GPT-4o od OpenAI czy Gemini 2.5 Flash Image Generation od Google (wcześniej pod nazwą Nano Banana).
W centrum Manzano jest hybrydowy tokenizator: pojedynczy enkoder wytwarza ciągłe tokeny na potrzeby rozumienia wizualnego oraz dyskretne tokeny do generowania — co brzmi jak pragmatyczny kompromis zmniejszający tarcie między tymi zadaniami i pozwalający jednemu systemowi sprawnie radzić sobie z obiema rolami. Architektura łączy ten tokenizator z ujednoliconym modelem językowym i osobnym modułem dekodowania obrazu. Przewidziano kilka wariantów wielkości — od 900 milionów do 35 miliardów parametrów — aby model mógł pracować z obrazami o różnych rozmiarach.
Szkolenie przebiegało w trzech etapach i objęło łącznie 1,6 biliona tokenów, w tym 2,3 miliarda par tekst–obraz oraz 1 miliard par obraz–tekst. Część zbioru danych wygenerowano za pomocą DALL‑E 3 i ShareGPT‑4o. W testach wewnętrznych Manzano osiągał mocne wyniki w ScienceQA, MathVista i MMMU, zwłaszcza przy analizie wykresów oraz dokumentów pełnych tekstu. Po stronie generowania model podąża za złożonymi instrukcjami, radzi sobie ze zmianą stylu i potrafi nawet przeprowadzić rekonstrukcję głębi. Jak to bywa z firmowymi benchmarkami, liczby wyglądają obiecująco, ale podchodzenie do nich z rezerwą wydaje się rozsądne.
Mimo postępów Apple mówi, że jego bazowe modele wciąż ustępują liderom rynku. Dlatego w iOS 26 nadal będzie wykorzystywany GPT‑5 od OpenAI w ramach Apple Intelligence, obok rozwiązań tworzonych wewnętrznie. Na tym tle Manzano jawi się jako krok strategiczny: sposób na ograniczanie zależności od technologii zewnętrznych i stopniowe budowanie własnej, wielozadaniowej sztucznej inteligencji.