Danny Weber
18:24 27-09-2025
© A. Krivonosov
Apple Manzano erklärt: hybrides KI-Modell für Bildanalyse und -generierung mit einheitlichem Tokenizer. Training über 1,6 Bio. Token; iOS 26 nutzt GPT‑5.
Apple arbeitet an einem neuen KI-Modell namens Manzano, das Bilder nicht nur analysieren, sondern auch erzeugen kann. Das ist einer der härtesten Bereiche der Branche, und derzeit liegen die meisten Herausforderer noch deutlich hinter Schwergewichten wie OpenAIs GPT-4o und Googles Gemini 2.5 Flash Image Generation (früher Nano Banana). Manzano wirkt hier wie ein ambitionierter Vorstoß.
Im Kern setzt Manzano auf einen hybriden Tokenizer: Ein einziger Encoder erzeugt kontinuierliche Token für das visuelle Verständnis und diskrete Token für die Erstellung. Dieses Design soll die Reibung zwischen beiden Aufgaben mindern und einem System ermöglichen, beides souverän zu bewältigen. Die Architektur kombiniert den Tokenizer mit einem einheitlichen Sprachmodell und einem eigenständigen Bild-Decoding-Modul. Geplant sind mehrere Varianten – von 900 Millionen bis 35 Milliarden Parametern –, damit das System mit Bildern unterschiedlicher Größe umgehen kann.
Das Training erfolgte in drei Phasen über 1,6 Billionen Token, darunter 2,3 Milliarden Text–Bild-Paare und 1 Milliarde Bild–Text-Paare. Ein Teil des Datensatzes wurde mit DALL‑E 3 und ShareGPT‑4o erzeugt. In internen Tests lieferte Manzano starke Ergebnisse auf ScienceQA, MathVista und MMMU, besonders beim Auslesen von Diagrammen und textlastigen Dokumenten. Auf der generativen Seite folgt das System komplexen Anweisungen, meistert Stilwechsel und rekonstruiert sogar Tiefen. Wie bei internen Benchmarks gilt: Die Zahlen sind ermutigend, ein nüchterner Blick bleibt dennoch angebracht.
Trotz des Fortschritts heißt es von Apple, die Basismodelle lägen weiterhin hinter den Marktführern zurück. Deshalb wird iOS 26 OpenAIs GPT‑5 innerhalb von Apple Intelligence weiter einsetzen – parallel zur eigenen Entwicklung. Vor diesem Hintergrund wirkt Manzano wie ein strategischer Schritt, die Abhängigkeit von Fremdtechnologie zu verringern und eine eigene Multi-Task-KI auszubauen – eher Etappe als Ziel.