Danny Weber
18:26 27-09-2025
© A. Krivonosov
Apple presenta Manzano, su IA multimodal con tokenizador híbrido: analiza y genera imágenes, destaca en ScienceQA y MathVista. Conoce su papel en iOS 26.
Apple está desarrollando un nuevo modelo de IA llamado Manzano, capaz no solo de analizar imágenes, sino también de generarlas. Se adentra así en uno de los frentes más exigentes del sector, donde la mayoría de aspirantes todavía quedan a distancia de pesos pesados como GPT-4o de OpenAI y Gemini 2.5 Flash Image Generation de Google (antes Nano Banana).
En el núcleo de Manzano hay un tokenizador híbrido: un único codificador produce tokens continuos para comprensión visual y tokens discretos para creación. La apuesta busca reducir la fricción entre ambas tareas para que un mismo sistema pueda abordar las dos con solvencia. La arquitectura combina este tokenizador con un modelo de lenguaje unificado y un módulo independiente de decodificación de imágenes. Habrá varias escalas —de 900 millones a 35.000 millones de parámetros— para que pueda trabajar con imágenes de distintos tamaños.
El entrenamiento se articuló en tres etapas y abarcó 1,6 billones de tokens, con 2,3 mil millones de pares texto–imagen y 1 mil millones de pares imagen–texto. Parte del conjunto de datos se generó con DALL-E 3 y ShareGPT-4o. En pruebas internas, Manzano ofreció resultados sólidos en ScienceQA, MathVista y MMMU, especialmente al interpretar gráficos y documentos densos en texto.
En el plano generativo, sigue instrucciones complejas, maneja cambios de estilo e incluso realiza reconstrucción de profundidad. Las cifras son prometedoras, aunque, como ocurre con cualquier evaluación realizada en casa, conviene mirarlas con prudencia.
Aun con los avances, Apple afirma que sus modelos base todavía van por detrás de los líderes del mercado. Por ello, iOS 26 seguirá utilizando GPT-5 de OpenAI dentro de Apple Intelligence, en paralelo al desarrollo propio. En ese contexto, Manzano se perfila como un paso estratégico para reducir la dependencia de tecnología de terceros y afianzar una IA multitarea más bajo control de la compañía.