Microsofts MAI-Voice-1 og MAI-1-preview: lynrask KI for tale og tekst

Microsoft tar et nytt steg mot større uavhengighet fra OpenAI og avduker to egenutviklede KI-systemer: MAI-Voice-1 og MAI-1-preview. Dette er det første store resultatet fra selskapets interne KI-enhet, og debuten fremstår selvsikker.

Høydepunktet er MAI-Voice-1, en talemodell som kan produsere et ettminutts lydklipp på under ett sekund og kjører på én enkelt GPU. Den syntetiske stemmen er så overbevisende at det knapt lar seg skille fra et menneske. Modellen er allerede i bruk i Copilot Daily, der en programleder leser nyheter og leverer forklaringer i podkast-stil om komplekse temaer. Den kan også prøves i Copilot Labs, der brukere skriver inn tekst, bytter stemmer og tilpasser talestilen. Blandingen av tempo og beskjedne maskinvarekrav peker mot nøye ingeniørarbeid.

Det andre systemet, MAI-1-preview, er en tekstmodell trent på 15 000 Nvidia H100-GPU-er. Den er bygget for å følge instruksjoner og gi svar i ChatGPT-stil. Microsoft planlegger å bygge den inn i Copilot snart for å redusere avhengigheten av OpenAI, og modellen testes allerede på den åpne plattformen LMArena. Offentlige tester tyder på at teamet er trygt på seg selv og ønsker bred tilbakemelding.

Med disse modellene går Microsoft inn i en dobbeltrolle: fortsatt partner for OpenAI, men også konkurrent. Mens OpenAI utvikler ChatGPT-5 og Google fremmer sine visuelle modeller Gemini og DeepMind, styrker Microsoft tydelig sin egen posisjon med alternativer som allerede skiller seg ut på hastighet og kvalitet.