Microsoft presenterar MAI-Voice-1 och MAI-1-preview för Copilot

Microsoft tar ännu ett steg mot självständighet från OpenAI och visar upp två egenutvecklade AI-system: MAI-Voice-1 och MAI-1-preview. Det är den första större leveransen från bolagets interna AI-enhet, och debuten känns självsäker.

Huvudnumret är MAI-Voice-1, en röstmodell som kan skapa ett ljudklipp på en minut på under en sekund och körs på en enda GPU. Den syntetiska rösten är så övertygande att det knappt går att skilja den från en människa. Modellen används redan i Copilot Daily, där en programledare läser nyheter och levererar poddliknande förklaringar av komplexa ämnen. Den går också att prova i Copilot Labs, där användare kan skriva in text, byta röst och även justera talstilen. Kombinationen av hastighet och blygsamma hårdvarukrav pekar mot omsorgsfull ingenjörskonst.

Det andra systemet, MAI-1-preview, är en textmodell tränad med 15 000 Nvidia H100-GPU:er. Den är byggd för att följa instruktioner och generera svar i stil med ChatGPT. Microsoft planerar att väva in den i Copilot inom kort för att minska beroendet av OpenAI, och modellen testas redan på den öppna plattformen LMArena. Offentliga tester antyder att teamet agerar med självförtroende och vill samla in bred återkoppling.