Microsoft uruchamia MAI-Voice-1 i MAI-1-preview: szybsze modele AI, mniej zależności od OpenAI

Microsoft robi kolejny krok w stronę uniezależnienia się od OpenAI, prezentując dwa własne systemy AI: MAI-Voice-1 i MAI-1-preview. To pierwszy poważny efekt pracy wewnętrznego zespołu AI w firmie, a debiut wypada pewnie — ruch sprawia wrażenie dobrze przemyślanego i nakierowanego na większą samodzielność.

Najwięcej uwagi przyciąga MAI-Voice-1 — model mowy, który potrafi wygenerować minutowy klip audio w mniej niż sekundę i działa na pojedynczym GPU. Syntezowany głos brzmi tak przekonująco, że odróżnienie go od prawdziwego bywa praktycznie niewykonalne. Model już pracuje w Copilot Daily, gdzie lektor czyta wiadomości i podaje wyjaśnienia w stylu podcastów do bardziej złożonych tematów. Można go też sprawdzić w Copilot Labs: użytkownik wpisuje tekst, zmienia głosy i dostraja styl mówienia. Połączenie prędkości z niskimi wymaganiami sprzętowymi sugeruje staranną inżynierię.

Drugi system, MAI-1-preview, to model tekstowy wytrenowany z użyciem 15 000 układów Nvidia H100. Został zbudowany do wykonywania instrukcji i generowania odpowiedzi w stylu ChatGPT. Microsoft planuje wkrótce wpleść go w Copilota, by zmniejszyć zależność od OpenAI, a sam model jest już testowany na otwartej platformie LMArena. Publiczne próby wskazują, że zespół czuje się pewnie i chce zebrać jak najszerszy odzew.

Wraz z tymi modelami Microsoft przyjmuje podwójną rolę: pozostaje partnerem OpenAI, a jednocześnie staje się rywalem. Gdy OpenAI rozwija ChatGPT-5, a Google promuje swoje wizualne modele Gemini i DeepMind, Microsoft wyraźnie wzmacnia pozycję, proponując alternatywy, które już teraz wyróżniają się szybkością i jakością.