Danny Weber
14:05 29-08-2025
© RusPhotoBank
A Microsoft bemutatta a MAI-Voice-1 beszédmodellt és a MAI-1-preview szövegmodellt: gyors, meggyőző hang, Copilot-integráció, kevesebb függés az OpenAI-tól.
A Microsoft újabb lépést tesz az OpenAI-tól való önállósodás felé: két saját fejlesztésű MI-rendszert mutat be, a MAI-Voice-1-et és a MAI-1-preview-t. Ez a vállalat belső MI-részlegének első komoly produktuma, és a rajt kifejezetten magabiztosnak hat.
A főszerep a MAI-Voice-1-é, egy beszédmodellé, amely kevesebb mint egy másodperc alatt állít elő egyperces hangklipet, és mindezt egyetlen GPU-n futtatva. A szintetikus hang annyira meggyőző, hogy alig lehet megkülönböztetni egy valódi beszélőtől. A modell már működik a Copilot Dailyben: egy műsorvezető híreket olvas fel, illetve podcast-szerű magyarázatokat ad összetett témákhoz. Kipróbálható a Copilot Labsben is, ahol a felhasználók szöveget vihetnek be, hangokat válthatnak, sőt a beszédstílust is finomhangolhatják. A sebesség és a szerény hardverigény párosa átgondolt mérnöki munkára utal.
A második rendszer, a MAI-1-preview, egy szövegmodell, amelyet 15 000 Nvidia H100 GPU-val tanítottak. Utasításkövetésre és a ChatGPT-hez hasonló válaszok előállítására készült. A Microsoft rövidesen beépítené a Copilotba, hogy csökkentse függőségét az OpenAI-tól, és a modellt már tesztelik a nyílt LMArena platformon. A nyilvános próbák azt jelzik, hogy a csapat magabiztos, és széles körű visszajelzést szeretne.
Ezekkel a modellekkel a Microsoft kettős szerepbe lép: továbbra is partnere az OpenAI-nak, de egyben versenytársa is. Miközben az OpenAI a ChatGPT-5-ön dolgozik, a Google pedig a Gemini és a DeepMind vizuális modelljeit emeli ki, a Microsoft látványosan erősíti saját pozícióját olyan alternatívákkal, amelyek már most a gyorsaságukkal és a minőségükkel hívják fel magukra a figyelmet.