Microsoft stellt MAI-Voice-1 und MAI-1-preview vor: ultraschnelle Stimme, neues Chatmodell
Microsoft präsentiert MAI-Voice-1 und MAI-1-preview: ein ultraschnelles Sprachmodell und ein Chat-Textmodell für Copilot – weniger Abhängigkeit von OpenAI.
Microsoft präsentiert MAI-Voice-1 und MAI-1-preview: ein ultraschnelles Sprachmodell und ein Chat-Textmodell für Copilot – weniger Abhängigkeit von OpenAI.
© RusPhotoBank
Microsoft macht einen weiteren Schritt in Richtung Unabhängigkeit von OpenAI und präsentiert zwei hauseigene KI-Systeme: MAI-Voice-1 und MAI-1-preview. Es ist die erste große Veröffentlichung der internen KI-Einheit – und der Auftakt wirkt selbstbewusst.
Im Mittelpunkt steht MAI-Voice-1, ein Sprachmodell, das in unter einer Sekunde einen einminütigen Audioclip erzeugt und dabei auf nur einer einzigen GPU läuft. Die synthetische Stimme klingt so überzeugend, dass sie sich von einer realen kaum unterscheiden lässt. Bereits im Einsatz ist das Modell in Copilot Daily, wo eine Stimme Nachrichten vorliest und komplexe Themen im Podcast-Stil erklärt. Außerdem lässt es sich in Copilot Labs ausprobieren: Nutzerinnen und Nutzer geben Text ein, wechseln zwischen Stimmen und justieren sogar den Sprechstil. Das Zusammenspiel aus Tempo und schlanken Hardware-Anforderungen deutet auf sorgfältige Ingenieursarbeit hin.
Das zweite System, MAI-1-preview, ist ein Textmodell, das mit 15.000 Nvidia H100 GPUs trainiert wurde. Es wurde darauf ausgelegt, Anweisungen zu befolgen und ChatGPT-ähnliche Antworten zu erzeugen. Microsoft plant, es bald in Copilot zu integrieren, um die Abhängigkeit von OpenAI zu verringern; getestet wird das Modell bereits auf der offenen Plattform LMArena. Die öffentlichen Probeläufe deuten darauf, dass das Team zuversichtlich ist und bewusst breites Feedback einsammeln möchte.