Microsoft introducerar tre nya AI-modeller för multimodal hantering

Microsoft stärker sin position inom artificiell intelligens genom att introducera tre nya modeller för text-, röst- och bildbehandling. Företaget satsar på att utveckla egna tekniker och vill befästa sin ställning i en allt hårdare konkurrens mellan stora marknadsaktörer.

Enligt Central News Service delar dessa nya lösningar en multimodal ansats: de kan hantera olika datatyper inom ett och samma ekosystem. Bland dem finns en taligenkänningsmodell som stöder dussintals språk, ett verktyg för ljudgenerering som skapar skräddarsydda röster, samt ett system för visuellt innehåll, inklusive bild- och videogenerering.

Alla dessa utvecklingar integreras redan i Microsofts plattformar, som Foundry och testmiljön Playground. Företaget betonar att fokus ligger på praktisk användning av AI i användarnas vardagliga uppgifter, och framtida utveckling kommer att bygga på en kombination av egna tekniker med partnerlösningar.