Microsoft, yazılı içeriklerden sesli podcast üretebilen yeni bir yapay zeka duyurdu: adı VibeVoice. Elinde sadece metin var ve bunu birkaç tıkla, doğal bir şekilde, sanki gerçek insanlar konuşuyormuş gibi bir podcast’e dönüştürebilmek artık mümkün.
Üstelik sistem, aynı anda dört farklı sesle konuşma yapabiliyor. Yani bir hikayeyi, sohbeti veya eğitim materyalini tek ses yerine bir grup konuşuyormuş gibi hazırlamak da mümkün.
VibeVoice’ın dikkat çeken yanı uzun süreli içerik üretebiliyor olması. Sistem 90 dakikaya kadar kesintisiz ses üretebiliyor.
Normal metinden sese sistemlerinde genelde birkaç dakikayı geçmek zordu, ancak bu yapay zeka uzun formatta içerik üretmeye izin veriyor ve üstelik sesler daha doğal ve akıcı, duyguyu ve tonlamayı hissetmek mümkün.
VibeVoice, ‘next-token difüzyon’ adı verilen bir yöntem kullanıyor. Bu yöntem, sesin akışını ve ritmini tahmin ederek, sıradaki konuşma birimini oluşturuyor.