Gemini artık ses dosyalarını algılıyor. Artık Gemini’ye MP3, M4A veya WAV dosyalarını yükleyebiliyorsun ve uygulama bunların transkriptini çıkarıyor, özetini hazırlıyor, hatta sorularına yanıt bile verebiliyor.
Yani ders kayıtları, podcast’ler veya toplantı notları artık tek tek dinlemek zorunda kalmadan hızlıca analiz edilebiliyor.
Kullanması da oldukça kolay. Uygulamayı açıyorsun, ‘Dosya yükle’ diyorsun, ses dosyanı seçiyorsun ve sonra Gemini’ye ‘Bunu özetle’ ya da ‘Burada ne anlatılıyor?’ gibi sorular yöneltiyorsun. Birkaç dakika içinde sana hem yazılı özetini hem de önemli noktaları zaman kodlarıyla veriyor.
Ücretsiz hesaplar kısa dosyalar için limitli olsa da, Pro veya Ultra hesaplarda daha uzun ve daha fazla dosya yükleyebiliyorsunuz.
Sesle neler yapabiliyor derseniz, konuşmayı yazıya dökebiliyor, özet çıkartıyor, önemli bölümleri ayırıyor ve belirli sorulara cevap verebiliyor.
Mesela bir toplantıda kim ne demiş, hangi kısım önemli gibi detayları hızlıca öğrenebilirsiniz. Ayrıca podcast veya ders kayıtlarını ‘audio overview’ olarak özetleyip tek bir sayfada sunabiliyor.
Ama tabii işin püf noktası ses kalitesi. Arka plan gürültüsü çoksa ya da birden fazla kişi aynı kanalda konuşuyorsa transkript biraz karışabiliyor.
En iyi sonuç için temiz, net ve mümkünse tek konuşmacılı sesler yüklemek gerekiyor. Benim yüklediğim ses kaydını %50 doğru çıkardı diyebilirim. Ortama ve ses kalitesine göre de durum değişiyor yani.