Yapay zekâ alanında hem donanım hem de model geliştirme konusunda lider firmalardan biri olan NVIDIA, “ses için İsviçre çakısı” olarak tanımladığı yeni yapay zekâ modeli Fugatto’yu (Foundational Generative Audio Transformer Opus 1) duyurdu. Bu deneysel üretken yapay zekâ aracı, metinle verilen komutlardan ses dosyası oluşturabilme yeteneğiyle dikkat çekiyor.
Adını Çok Sesli Bestelerden Alıyor
Fugatto ismi, çok sesli ve tekrar eden melodilerden oluşan bir beste türü olan “Fugato”dan esinlenmiş. Bu isim seçimi tesadüf değil; model, farklı aksanlar ve dilleri algılayarak “çok sesli” bir yapıya sahip olması için dünyanın dört bir yanından uzmanlar tarafından geliştirildi.
İnsan Gibi Ses Anlama ve Üretme Yeteneği
NVIDIA Uygulamalı Ses Araştırmaları Yöneticisi Rafael Valle, Fugatto hakkında yaptığı açıklamada, “İnsanların sesleri algıladığı ve ürettiği şekilde çalışan bir model oluşturmayı hedefledik.” dedi. Şirket, modelin pratikte nasıl kullanılabileceğine dair çeşitli örnekler de paylaştı. Fugatto’nun şarkı prototipleri oluşturma, farklı müzik tarzları ve enstrümanları deneme gibi yaratıcı süreçlere katkıda bulunabileceği belirtiliyor.
Fugatto’nun Potansiyel Kullanım Alanları
- Dil öğrenimi: Farklı aksanlar ve tonlar oluşturabilmesi, dil öğrenme süreçlerine destek sağlayabilir.
- Oyun geliştirme: Aynı sesin farklı varyasyonlarını üreterek oyun karakterlerinin çeşitlenmesine yardımcı olabilir.
- Yeni alanlar: Fugatto, sadece mevcut verilerle sınırlı kalmayarak, daha önce eğitilmediği alanlara kolayca adapte edilebiliyor.
Kamuya Açık Olup Olmayacağı Belirsiz
NVIDIA, Fugatto’nun halka açık bir şekilde sunulup sunulmayacağı konusunda bir açıklama yapmadı. Ancak benzer projeler geliştiren Meta ve Google gibi firmaların modelleriyle rekabet edeceği düşünülüyor. Fugatto, özellikle yaratıcı endüstrilerde ve eğitim alanlarında çığır açabilecek bir araç olarak görülüyor.