Meta, görsel dünyada çığır açan Segment Anything Model (SAM) teknolojisini ses alanına taşıyan yeni nesil SAM Audio modelini duyurdu. Bu gelişmiş yapay zeka, profesyonel ses düzenleme süreçlerinde yeni bir standart belirleyerek, karmaşık ses dosyalarından istenen kaynakları çok modlu girdilerle ayırma yeteneği sunuyor.
Ses İzolasyonunda Yeni Dönem
Geleneksel yöntemlerin aksine, SAM Audio metin komutları, görsel işaretlemeler veya zaman dilimi belirleme gibi doğal etkileşim yöntemleriyle kullanıcıların belirli sesleri izole etmesine olanak tanıyor. Örneğin, bir videoda ses çıkaran nesneye tıklayarak sadece o nesnenin sesini ayırmak veya "köpek havlaması" gibi basit bir metin komutuyla istenmeyen sesleri temizlemek mümkün hale geliyor. Bu teknoloji, ses mühendisleri ve içerik üreticileri için büyük kolaylıklar vadediyor.
Teknik Altyapı ve Performans
Modelin temelinde, ses ve görsel verileri zaman ekseninde hassas bir şekilde hizalayan Perception Encoder Audiovisual (PE-AV) motoru bulunuyor. SAM Audio, 500 milyon ile 3 milyar parametre arasında değişen farklı ölçeklerde yapılandırılabiliyor ve yaklaşık 0.7'lik gerçek zamanlı işleme hızı (RTF) ile dikkat çekiyor. Mimari olarak akış eşleştirme difüzyon dönüştürücüsü üzerine inşa edilen bu üretici sistem, gerçek ve sentetik verilerden oluşan devasa bir eğitim setinden besleniyor. Sistem, karışık ses dosyasından hedeflenen sesi ve geriye kalan "artık" ses parçalarını eş zamanlı olarak üretebiliyor.
Üç Farklı Ayrıştırma Yöntemiyle Esneklik
SAM Audio'nun sunduğu üç temel ayrıştırma yöntemi, kullanıcılara benzersiz bir esneklik sağlıyor. Metin tabanlı yöntemde "piyano sesi" veya "vokal" gibi komutlarla hedef belirlenebiliyor. Görsel yöntemde ise videodaki enstrümanlar veya konuşmacılar üzerine tıklamak yeterli oluyor. Sektörde ilk kez sunulan zaman dilimi tabanlı (span prompting) yöntem ise, belirli bir zaman aralığındaki ses karakteristiğini tüm dosyada filtrelemek için kullanılıyor.


