BİLİM VE TEKNOLOJİ
Yayınlanma : 18 Aralık 2025 15:05

Meta'dan devrim niteliğinde yapay zeka: SAM Audio ile ses dünyası yeniden şekilleniyor!

Meta'dan devrim niteliğinde yapay zeka: SAM Audio ile ses dünyası yeniden şekilleniyor!
Meta, yapay zeka destekli yeni SAM Audio modelini duyurdu. Bu teknoloji, metin, görsel veya zaman dilimi komutlarıyla karmaşık ses dosyalarından istenen kaynakları kolayca ayırabiliyor.

Meta, görsel dünyada çığır açan Segment Anything Model (SAM) teknolojisini ses alanına taşıyan yeni nesil SAM Audio modelini duyurdu. Bu gelişmiş yapay zeka, profesyonel ses düzenleme süreçlerinde yeni bir standart belirleyerek, karmaşık ses dosyalarından istenen kaynakları çok modlu girdilerle ayırma yeteneği sunuyor.

Ses İzolasyonunda Yeni Dönem

Geleneksel yöntemlerin aksine, SAM Audio metin komutları, görsel işaretlemeler veya zaman dilimi belirleme gibi doğal etkileşim yöntemleriyle kullanıcıların belirli sesleri izole etmesine olanak tanıyor. Örneğin, bir videoda ses çıkaran nesneye tıklayarak sadece o nesnenin sesini ayırmak veya "köpek havlaması" gibi basit bir metin komutuyla istenmeyen sesleri temizlemek mümkün hale geliyor. Bu teknoloji, ses mühendisleri ve içerik üreticileri için büyük kolaylıklar vadediyor.

Teknik Altyapı ve Performans

Modelin temelinde, ses ve görsel verileri zaman ekseninde hassas bir şekilde hizalayan Perception Encoder Audiovisual (PE-AV) motoru bulunuyor. SAM Audio, 500 milyon ile 3 milyar parametre arasında değişen farklı ölçeklerde yapılandırılabiliyor ve yaklaşık 0.7'lik gerçek zamanlı işleme hızı (RTF) ile dikkat çekiyor. Mimari olarak akış eşleştirme difüzyon dönüştürücüsü üzerine inşa edilen bu üretici sistem, gerçek ve sentetik verilerden oluşan devasa bir eğitim setinden besleniyor. Sistem, karışık ses dosyasından hedeflenen sesi ve geriye kalan "artık" ses parçalarını eş zamanlı olarak üretebiliyor.

Üç Farklı Ayrıştırma Yöntemiyle Esneklik

SAM Audio'nun sunduğu üç temel ayrıştırma yöntemi, kullanıcılara benzersiz bir esneklik sağlıyor. Metin tabanlı yöntemde "piyano sesi" veya "vokal" gibi komutlarla hedef belirlenebiliyor. Görsel yöntemde ise videodaki enstrümanlar veya konuşmacılar üzerine tıklamak yeterli oluyor. Sektörde ilk kez sunulan zaman dilimi tabanlı (span prompting) yöntem ise, belirli bir zaman aralığındaki ses karakteristiğini tüm dosyada filtrelemek için kullanılıyor.