English summary
Meta launches SAM Audio, the first unified multimodal model for audio separation. Built on Perception Encoder Audiovisual (PE-AV), SAM Audio achieves state-of-the-art performance on audio separation tasks across intuitive multimodal prompts. The company also releases SAM Audio-Bench, the first in-the-wild audio separation benchmark. SAM Audio and PE-AV are available starting today.
Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。
ポイント
- SAM Audio — 音声分離向け初の統合マルチモーダルモデル
- Perception Encoder Audiovisual (PE-AV) を基盤に SOTA を達成
- SAM Audio-Bench という in-the-wild 評価ベンチマークも公開
- SAM Audio・PE-AV ともに即日利用可能
ソース
Meta AI Blog