Learn More

English summary

Meta launches SAM Audio, the first unified multimodal model for audio separation. Built on Perception Encoder Audiovisual (PE-AV), SAM Audio achieves state-of-the-art performance on audio separation tasks across intuitive multimodal prompts. The company also releases SAM Audio-Bench, the first in-the-wild audio separation benchmark. SAM Audio and PE-AV are available starting today.

Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。

ポイント

SAM Audio — 音声分離向け初の統合マルチモーダルモデル
Perception Encoder Audiovisual (PE-AV) を基盤に SOTA を達成
SAM Audio-Bench という in-the-wild 評価ベンチマークも公開
SAM Audio・PE-AV ともに即日利用可能

ソース

Meta AI Blog