Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。

ポイント

  • SAM Audio — 音声分離向け初の統合マルチモーダルモデル
  • Perception Encoder Audiovisual (PE-AV) を基盤に SOTA を達成
  • SAM Audio-Bench という in-the-wild 評価ベンチマークも公開
  • SAM Audio・PE-AV ともに即日利用可能

ソース

Meta AI Blog