音声（合成・認識・音楽）

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 10 件

エージェント期 OpenAI 2026-05-07

v2.36.0

OpenAI Python SDK v2.36.0 — Realtime v2 対応

OpenAI 公式 Python SDK v2.36.0 は Realtime API の第 2 世代（realtime 2）に対応した。従来 v1 で提供されていた音声・テキストの双方向ストリーミング API が刷新された世代にアップグレードされ、SDK 側もそのインターフェースを公開する。実時間で音声入出力を扱う Voice Agent 構築の主要パスとして、OpenAI 側の更新とSDK 側の追従が短期間で揃った形になる。

ソース: OpenAI Python SDK Releases

エージェント期 Google DeepMind / Google 2026-05-04

v1.75.0

Google google-genai SDK v1.75.0 — Multimodal File Search 追加

Google `google-genai` Python SDK v1.75.0 は Multimodal File Search を新規追加した機能リリース。テキストだけでなく画像や音声を含むファイル群を対象に意味検索が行える。あわせて async mTLS パスでトークンが古いまま使われる不具合の修正も入っている。Gemini の RAG / マルチモーダル検索を SDK 経由で組み立てる主要パスが揃った形。

ソース: Google GenAI Python SDK Releases

マルチモーダル期 xAI 2026-05-02

Custom Voices and Voice Library

Grok Custom Voices と Voice Library を提供開始

xAI は Grok にカスタム音声機能 Custom Voices と、事前用意された音声を選べるVoice Library を公開した。ユーザーは自分の音声特性をベースにしたカスタムキャラクター音声を作成でき、Grok とのインタラクションをパーソナライズできる。エンタープライズ向け IVR / バーチャルアシスタント用途の拡張を示唆。

ソース: xAI News

エージェント期 xAI 2026-04-30

Grok Voice Think Fast 1.0

Grok Voice Think Fast 1.0 — 低レイテンシ音声推論モデル

xAI は低レイテンシで対話可能な音声推論モデル Grok Voice Think Fast 1.0 を公開した。従来の Grok Voice Agent より応答遅延を大幅短縮しつつ、ある程度の推論能力を維持。ライブ通話・カスタマーサポート IVR・リアルタイムガイドなど、即応性が要求される用途を狙う。

ソース: xAI News

エージェント期 xAI 2026-04-29

Grok Speech to Text and Text to Speech APIs

Grok の STT / TTS API を公開

xAI は Grok の音声認識 (Speech-to-Text) と音声合成 (Text-to-Speech) を独立した API として公開した。Grok 全体ではなく、音声系のコンポーネントだけを単独で組み込みたい開発者向けの構成。OpenAI Whisper / TTS、ElevenLabs と直接競合するポジションに踏み込む。

ソース: xAI News

エージェント期 xAI 2026-04-14

Grok Voice Agent API

Grok Voice Agent API を公開

xAI は会話型音声エージェント構築のための Grok Voice Agent API を公開した。音声入力受信 → 処理 → 音声出力までを一体で扱う API で、電話応答 / カスタマーサポート / 音声アシスタント等の用途を想定。OpenAI Realtime API・Cartesia・Vapi 等と直接競合するレイヤー。

ソース: xAI News

エージェント期 Meta AI / Meta 2026-03-26

Learn More

TRIBE v2 — 人間脳の応答を予測する基盤モデル、解像度 70 倍向上

Meta は人間脳の神経活動を予測する基盤モデル「TRIBE v2」を発表した。視覚 / 聴覚刺激への脳応答を予測するデジタルツインとして機能し、同種モデルと比較して 70 倍の解像度向上を実現する。神経科学者・臨床研究者は被験者を必要とせずに仮説検証できるようになる。モデル・コード・論文・対話デモを公開。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-16

Learn More

SAM Audio — 音声分離向け初の統合マルチモーダルモデル

Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。

ソース: Meta AI Blog

マルチモーダル期 OpenAI 2024-05-13

GPT-4o（omni）リリース

テキスト・画像・音声をネイティブに統合した GPT-4o が公開。音声応答が実時間に近づき、価格は GPT-4 Turbo の半額に。

ソース: GPT-4o

マルチモーダル期 Google DeepMind / Google 2023-12-06

Google Gemini 1 発表 — マルチモーダルネイティブモデル

Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。

ソース: Gemini (language model)