マルチモーダル統合(画像・動画・音声)。modalities フィールドとは別に「マルチモーダル化が記事の主眼」のときだけ topic 化

記事 7 件

エージェント期 Google DeepMind / Google 2026-05-04

v1.75.0

Google google-genai SDK v1.75.0 — Multimodal File Search 追加

Google `google-genai` Python SDK v1.75.0 は Multimodal File Search を新規追加した機能リリース。テキストだけでなく画像や音声を含むファイル群を対象に意味検索が行える。あわせて async mTLS パスでトークンが古いまま使われる不具合の修正も入っている。Gemini の RAG / マルチモーダル検索を SDK 経由で組み立てる主要パスが揃った形。

ソース: Google GenAI Python SDK Releases

マルチモーダル期 OpenAI 2024-05-13

GPT-4o(omni)リリース

テキスト・画像・音声をネイティブに統合した GPT-4o が公開。音声応答が実時間に近づき、価格は GPT-4 Turbo の半額に。

ソース: GPT-4o

マルチモーダル期 Anthropic 2024-03-04

Anthropic Claude 3 ファミリー(Opus / Sonnet / Haiku)公開

Anthropic が Claude 3 ファミリー (Opus / Sonnet / Haiku の 3 サイズ) を公開。Opus が複数のベンチマークで GPT-4 を上回り、Anthropic が技術的な競合として頭角を現した転換点。視覚入力にも対応。

ソース: Claude (language model)

マルチモーダル期 OpenAI 2024-02-15

OpenAI Sora 発表 — 高品質テキスト→動画生成

OpenAI が text-to-video モデル Sora を発表。最大 1 分の高解像度動画を一貫した物理表現で生成可能。映像系生成 AI の質的なジャンプを示し、Runway / Pika 等の競合と動画 AI 戦争が本格化。

ソース: Sora (text-to-video model)

マルチモーダル期 Google DeepMind / Google 2023-12-06

Google Gemini 1 発表 — マルチモーダルネイティブモデル

Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。

ソース: Gemini (language model)

RLHF / アラインメント期 OpenAI 2023-03-14

GPT-4 リリース — マルチモーダル + プロ用途で大幅性能向上

OpenAI が GPT-4 を公開。法曹試験で上位 10% に入る等、専門領域でのベンチマーク性能が大幅に伸びた。テキスト + 画像入力に対応した最初の主力モデル。同日に Anthropic も Claude 1 を API 公開している。

ソース: GPT-4

GPT-3 期 OpenAI 2021-01-05

DALL·E と CLIP を OpenAI が同日公開 — 画像とテキストの結合

OpenAI が同日に DALL·E(テキストから画像生成)と CLIP(テキスト・画像の埋め込み統一)を発表。マルチモーダル基盤の幕開けとして、その後の Stable Diffusion / Midjourney / Sora 等の前史となる。

ソース: DALL-E