マルチモーダル期

GPT-4V / Claude 3 / Gemini 1.5 / GPT-4o など、画像・音声・動画を統合的に扱うモデルが標準化。

期間: 2023-09-25 〜 2024-09-12

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 20 件

マルチモーダル期 OpenAI 2026-05-10

GPT Images 2.0 + Seecdance 2.0 でストーリーボードからのアニメ生成を試す

GPT Images 2.0 + Seedance 2.0 でストーリーボードからのアニメ生成

npaka 氏が GPT Images 2.0 でストーリーボード（4×4 グリッド・16:9 のアニメ風コマ割り）を生成し、Dreamina の Seedance 2.0 でストーリーボードを実際に動くアニメ映像に変換する実験。Nano Banana + Grok Imagine 版との比較も行い、それぞれの強みと弱みを1 発出し vs. 3 生成ベストピック方式で評価。マルチモーダル AI を組み合わせた制作パイプラインの実例として有用。

ソース: note: npaka

マルチモーダル期 xAI 2026-05-05

Grok Imagine Quality Mode API

Grok Imagine Quality Mode API — 高品質画像生成 API

xAI は Grok Imagine に高品質モード Quality Mode の API を公開した。従来の高速モードに対して、計算リソースを多めに使って細部の品質を向上させる上位ティアを提供。Grok Imagine API を活用する開発者は、用途に応じて速度・コスト・品質のトレードオフを選択できる。

ソース: xAI News

マルチモーダル期 xAI 2026-05-02

Custom Voices and Voice Library

Grok Custom Voices と Voice Library を提供開始

xAI は Grok にカスタム音声機能 Custom Voices と、事前用意された音声を選べるVoice Library を公開した。ユーザーは自分の音声特性をベースにしたカスタムキャラクター音声を作成でき、Grok とのインタラクションをパーソナライズできる。エンタープライズ向け IVR / バーチャルアシスタント用途の拡張を示唆。

ソース: xAI News

マルチモーダル期 xAI 2026-04-28

Grok Imagine API

Grok Imagine API を一般公開

xAI は画像生成モデル Grok Imagine を API として一般公開した。テキストから画像を生成する基本機能に加え、編集・参照画像入力などをプログラマブルに扱える。DALL·E / Midjourney / Stable Diffusion 系と並ぶ画像生成 API 市場への本格参入。

ソース: xAI News

マルチモーダル期 Meta AI / Meta 2026-03-27

FEATURED

SAM 3.1 公開 — マルチプレキシングとグローバル推論で高速・高精度なリアルタイム動画追跡

Meta は Segment Anything Model 3.1 (SAM 3.1) を公開した。SAM 3 の drop-in 置換として、動画処理効率を大幅に改善する。新たに導入された object multiplexing により1 forward pass で最大 16 オブジェクトを同時追跡できるようになり、リアルタイム動画における検出・追跡パイプラインの実用性が大きく向上する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2026-03-15

How Alta Daily Uses Meta’s Segment Anything to Reimagine the Digital Closet

Alta Daily、Meta の Segment Anything を使ってデジタルクローゼットを再構築

Meta の Segment Anything Model (SAM) を活用した事例。ファッション系アプリ Alta Daily が、ユーザーが撮影した衣類画像から自動で被写体を切り出し、デジタルクローゼットを構築する用途でSAM を採用した。SAM 系モデルの実応用ケーススタディとして発表されている。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2026-03-10

Learn More

Meta と World Resources Institute、DINO ベースの森林樹冠高マップ v2 を公開

Meta は World Resources Institute と提携し、DINO 系基盤モデルを用いた森林樹冠高マップ v2 (CHMv2) を公開した。オープンソースのモデルとワールドスケールのマップを提供し、世界中の森林の高さ・密度・ギャップを詳細に可視化することで、生物多様性保全や土地利用判断を支援する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2026-02-09

Learn More

英国、DINO 活用で都市緑地アクセス改善と政府コスト削減

英国の Forest Research が Meta の DINO 系基盤モデルを活用し、都市・町部の緑地（greenspace）マッピングを大規模化した事例。Environmental Improvement Plan の『15 分以内に緑地にアクセスできる』目標を支える基盤データを、衛星画像 + DINO の自動分析で生成。政府の評価コストを削減しつつ、緑地アクセスの均等化に寄与する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-18

Learn More

Penn 大学、DINO + SAM で医療トリアージを近代化

ペンシルベニア大学の研究チームが Meta の DINO・SAM 系モデルを活用し、現代の医療トリアージプロトコルを改善する応用事例を発表した。災害医療や緊急対応の意思決定木を画像認識ベースで支援し、限られたリソース下で生死を分ける判断を補助する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-18

Learn More

USRA、Segment Anything で洪水緊急対応を支援

Universities Space Research Association (USRA) と Meta が連携し、Segment Anything Model (SAM) を活用して洪水緊急対応・水資源管理システムを支援。米地質調査所 (USGS) の水観測システムにおいて、衛星画像から水域を自動セグメント化し、洪水・干ばつ予測やダム・貯水池管理の意思決定を支援する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-16

Learn More

SAM Audio — 音声分離向け初の統合マルチモーダルモデル

Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-02-20

Learn More

Orakl Oncology、DINOv2 でがん治療研究を加速

フランスの Gustave Roussy Institute スピンオフ Orakl Oncology が、DINOv2 を活用してがん治療研究を加速。患者由来オルガノイド（実験用がん細胞塊）の顕微鏡画像解析に DINOv2 を組み込み、薬剤候補のスクリーニング効率を向上させる。臨床試験前段階の治療法発見プロセスを大幅に短縮する応用例。

ソース: Meta AI Blog

マルチモーダル期 Anthropic 2024-06-20

Anthropic Claude 3.5 Sonnet 公開 — Artifacts 機能を初導入

Anthropic が Claude 3.5 Sonnet を公開。複数ベンチマークで Opus を上回り、コーディング性能が大幅向上。同時に Artifacts (出力を別パネルで保存・編集可能) を導入し、対話 UI 進化の起点に。

ソース: Claude (language model)

マルチモーダル期 OpenAI 2024-05-13

GPT-4o（omni）リリース

テキスト・画像・音声をネイティブに統合した GPT-4o が公開。音声応答が実時間に近づき、価格は GPT-4 Turbo の半額に。

ソース: GPT-4o

マルチモーダル期 Meta AI / Meta 2024-04-18

Meta Llama 3 (8B/70B) オープンウェイト公開

Meta が Llama 3 (8B / 70B) をオープンウェイトで公開。トークナイザ・コンテキスト長・データ品質を刷新し、70B モデルが当時のクローズド主力モデルに匹敵する性能を示した。8B は単一 GPU でも動かせるサイズで普及。

ソース: LLaMA

マルチモーダル期 Anthropic 2024-03-04

Anthropic Claude 3 ファミリー（Opus / Sonnet / Haiku）公開

Anthropic が Claude 3 ファミリー (Opus / Sonnet / Haiku の 3 サイズ) を公開。Opus が複数のベンチマークで GPT-4 を上回り、Anthropic が技術的な競合として頭角を現した転換点。視覚入力にも対応。

ソース: Claude (language model)

マルチモーダル期 OpenAI 2024-02-15

OpenAI Sora 発表 — 高品質テキスト→動画生成

OpenAI が text-to-video モデル Sora を発表。最大 1 分の高解像度動画を一貫した物理表現で生成可能。映像系生成 AI の質的なジャンプを示し、Runway / Pika 等の競合と動画 AI 戦争が本格化。

ソース: Sora (text-to-video model)

マルチモーダル期 Google DeepMind / Google 2023-12-06

Google Gemini 1 発表 — マルチモーダルネイティブモデル

Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。

ソース: Gemini (language model)

マルチモーダル期 OpenAI 2023-11-17

Sam Altman 解任騒動 — 5 日で復職

OpenAI 取締役会が CEO Sam Altman を突然解任。社員 700+ が辞職をちらつかせ Microsoft への移籍を表明する事態となり、5 日後に Altman は CEO に復帰。AI 業界のガバナンス・安全性 vs 商業化のテンションが世界に可視化された。

ソース: Removal of Sam Altman from OpenAI

マルチモーダル期 OpenAI 2023-11-06

OpenAI DevDay — GPT-4 Turbo / Custom GPTs / Assistants API 発表

OpenAI 初の開発者カンファレンスで GPT-4 Turbo (128K context / 価格半減)、Custom GPTs (GPT Store)、Assistants API (Code Interpreter / Retrieval / Function calling 統合) を一挙発表。LLM プラットフォーム化が決定的に進んだ瞬間。

ソース: OpenAI DevDay