動画（生成・理解）

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 4 件

マルチモーダル期 OpenAI 2026-05-10

GPT Images 2.0 + Seecdance 2.0 でストーリーボードからのアニメ生成を試す

GPT Images 2.0 + Seedance 2.0 でストーリーボードからのアニメ生成

npaka 氏が GPT Images 2.0 でストーリーボード（4×4 グリッド・16:9 のアニメ風コマ割り）を生成し、Dreamina の Seedance 2.0 でストーリーボードを実際に動くアニメ映像に変換する実験。Nano Banana + Grok Imagine 版との比較も行い、それぞれの強みと弱みを1 発出し vs. 3 生成ベストピック方式で評価。マルチモーダル AI を組み合わせた制作パイプラインの実例として有用。

ソース: note: npaka

マルチモーダル期 Meta AI / Meta 2026-03-27

FEATURED

SAM 3.1 公開 — マルチプレキシングとグローバル推論で高速・高精度なリアルタイム動画追跡

Meta は Segment Anything Model 3.1 (SAM 3.1) を公開した。SAM 3 の drop-in 置換として、動画処理効率を大幅に改善する。新たに導入された object multiplexing により1 forward pass で最大 16 オブジェクトを同時追跡できるようになり、リアルタイム動画における検出・追跡パイプラインの実用性が大きく向上する。

ソース: Meta AI Blog

マルチモーダル期 OpenAI 2024-02-15

OpenAI Sora 発表 — 高品質テキスト→動画生成

OpenAI が text-to-video モデル Sora を発表。最大 1 分の高解像度動画を一貫した物理表現で生成可能。映像系生成 AI の質的なジャンプを示し、Runway / Pika 等の競合と動画 AI 戦争が本格化。

ソース: Sora (text-to-video model)

マルチモーダル期 Google DeepMind / Google 2023-12-06

Google Gemini 1 発表 — マルチモーダルネイティブモデル

Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。

ソース: Gemini (language model)