動画(生成・理解)
記事 4 件
マルチモーダル期 OpenAI 2026-05-10
GPT Images 2.0 + Seedance 2.0 でストーリーボードからのアニメ生成
npaka 氏が GPT Images 2.0 でストーリーボード(4×4 グリッド・16:9 のアニメ風コマ割り)を生成し、Dreamina の Seedance 2.0 でストーリーボードを実際に動くアニメ映像に変換する実験。Nano Banana + Grok Imagine 版との比較も行い、それぞれの強みと弱みを1 発出し vs. 3 生成ベストピック方式で評価。マルチモーダル AI を組み合わせた制作パイプラインの実例として有用。
ソース: note: npaka
マルチモーダル期 Meta AI / Meta 2026-03-27
SAM 3.1 公開 — マルチプレキシングとグローバル推論で高速・高精度なリアルタイム動画追跡
Meta は Segment Anything Model 3.1 (SAM 3.1) を公開した。SAM 3 の drop-in 置換として、動画処理効率を大幅に改善する。新たに導入された object multiplexing により1 forward pass で最大 16 オブジェクトを同時追跡できるようになり、リアルタイム動画における検出・追跡パイプラインの実用性が大きく向上する。
ソース: Meta AI Blog
マルチモーダル期 OpenAI 2024-02-15
OpenAI が text-to-video モデル Sora を発表。最大 1 分の高解像度動画を一貫した物理表現で生成可能。映像系生成 AI の質的なジャンプを示し、Runway / Pika 等の競合と動画 AI 戦争が本格化。
ソース: Sora (text-to-video model)
マルチモーダル期 Google DeepMind / Google 2023-12-06
Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。
ソース: Gemini (language model)