マルチモーダル期
GPT-4V / Claude 3 / Gemini 1.5 / GPT-4o など、画像・音声・動画を統合的に扱うモデルが標準化。
期間: 2023-09-25 〜 2024-09-12
記事 20 件
マルチモーダル期 OpenAI 2026-05-10
GPT Images 2.0 + Seedance 2.0 でストーリーボードからのアニメ生成
npaka 氏が GPT Images 2.0 でストーリーボード(4×4 グリッド・16:9 のアニメ風コマ割り)を生成し、Dreamina の Seedance 2.0 でストーリーボードを実際に動くアニメ映像に変換する実験。Nano Banana + Grok Imagine 版との比較も行い、それぞれの強みと弱みを1 発出し vs. 3 生成ベストピック方式で評価。マルチモーダル AI を組み合わせた制作パイプラインの実例として有用。
ソース: note: npaka
マルチモーダル期 xAI 2026-05-05
Grok Imagine Quality Mode API — 高品質画像生成 API
xAI は Grok Imagine に高品質モード Quality Mode の API を公開した。従来の高速モードに対して、計算リソースを多めに使って細部の品質を向上させる上位ティアを提供。Grok Imagine API を活用する開発者は、用途に応じて速度・コスト・品質のトレードオフを選択できる。
ソース: xAI News
マルチモーダル期 xAI 2026-05-02
Grok Custom Voices と Voice Library を提供開始
xAI は Grok にカスタム音声機能 Custom Voices と、事前用意された音声を選べるVoice Library を公開した。ユーザーは自分の音声特性をベースにしたカスタムキャラクター音声を作成でき、Grok とのインタラクションをパーソナライズできる。エンタープライズ向け IVR / バーチャルアシスタント用途の拡張を示唆。
ソース: xAI News
マルチモーダル期 xAI 2026-04-28
Grok Imagine API を一般公開
xAI は画像生成モデル Grok Imagine を API として一般公開した。テキストから画像を生成する基本機能に加え、編集・参照画像入力などをプログラマブルに扱える。DALL·E / Midjourney / Stable Diffusion 系と並ぶ画像生成 API 市場への本格参入。
ソース: xAI News
マルチモーダル期 Meta AI / Meta 2026-03-27
SAM 3.1 公開 — マルチプレキシングとグローバル推論で高速・高精度なリアルタイム動画追跡
Meta は Segment Anything Model 3.1 (SAM 3.1) を公開した。SAM 3 の drop-in 置換として、動画処理効率を大幅に改善する。新たに導入された object multiplexing により1 forward pass で最大 16 オブジェクトを同時追跡できるようになり、リアルタイム動画における検出・追跡パイプラインの実用性が大きく向上する。
ソース: Meta AI Blog
マルチモーダル期 Meta AI / Meta 2026-03-15
Alta Daily、Meta の Segment Anything を使ってデジタルクローゼットを再構築
Meta の Segment Anything Model (SAM) を活用した事例。ファッション系アプリ Alta Daily が、ユーザーが撮影した衣類画像から自動で被写体を切り出し、デジタルクローゼットを構築する用途でSAM を採用した。SAM 系モデルの実応用ケーススタディとして発表されている。
ソース: Meta AI Blog
マルチモーダル期 Meta AI / Meta 2026-03-10
Meta と World Resources Institute、DINO ベースの森林樹冠高マップ v2 を公開
Meta は World Resources Institute と提携し、DINO 系基盤モデルを用いた森林樹冠高マップ v2 (CHMv2) を公開した。オープンソースのモデルとワールドスケールのマップを提供し、世界中の森林の高さ・密度・ギャップを詳細に可視化することで、生物多様性保全や土地利用判断を支援する。
ソース: Meta AI Blog
マルチモーダル期 Meta AI / Meta 2026-02-09
英国、DINO 活用で都市緑地アクセス改善と政府コスト削減
英国の Forest Research が Meta の DINO 系基盤モデルを活用し、都市・町部の緑地(greenspace)マッピングを大規模化した事例。Environmental Improvement Plan の『15 分以内に緑地にアクセスできる』目標を支える基盤データを、衛星画像 + DINO の自動分析で生成。政府の評価コストを削減しつつ、緑地アクセスの均等化に寄与する。
ソース: Meta AI Blog
マルチモーダル期 Meta AI / Meta 2025-12-18
Penn 大学、DINO + SAM で医療トリアージを近代化
ペンシルベニア大学の研究チームが Meta の DINO・SAM 系モデルを活用し、現代の医療トリアージプロトコルを改善する応用事例を発表した。災害医療や緊急対応の意思決定木を画像認識ベースで支援し、限られたリソース下で生死を分ける判断を補助する。
ソース: Meta AI Blog
マルチモーダル期 Meta AI / Meta 2025-12-18
USRA、Segment Anything で洪水緊急対応を支援
Universities Space Research Association (USRA) と Meta が連携し、Segment Anything Model (SAM) を活用して洪水緊急対応・水資源管理システムを支援。米地質調査所 (USGS) の水観測システムにおいて、衛星画像から水域を自動セグメント化し、洪水・干ばつ予測やダム・貯水池管理の意思決定を支援する。
ソース: Meta AI Blog
マルチモーダル期 Meta AI / Meta 2025-12-16
SAM Audio — 音声分離向け初の統合マルチモーダルモデル
Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。
ソース: Meta AI Blog
マルチモーダル期 Meta AI / Meta 2025-02-20
Orakl Oncology、DINOv2 でがん治療研究を加速
フランスの Gustave Roussy Institute スピンオフ Orakl Oncology が、DINOv2 を活用してがん治療研究を加速。患者由来オルガノイド(実験用がん細胞塊)の顕微鏡画像解析に DINOv2 を組み込み、薬剤候補のスクリーニング効率を向上させる。臨床試験前段階の治療法発見プロセスを大幅に短縮する応用例。
ソース: Meta AI Blog
マルチモーダル期 Anthropic 2024-06-20
Anthropic が Claude 3.5 Sonnet を公開。複数ベンチマークで Opus を上回り、コーディング性能が大幅向上。同時に Artifacts (出力を別パネルで保存・編集可能) を導入し、対話 UI 進化の起点に。
ソース: Claude (language model)
マルチモーダル期 OpenAI 2024-05-13
テキスト・画像・音声をネイティブに統合した GPT-4o が公開。音声応答が実時間に近づき、価格は GPT-4 Turbo の半額に。
ソース: GPT-4o
マルチモーダル期 Meta AI / Meta 2024-04-18
Meta が Llama 3 (8B / 70B) をオープンウェイトで公開。トークナイザ・コンテキスト長・データ品質を刷新し、70B モデルが当時のクローズド主力モデルに匹敵する性能を示した。8B は単一 GPU でも動かせるサイズで普及。
ソース: LLaMA
マルチモーダル期 Anthropic 2024-03-04
Anthropic が Claude 3 ファミリー (Opus / Sonnet / Haiku の 3 サイズ) を公開。Opus が複数のベンチマークで GPT-4 を上回り、Anthropic が技術的な競合として頭角を現した転換点。視覚入力にも対応。
ソース: Claude (language model)
マルチモーダル期 OpenAI 2024-02-15
OpenAI が text-to-video モデル Sora を発表。最大 1 分の高解像度動画を一貫した物理表現で生成可能。映像系生成 AI の質的なジャンプを示し、Runway / Pika 等の競合と動画 AI 戦争が本格化。
ソース: Sora (text-to-video model)
マルチモーダル期 Google DeepMind / Google 2023-12-06
Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。
ソース: Gemini (language model)
マルチモーダル期 OpenAI 2023-11-17
OpenAI 取締役会が CEO Sam Altman を突然解任。社員 700+ が辞職をちらつかせ Microsoft への移籍を表明する事態となり、5 日後に Altman は CEO に復帰。AI 業界のガバナンス・安全性 vs 商業化のテンションが世界に可視化された。
ソース: Removal of Sam Altman from OpenAI
マルチモーダル期 OpenAI 2023-11-06
OpenAI 初の開発者カンファレンスで GPT-4 Turbo (128K context / 価格半減)、Custom GPTs (GPT Store)、Assistants API (Code Interpreter / Retrieval / Function calling 統合) を一挙発表。LLM プラットフォーム化が決定的に進んだ瞬間。
ソース: OpenAI DevDay