画像（生成・理解）

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 30 件

マルチモーダル期 OpenAI 2026-05-10

GPT Images 2.0 + Seecdance 2.0 でストーリーボードからのアニメ生成を試す

GPT Images 2.0 + Seedance 2.0 でストーリーボードからのアニメ生成

npaka 氏が GPT Images 2.0 でストーリーボード（4×4 グリッド・16:9 のアニメ風コマ割り）を生成し、Dreamina の Seedance 2.0 でストーリーボードを実際に動くアニメ映像に変換する実験。Nano Banana + Grok Imagine 版との比較も行い、それぞれの強みと弱みを1 発出し vs. 3 生成ベストピック方式で評価。マルチモーダル AI を組み合わせた制作パイプラインの実例として有用。

ソース: note: npaka

エージェント期その他 2026-05-10

書籍のOCRにLLMを組み合わせることで精度を上げるだけでなく文書構造や図も表現した記録

書籍 OCR に LLM を組み合わせ、精度向上 + 文書構造・図表現も保持

書籍の OCR に LLM を組み合わせることで、単なる文字認識精度を上げるだけでなく、文書構造（章・節・段落）や図表の構造も保持する処理パイプラインを構築した記録。OCR 結果を LLM で後処理することで誤読を修正しつつ、見出し階層・図キャプション・表構造を Markdown / JSON で表現できる。古書のデジタル化や RAG 用ソース整備に有用。

ソース: Zenn (llm)

エージェント期 OpenAI 2026-05-06

v2.35.1

openai-python v2.35.1 — 画像生成 size enum のリグレッション修正

OpenAI Python SDK v2.35.1（2026-05-06 リリース）はバグ修正のみのパッチ。直前バージョンで起きていた `image generation の size` enum のリグレッションを修正した。

ソース: OpenAI Python SDK Releases

エージェント期 OpenAI 2026-05-06

v2.35.0

OpenAI Python SDK v2.35.0 — Image API 第 2 世代対応

OpenAI 公式 Python SDK v2.35.0 は Image API の更新（image 2）に対応した。画像生成エンドポイントのインターフェースが刷新され、SDK もそれを反映している。前後の v2.34 / v2.36 と合わせて、Image / Admin API / Realtime と複数の API 系統が短期間で第 2 世代へ更新されている時期にあたる。

ソース: OpenAI Python SDK Releases

マルチモーダル期 xAI 2026-05-05

Grok Imagine Quality Mode API

Grok Imagine Quality Mode API — 高品質画像生成 API

xAI は Grok Imagine に高品質モード Quality Mode の API を公開した。従来の高速モードに対して、計算リソースを多めに使って細部の品質を向上させる上位ティアを提供。Grok Imagine API を活用する開発者は、用途に応じて速度・コスト・品質のトレードオフを選択できる。

ソース: xAI News

エージェント期 Google DeepMind / Google 2026-05-04

v1.75.0

Google google-genai SDK v1.75.0 — Multimodal File Search 追加

Google `google-genai` Python SDK v1.75.0 は Multimodal File Search を新規追加した機能リリース。テキストだけでなく画像や音声を含むファイル群を対象に意味検索が行える。あわせて async mTLS パスでトークンが古いまま使われる不具合の修正も入っている。Gemini の RAG / マルチモーダル検索を SDK 経由で組み立てる主要パスが揃った形。

ソース: Google GenAI Python SDK Releases

マルチモーダル期 xAI 2026-04-28

Grok Imagine API

Grok Imagine API を一般公開

xAI は画像生成モデル Grok Imagine を API として一般公開した。テキストから画像を生成する基本機能に加え、編集・参照画像入力などをプログラマブルに扱える。DALL·E / Midjourney / Stable Diffusion 系と並ぶ画像生成 API 市場への本格参入。

ソース: xAI News

エージェント期 Anthropic 2026-04-17

Product Apr 17, 2026 Introducing Claude Design by Anthropic Labs Today, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work

Claude Design 公開 — Anthropic Labs によるデザイン向け新製品

Anthropic が新たな Anthropic Labs プロダクトとして「Claude Design」を発表した。デザインワークフローに特化した Claude ベースのツールであり、UI / ビジュアル生成やデザインシステムとの連携など、デザイナー向けの作業支援を提供する。Anthropic Labs はClaude を活用した実験的プロダクトの提供枠であり、新たなドメイン特化型ツールの一例となる。

ソース: Anthropic News

エージェント期 Meta AI / Meta 2026-04-08

FEATURED

Meta、Muse Spark を発表 — Meta Superintelligence Labs の初モデル

Meta は新設の Meta Superintelligence Labs (MSL) から初のモデル「Muse Spark」を発表した。ネイティブにマルチモーダルな推論モデルで、ツール利用・視覚的 chain-of-thought・マルチエージェントのオーケストレーションをサポートする。Muse シリーズはスケーリングラダーの第一段に位置付けられ、研究・モデル訓練・Hyperion データセンターを含むインフラまでスタック全体を再構築する文脈での投入。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2026-03-27

FEATURED

SAM 3.1 公開 — マルチプレキシングとグローバル推論で高速・高精度なリアルタイム動画追跡

Meta は Segment Anything Model 3.1 (SAM 3.1) を公開した。SAM 3 の drop-in 置換として、動画処理効率を大幅に改善する。新たに導入された object multiplexing により1 forward pass で最大 16 オブジェクトを同時追跡できるようになり、リアルタイム動画における検出・追跡パイプラインの実用性が大きく向上する。

ソース: Meta AI Blog

エージェント期 Meta AI / Meta 2026-03-26

Learn More

TRIBE v2 — 人間脳の応答を予測する基盤モデル、解像度 70 倍向上

Meta は人間脳の神経活動を予測する基盤モデル「TRIBE v2」を発表した。視覚 / 聴覚刺激への脳応答を予測するデジタルツインとして機能し、同種モデルと比較して 70 倍の解像度向上を実現する。神経科学者・臨床研究者は被験者を必要とせずに仮説検証できるようになる。モデル・コード・論文・対話デモを公開。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2026-03-15

How Alta Daily Uses Meta’s Segment Anything to Reimagine the Digital Closet

Alta Daily、Meta の Segment Anything を使ってデジタルクローゼットを再構築

Meta の Segment Anything Model (SAM) を活用した事例。ファッション系アプリ Alta Daily が、ユーザーが撮影した衣類画像から自動で被写体を切り出し、デジタルクローゼットを構築する用途でSAM を採用した。SAM 系モデルの実応用ケーススタディとして発表されている。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2026-03-10

Learn More

Meta と World Resources Institute、DINO ベースの森林樹冠高マップ v2 を公開

Meta は World Resources Institute と提携し、DINO 系基盤モデルを用いた森林樹冠高マップ v2 (CHMv2) を公開した。オープンソースのモデルとワールドスケールのマップを提供し、世界中の森林の高さ・密度・ギャップを詳細に可視化することで、生物多様性保全や土地利用判断を支援する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2026-02-09

Learn More

英国、DINO 活用で都市緑地アクセス改善と政府コスト削減

英国の Forest Research が Meta の DINO 系基盤モデルを活用し、都市・町部の緑地（greenspace）マッピングを大規模化した事例。Environmental Improvement Plan の『15 分以内に緑地にアクセスできる』目標を支える基盤データを、衛星画像 + DINO の自動分析で生成。政府の評価コストを削減しつつ、緑地アクセスの均等化に寄与する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-18

Learn More

Penn 大学、DINO + SAM で医療トリアージを近代化

ペンシルベニア大学の研究チームが Meta の DINO・SAM 系モデルを活用し、現代の医療トリアージプロトコルを改善する応用事例を発表した。災害医療や緊急対応の意思決定木を画像認識ベースで支援し、限られたリソース下で生死を分ける判断を補助する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-18

Learn More

USRA、Segment Anything で洪水緊急対応を支援

Universities Space Research Association (USRA) と Meta が連携し、Segment Anything Model (SAM) を活用して洪水緊急対応・水資源管理システムを支援。米地質調査所 (USGS) の水観測システムにおいて、衛星画像から水域を自動セグメント化し、洪水・干ばつ予測やダム・貯水池管理の意思決定を支援する。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-12-16

Learn More

SAM Audio — 音声分離向け初の統合マルチモーダルモデル

Meta は SAM のオーディオ版「SAM Audio」を発表した。マルチモーダルなプロンプトを使って音声分離 (audio separation) を行う、初の統合モデル。Perception Encoder Audiovisual (PE-AV)を基盤とし、音声分離タスクで SOTA を達成。SAM Audio-Bench という初の in-the-wild 評価ベンチマークも同時公開。SAM Audio と PE-AV は本日から利用可能。

ソース: Meta AI Blog

マルチモーダル期 Meta AI / Meta 2025-02-20

Learn More

Orakl Oncology、DINOv2 でがん治療研究を加速

フランスの Gustave Roussy Institute スピンオフ Orakl Oncology が、DINOv2 を活用してがん治療研究を加速。患者由来オルガノイド（実験用がん細胞塊）の顕微鏡画像解析に DINOv2 を組み込み、薬剤候補のスクリーニング効率を向上させる。臨床試験前段階の治療法発見プロセスを大幅に短縮する応用例。

ソース: Meta AI Blog

推論モデル期 Anthropic 2024-10-22

Claude Computer Use （ベータ）公開

Anthropic が Claude 3.5 Sonnet にデスクトップ操作能力を付加した Computer Use をベータ公開。エージェントが画面を見てクリック・入力する世界の幕開け。

ソース: Claude (language model)

マルチモーダル期 Anthropic 2024-06-20

Anthropic Claude 3.5 Sonnet 公開 — Artifacts 機能を初導入

Anthropic が Claude 3.5 Sonnet を公開。複数ベンチマークで Opus を上回り、コーディング性能が大幅向上。同時に Artifacts (出力を別パネルで保存・編集可能) を導入し、対話 UI 進化の起点に。

ソース: Claude (language model)

マルチモーダル期 OpenAI 2024-05-13

GPT-4o（omni）リリース

テキスト・画像・音声をネイティブに統合した GPT-4o が公開。音声応答が実時間に近づき、価格は GPT-4 Turbo の半額に。

ソース: GPT-4o

マルチモーダル期 Anthropic 2024-03-04

Anthropic Claude 3 ファミリー（Opus / Sonnet / Haiku）公開

Anthropic が Claude 3 ファミリー (Opus / Sonnet / Haiku の 3 サイズ) を公開。Opus が複数のベンチマークで GPT-4 を上回り、Anthropic が技術的な競合として頭角を現した転換点。視覚入力にも対応。

ソース: Claude (language model)

マルチモーダル期 Google DeepMind / Google 2023-12-06

Google Gemini 1 発表 — マルチモーダルネイティブモデル

Google DeepMind が Gemini 1 (Ultra / Pro / Nano の 3 サイズ) を発表。テキスト・画像・音声・動画をネイティブに扱う初の主力マルチモーダルモデルと喧伝。MMLU で GPT-4 超えを主張したが、デモ動画の演出が物議も。

ソース: Gemini (language model)

マルチモーダル期 OpenAI 2023-11-06

OpenAI DevDay — GPT-4 Turbo / Custom GPTs / Assistants API 発表

OpenAI 初の開発者カンファレンスで GPT-4 Turbo (128K context / 価格半減)、Custom GPTs (GPT Store)、Assistants API (Code Interpreter / Retrieval / Function calling 統合) を一挙発表。LLM プラットフォーム化が決定的に進んだ瞬間。

ソース: OpenAI DevDay

RLHF / アラインメント期 OpenAI 2023-03-14

GPT-4 リリース — マルチモーダル + プロ用途で大幅性能向上

OpenAI が GPT-4 を公開。法曹試験で上位 10% に入る等、専門領域でのベンチマーク性能が大幅に伸びた。テキスト + 画像入力に対応した最初の主力モデル。同日に Anthropic も Claude 1 を API 公開している。

ソース: GPT-4

RLHF / アラインメント期 Stability AI学術機関（大学・研究機関） 2022-08-22

Stable Diffusion 1.x 一般公開 — オープン画像生成モデル

Stability AI が CompVis / LMU München / Runway と共同開発した Stable Diffusion をオープンウェイト + コード公開。誰でもローカル GPU で動かせる強力な text-to-image 拡散モデルとして爆発的普及を引き起こした。

ソース: Stable Diffusion

GPT-3 期 OpenAI 2021-01-05

DALL·E と CLIP を OpenAI が同日公開 — 画像とテキストの結合

OpenAI が同日に DALL·E（テキストから画像生成）と CLIP（テキスト・画像の埋め込み統一）を発表。マルチモーダル基盤の幕開けとして、その後の Stable Diffusion / Midjourney / Sora 等の前史となる。

ソース: DALL-E

Transformer 以前 Microsoft学術機関（大学・研究機関） 2015-12-10

ResNet 論文公開 — 残差接続で超深層 NN を実現（He ら）

Microsoft Research Asia の He Kaiming らが Residual Network (ResNet) を提案。skip connection で 152 層の超深層 CNN を学習可能にし、ImageNet で人間超え精度を達成。以後の深層 NN 設計の標準に。

ソース: Residual neural network

Transformer 以前学術機関（大学・研究機関） 2014-06-10

GAN（敵対的生成ネットワーク）論文公開（Goodfellow ら）

Goodfellow ら（モントリオール大）が Generative Adversarial Network (GAN) を提案。生成器と識別器を min-max で対立させる新枠組みで、その後の画像生成研究の礎になった。

ソース: Generative adversarial network

Transformer 以前学術機関（大学・研究機関） 2012-09-30

AlexNet が ImageNet で圧勝 — 深層学習復活の象徴

Krizhevsky・Sutskever・Hinton（トロント大）が GPU 学習した CNN 「AlexNet」が ImageNet ILSVRC 2012 でトップ 5 エラー率を 25.8% → 15.3% に劇的改善。深層学習の再ブレイクのきっかけ。

ソース: AlexNet