画像(生成・理解)

記事 2 件

エージェント期 Anthropic 2024-10-22

Claude Computer Use (ベータ)公開

Anthropic が Claude 3.5 Sonnet にデスクトップ操作能力を付加した Computer Use をベータ公開。エージェントが画面を見てクリック・入力する世界の幕開け。

ソース: Claude (language model)

マルチモーダル期 OpenAI 2024-05-13

GPT-4o(omni)リリース

テキスト・画像・音声をネイティブに統合した GPT-4o が公開。音声応答が実時間に近づき、価格は GPT-4 Turbo の半額に。

ソース: GPT-4o