RLHF / アラインメント期

InstructGPT で RLHF が定着。ChatGPT・Claude 1-2・Llama 1-2・Mistral 7B など対話系・open-weights 系が一気に爆発。

期間: 2022-01-27 〜 2023-09-25

記事 7 件

RLHF / アラインメント期 Meta AI / MetaMicrosoft 2023-07-18

Llama 2 公開 — Meta が大規模 LLM をオープンウェイトで提供

Meta が Microsoft と提携して Llama 2 (7B/13B/70B) をオープンウェイトで公開。Azure 経由でもデプロイ可能で、商用利用も条件付きで許可。クローズドモデルとオープンモデルの二極化の象徴的リリース。

ソース: LLaMA

RLHF / アラインメント期 Anthropic 2023-03-14

Anthropic Claude 1 API 公開

Anthropic が Claude を API 公開。Constitutional AI による独自の安全性アプローチを掲げ、ChatGPT に対する最初の本格的競合として登場。GPT-4 と同日公開の偶然で AI 業界の競争激化が可視化された。

ソース: Claude (language model)

RLHF / アラインメント期 OpenAI 2023-03-14

GPT-4 リリース — マルチモーダル + プロ用途で大幅性能向上

OpenAI が GPT-4 を公開。法曹試験で上位 10% に入る等、専門領域でのベンチマーク性能が大幅に伸びた。テキスト + 画像入力に対応した最初の主力モデル。同日に Anthropic も Claude 1 を API 公開している。

ソース: GPT-4

RLHF / アラインメント期 MicrosoftOpenAI 2023-02-07

Microsoft Bing Chat 発表(後の Copilot) — GPT-4 を組込

Microsoft が GPT-4 を統合した検索体験 Bing Chat(後の Microsoft Copilot)を発表。初期に表れた人格『Sydney』が物議を醸し、LLM アライメントの難しさを世間に強く印象づけた。

ソース: Microsoft Copilot

RLHF / アラインメント期 OpenAI 2022-11-30

ChatGPT 公開

InstructGPT の RLHF をベースにしたチャットインターフェース ChatGPT が公開。1週間で100万ユーザー、2ヶ月で1億ユーザーを獲得し、生成AIの一般普及の起点に。

ソース: ChatGPT

RLHF / アラインメント期 Stability AI学術機関(大学・研究機関) 2022-08-22

Stable Diffusion 1.x 一般公開 — オープン画像生成モデル

Stability AI が CompVis / LMU München / Runway と共同開発した Stable Diffusion をオープンウェイト + コード公開。誰でもローカル GPU で動かせる強力な text-to-image 拡散モデルとして爆発的普及を引き起こした。

ソース: Stable Diffusion

RLHF / アラインメント期 Google DeepMind / Google 2022-04-05

PaLM 540B 発表 — Pathways アーキテクチャでの超大規模学習

Google が Pathways システム上で学習した 540B パラメータの Pathways Language Model (PaLM) を発表。多くの NLP ベンチマークで人間並み、Chain-of-Thought プロンプティングでの推論能力が注目された。

ソース: PaLM