RLHF / アラインメント期

InstructGPT で RLHF が定着。ChatGPT・Claude 1-2・Llama 1-2・Mistral 7B など対話系・open-weights 系が一気に爆発。

期間: 2022-01-27 〜 2023-09-25

記事 7 件

RLHF / アラインメント期 Meta AI / MetaMicrosoft 2023-07-18

Meta が Microsoft と提携して Llama 2 (7B/13B/70B) をオープンウェイトで公開。Azure 経由でもデプロイ可能で、商用利用も条件付きで許可。クローズドモデルとオープンモデルの二極化の象徴的リリース。

ソース: LLaMA

RLHF / アラインメント期 Anthropic 2023-03-14

Anthropic が Claude を API 公開。Constitutional AI による独自の安全性アプローチを掲げ、ChatGPT に対する最初の本格的競合として登場。GPT-4 と同日公開の偶然で AI 業界の競争激化が可視化された。

RLHF / アラインメント期 OpenAI 2023-03-14

OpenAI が GPT-4 を公開。法曹試験で上位 10% に入る等、専門領域でのベンチマーク性能が大幅に伸びた。テキスト + 画像入力に対応した最初の主力モデル。同日に Anthropic も Claude 1 を API 公開している。

ソース: GPT-4

RLHF / アラインメント期 MicrosoftOpenAI 2023-02-07

Microsoft が GPT-4 を統合した検索体験 Bing Chat（後の Microsoft Copilot）を発表。初期に表れた人格『Sydney』が物議を醸し、LLM アライメントの難しさを世間に強く印象づけた。

RLHF / アラインメント期 OpenAI 2022-11-30

InstructGPT の RLHF をベースにしたチャットインターフェース ChatGPT が公開。1週間で100万ユーザー、2ヶ月で1億ユーザーを獲得し、生成AIの一般普及の起点に。

ソース: ChatGPT

RLHF / アラインメント期 Stability AI学術機関（大学・研究機関） 2022-08-22

Stability AI が CompVis / LMU München / Runway と共同開発した Stable Diffusion をオープンウェイト + コード公開。誰でもローカル GPU で動かせる強力な text-to-image 拡散モデルとして爆発的普及を引き起こした。

RLHF / アラインメント期 Google DeepMind / Google 2022-04-05

Google が Pathways システム上で学習した 540B パラメータの Pathways Language Model (PaLM) を発表。多くの NLP ベンチマークで人間並み、Chain-of-Thought プロンプティングでの推論能力が注目された。

ソース: PaLM