PaLM 540B 発表 — Pathways アーキテクチャでの超大規模学習
Google が Pathways システム上で学習した 540B パラメータの Pathways Language Model (PaLM) を発表。多くの NLP ベンチマークで人間並み、Chain-of-Thought プロンプティングでの推論能力が注目された。
ソース: PaLM
Google が Pathways システム上で学習した 540B パラメータの Pathways Language Model (PaLM) を発表。多くの NLP ベンチマークで人間並み、Chain-of-Thought プロンプティングでの推論能力が注目された。
ソース: PaLM
OpenAI が同日に DALL·E(テキストから画像生成)と CLIP(テキスト・画像の埋め込み統一)を発表。マルチモーダル基盤の幕開けとして、その後の Stable Diffusion / Midjourney / Sora 等の前史となる。
ソース: DALL-E
Kaplan ら(OpenAI / Johns Hopkins)による Neural Language Model のスケーリング則。性能がパラメータ数・データ量・計算量に対しべき乗則で改善することを実証し、その後の大規模化(GPT-3 以降)の理論的根拠になった。
ソース: Neural scaling law
Devlin ら(Google AI Language)が BERT を発表。Masked Language Model + Next Sentence Prediction による双方向事前学習で GLUE / SQuAD などの NLU ベンチマークを軒並み更新。
Radford ら(OpenAI)が「Improving Language Understanding by Generative Pre-Training」を公開。Transformer デコーダで言語モデルを事前学習 → タスクに fine-tune する GPT 系列の起点。1.17 億パラメータ。
ソース: GPT-1
Vaswani ら(Google Brain / Google Research)による Transformer アーキテクチャ提唱論文。Self-Attention のみで RNN/CNN を不要に。NeurIPS 2017 採択。
Microsoft Research Asia の He Kaiming らが Residual Network (ResNet) を提案。skip connection で 152 層の超深層 CNN を学習可能にし、ImageNet で人間超え精度を達成。以後の深層 NN 設計の標準に。
Sutskever・Vinyals・Le(Google)による Sequence to Sequence Learning。LSTM ベースのエンコーダ・デコーダ構造で機械翻訳の SOTA を更新し、後の Attention / Transformer への道筋を作った。
ソース: Seq2seq
Goodfellow ら(モントリオール大)が Generative Adversarial Network (GAN) を提案。生成器と識別器を min-max で対立させる新枠組みで、その後の画像生成研究の礎になった。
Mikolov らが Google で開発した word2vec が公開され、ニューラル単語埋め込みが現代 NLP の基礎になった。CBOW と Skip-gram の2モデルを提案。
ソース: Word2vec
Krizhevsky・Sutskever・Hinton(トロント大)が GPU 学習した CNN 「AlexNet」が ImageNet ILSVRC 2012 でトップ 5 エラー率を 25.8% → 15.3% に劇的改善。深層学習の再ブレイクのきっかけ。
ソース: AlexNet