Scaling Laws for Neural Language Models 公開(Kaplan ら)
Kaplan ら(OpenAI / Johns Hopkins)による Neural Language Model のスケーリング則。性能がパラメータ数・データ量・計算量に対しべき乗則で改善することを実証し、その後の大規模化(GPT-3 以降)の理論的根拠になった。
ソース: Neural scaling law
"Attention Is All You Need" 公開から GPT-2 まで。系列モデリングの土台。
期間: 2017-06-12 〜 2020-06-11
Kaplan ら(OpenAI / Johns Hopkins)による Neural Language Model のスケーリング則。性能がパラメータ数・データ量・計算量に対しべき乗則で改善することを実証し、その後の大規模化(GPT-3 以降)の理論的根拠になった。
ソース: Neural scaling law
OpenAI が 15 億パラメータの GPT-2 を発表。当初「悪用懸念のため full release は控える」とし、段階リリース方針を取った。後に同年 11 月に full モデルが公開され、生成テキストの「危険性」と「公開ポリシー」議論の出発点になった。
ソース: GPT-2
Devlin ら(Google AI Language)が BERT を発表。Masked Language Model + Next Sentence Prediction による双方向事前学習で GLUE / SQuAD などの NLU ベンチマークを軒並み更新。
Radford ら(OpenAI)が「Improving Language Understanding by Generative Pre-Training」を公開。Transformer デコーダで言語モデルを事前学習 → タスクに fine-tune する GPT 系列の起点。1.17 億パラメータ。
ソース: GPT-1
Vaswani ら(Google Brain / Google Research)による Transformer アーキテクチャ提唱論文。Self-Attention のみで RNN/CNN を不要に。NeurIPS 2017 採択。