Transformer 期

"Attention Is All You Need" 公開から GPT-2 まで。系列モデリングの土台。

期間: 2017-06-12 〜 2020-06-11

記事 5 件

Transformer 期 OpenAI学術機関(大学・研究機関) 2020-01-23

Scaling Laws for Neural Language Models 公開(Kaplan ら)

Kaplan ら(OpenAI / Johns Hopkins)による Neural Language Model のスケーリング則。性能がパラメータ数・データ量・計算量に対しべき乗則で改善することを実証し、その後の大規模化(GPT-3 以降)の理論的根拠になった。

ソース: Neural scaling law

Transformer 期 OpenAI 2019-02-14

GPT-2 — 「公開しすぎて危険」として段階的リリース

OpenAI が 15 億パラメータの GPT-2 を発表。当初「悪用懸念のため full release は控える」とし、段階リリース方針を取った。後に同年 11 月に full モデルが公開され、生成テキストの「危険性」と「公開ポリシー」議論の出発点になった。

ソース: GPT-2

Transformer 期 Google DeepMind / Google 2018-10-11

BERT 公開 — 双方向 Transformer による NLU 革命

Devlin ら(Google AI Language)が BERT を発表。Masked Language Model + Next Sentence Prediction による双方向事前学習で GLUE / SQuAD などの NLU ベンチマークを軒並み更新。

ソース: BERT (language model)

Transformer 期 OpenAI 2018-06-11

GPT-1 公開 — 生成事前学習 + ファインチューニング枠組み

Radford ら(OpenAI)が「Improving Language Understanding by Generative Pre-Training」を公開。Transformer デコーダで言語モデルを事前学習 → タスクに fine-tune する GPT 系列の起点。1.17 億パラメータ。

ソース: GPT-1

Transformer 期 Google DeepMind / Google学術機関(大学・研究機関) 2017-06-12

Attention Is All You Need 公開(Transformer 提唱)

Vaswani ら(Google Brain / Google Research)による Transformer アーキテクチャ提唱論文。Self-Attention のみで RNN/CNN を不要に。NeurIPS 2017 採択。

ソース: Transformer (deep learning architecture)