学術論文・arXiv・研究発表(評価指標の設計論なら evaluation も検討)

記事 11 件

RLHF / アラインメント期 Google DeepMind / Google 2022-04-05

PaLM 540B 発表 — Pathways アーキテクチャでの超大規模学習

Google が Pathways システム上で学習した 540B パラメータの Pathways Language Model (PaLM) を発表。多くの NLP ベンチマークで人間並み、Chain-of-Thought プロンプティングでの推論能力が注目された。

ソース: PaLM

GPT-3 期 OpenAI 2021-01-05

DALL·E と CLIP を OpenAI が同日公開 — 画像とテキストの結合

OpenAI が同日に DALL·E(テキストから画像生成)と CLIP(テキスト・画像の埋め込み統一)を発表。マルチモーダル基盤の幕開けとして、その後の Stable Diffusion / Midjourney / Sora 等の前史となる。

ソース: DALL-E

Transformer 期 OpenAI学術機関(大学・研究機関) 2020-01-23

Scaling Laws for Neural Language Models 公開(Kaplan ら)

Kaplan ら(OpenAI / Johns Hopkins)による Neural Language Model のスケーリング則。性能がパラメータ数・データ量・計算量に対しべき乗則で改善することを実証し、その後の大規模化(GPT-3 以降)の理論的根拠になった。

ソース: Neural scaling law

Transformer 期 Google DeepMind / Google 2018-10-11

BERT 公開 — 双方向 Transformer による NLU 革命

Devlin ら(Google AI Language)が BERT を発表。Masked Language Model + Next Sentence Prediction による双方向事前学習で GLUE / SQuAD などの NLU ベンチマークを軒並み更新。

ソース: BERT (language model)

Transformer 期 OpenAI 2018-06-11

GPT-1 公開 — 生成事前学習 + ファインチューニング枠組み

Radford ら(OpenAI)が「Improving Language Understanding by Generative Pre-Training」を公開。Transformer デコーダで言語モデルを事前学習 → タスクに fine-tune する GPT 系列の起点。1.17 億パラメータ。

ソース: GPT-1

Transformer 期 Google DeepMind / Google学術機関(大学・研究機関) 2017-06-12

Attention Is All You Need 公開(Transformer 提唱)

Vaswani ら(Google Brain / Google Research)による Transformer アーキテクチャ提唱論文。Self-Attention のみで RNN/CNN を不要に。NeurIPS 2017 採択。

ソース: Transformer (deep learning architecture)

Transformer 以前 Microsoft学術機関(大学・研究機関) 2015-12-10

ResNet 論文公開 — 残差接続で超深層 NN を実現(He ら)

Microsoft Research Asia の He Kaiming らが Residual Network (ResNet) を提案。skip connection で 152 層の超深層 CNN を学習可能にし、ImageNet で人間超え精度を達成。以後の深層 NN 設計の標準に。

ソース: Residual neural network

Transformer 以前 Google DeepMind / Google学術機関(大学・研究機関) 2014-09-10

Seq2Seq 論文公開 — 機械翻訳に深層学習が本格適用

Sutskever・Vinyals・Le(Google)による Sequence to Sequence Learning。LSTM ベースのエンコーダ・デコーダ構造で機械翻訳の SOTA を更新し、後の Attention / Transformer への道筋を作った。

ソース: Seq2seq

Transformer 以前 学術機関(大学・研究機関) 2014-06-10

GAN(敵対的生成ネットワーク)論文公開(Goodfellow ら)

Goodfellow ら(モントリオール大)が Generative Adversarial Network (GAN) を提案。生成器と識別器を min-max で対立させる新枠組みで、その後の画像生成研究の礎になった。

ソース: Generative adversarial network

Transformer 以前 Google DeepMind / Google学術機関(大学・研究機関) 2013-09-17

word2vec 論文公開(Mikolov ら)

Mikolov らが Google で開発した word2vec が公開され、ニューラル単語埋め込みが現代 NLP の基礎になった。CBOW と Skip-gram の2モデルを提案。

ソース: Word2vec

Transformer 以前 学術機関(大学・研究機関) 2012-09-30

AlexNet が ImageNet で圧勝 — 深層学習復活の象徴

Krizhevsky・Sutskever・Hinton(トロント大)が GPU 学習した CNN 「AlexNet」が ImageNet ILSVRC 2012 でトップ 5 エラー率を 25.8% → 15.3% に劇的改善。深層学習の再ブレイクのきっかけ。

ソース: AlexNet