Google の Gemma 4 に搭載された MTP (Multi-Token Prediction) drafter の仕組みを解説。従来の speculative decoding に対する改良として、自己回帰モデル内で複数トークンを並列予測し、ドラフトモデルを別途用意する必要がない設計が特徴。報告では推論速度が最大 3 倍に向上。ローカル LLM 推論の高速化技術として注目される。
ポイント
- Gemma 4 の MTP (Multi-Token Prediction) drafter を解説
- 従来の speculative decoding を改良
- ドラフトモデル不要で複数トークンを並列予測
- 推論速度が最大 3 倍に向上