model:gemma-4

Product 軸: model:gemma-4

Era Transformer 以前 Transformer 期 GPT-3 期 RLHF / アラインメント期マルチモーダル期推論モデル期エージェント期ポスト・エージェント期（仮）

記事 2 件

エージェント期 Google DeepMind / Google 2026-05-10

推論速度を最大 3 倍にした Gemma 4 の MTP drafter とは何か

Gemma 4 の MTP drafter — 推論速度を最大 3 倍にする技術

Google の Gemma 4 に搭載された MTP (Multi-Token Prediction) drafter の仕組みを解説。従来の speculative decoding に対する改良として、自己回帰モデル内で複数トークンを並列予測し、ドラフトモデルを別途用意する必要がない設計が特徴。報告では推論速度が最大 3 倍に向上。ローカル LLM 推論の高速化技術として注目される。

ソース: Zenn (llm)

エージェント期 Google DeepMind / Google 2026-05-10

Gemma 4 を Intel NPU (Lunar Lake) で動かす — OpenVINO 2026 + openvino-genai

Google の Gemma 4 を Intel Lunar Lake 内蔵 NPU で動作させる実践記事。OpenVINO 2026 と openvino-genai を組み合わせ、量子化・モデル変換・推論パイプラインを構築。クラウド API に頼らないローカル推論の選択肢として、エッジ AI / プライバシー重視ワークロードでIntel NPU + OpenVINO スタックの実用性が一段階上がっていることを示す事例。

ソース: Zenn (llm)