#deepseek - Tags - ML Learning Lab

3 posts · Transformer Series

Tag: #deepseek

Exploring the Transformer Series (29) --- DeepSeek MoE

🗓 2026-04-11 • Transformer Series • ⏱ 76 min read

DeepSeek MoE: load balancing, fine-grained and shared experts, DeepSeek V1/V2/V3 routing, MoD, LoRA hybrids, and efficient fine-tuning.

#transformer #moe #deepseek #routing #load-balancing #experts

Read →

Exploring the Transformer Series (33) --- DeepSeek MTP

🗓 2026-04-11 • Transformer Series • ⏱ 40 min read

DeepSeek MTP: EAGLE, HASS, classical multi-token prediction, DeepSeek’s causal-chain design, formulas, and the vLLM implementation.

#transformer #deepseek #mtp #multi-token-prediction #eagle #hass

Read →

Exploring the Transformer Series (28) --- DeepSeek MLA

🗓 2026-04-09 • Transformer Series • ⏱ 55 min read

DeepSeek MLA: low-rank KV compression, weight absorption, decoupled RoPE, resource tradeoffs, implementation details, and conversions from GQA and MHA.

#transformer #mla #deepseek #attention #kv-cache #rope

Read →

| #deepseek

Tag: #deepseek

Exploring the Transformer Series (29) --- DeepSeek MoE

Exploring the Transformer Series (33) --- DeepSeek MTP

Exploring the Transformer Series (28) --- DeepSeek MLA