#decode - Tags - ML Learning Lab

4 posts · Transformer Series

Tag: #decode

🗓 2026-04-11 • Transformer Series • ⏱ 32 min read

Medusa: multi-decoding heads, tree attention, typical acceptance, sparse tree construction, training strategies, and decoding flow.

🗓 2026-04-09 • Transformer Series • ⏱ 104 min read

KV cache optimization through PD separation or merging: static batching, ORCA, Sarathi, DistServe, SplitWise, MemServe, TetriInfer, and Mooncake.

🗓 2026-04-09 • Transformer Series • ⏱ 79 min read

KV Cache optimization: metrics, memory crisis, formula-based compression, stage-aware optimization, memory management, and scheduling.

🗓 2026-04-07 • Transformer Series • ⏱ 50 min read

Autoregressive inference redundancy, KV cache, prefill vs decode, implementation, and resource usage.