#qkv - Tags - ML Learning Lab

2 posts · Transformer Series

Tag: #qkv

🗓 2026-04-03 • Transformer Series • ⏱ 41 min read

Multi-head self-attention in Transformers: motivation, principles, implementation details, and modern head-composition improvements.

🗓 2026-04-02 • Transformer Series • ⏱ 86 min read

Self-attention in Transformers: principles, implementation details, scaling/softmax analysis, and modern optimization directions.