Transformer

为什么 dot-product attention 需要被 scaled?

Attention/Self-Attention

注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制

超详细图解Self-Attention

狗都能看懂的Self-Attention讲解

详解Transformer中Self-Attention以及Multi-Head Attention

Vision Transformer

狗都能看懂的Vision Transformer的讲解和代码实现

Vision Transformer详解

VIT(vision transformer)模型介绍+pytorch代码炸裂解析

Vision Transformer (ViT)模型与代码实现(PyTorch)

【超详细】初学者包会的Vision Transformer(ViT)的PyTorch实现代码学习

VIDEO

VIT(vision transformer)模型介绍+pytorch代码炸裂解析
Transformer中Self-Attention以及Multi-Head Attention详解
Attention、Transformer公式推导和矩阵变化

CODE

Vision Transformer and MLP-Mixer Architectures
WZMIAOMIAO/deep-learning-for-image-processing

延伸阅读

近两年有哪些ViT(Vision Transformer)的改进算法?
基于ViT的精细化分类算法介绍