
本文共 3522 字,大约阅读时间需要 11 分钟。
������������������������������������Transformer������Self-Attention
���������������������������������������������Transformer������������������������������������������������������������������Self-Attention���������������������������������������������������������������������������������������RNN������������������������������������������������������Self-Attention������������������������Transformer���������������
1. Query���Key���Value���������������������������������������
���Self-Attention������_query���������������������������������������������������������������������������������Key������������Value������������������������������������������������������������������������������������������������������������������������������������������������
2. ���������������������������������������������
���������������������
������Query���Key������������������������������������������������������������������Query���Key���������������������q_i���k_j������������������������Wq���Wk������������������������������S������������������������������������������������������
��������������������������������������������������������������������������K������������������������������������������������������������ sqrt(K)���������������������������������������������������
���������������S���V���������������������������������������O���V���Value������������������ama���������o_i,j������������������i���������������j������������������������������������3. ���������������
- ��������������� Query���Key���Value���������������������������������������������������d_k������������������������������d_v�����������������������������������������������������������������������������������������������1xd_k.
- ��������������������� ���������������������������������������������������������������������������������������������������������������������������������������
- ��������������� ���������������������������������������������������������������������������������������/fs/g������������������������������
4. Multi-head Attention���������
��������������������������������������������������������� heads��������������������������������������� head������������������������������������������������������������������������������������������������������������������2���������������������������������������������������������������������������concat���������������������������������������
5. Transformer���������������������������
���������������FFN������
������������������������FFN������������������������������������������������������������������������������ReLU������������������������������FFN���������������������������������������������������������������������������������������������������������������Positional Encoding������
Transformer������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������Layer Normalization���
������������������������������������������������������������������������������������ ���������������������������������������������������������������������������������������������������������6. ������
Self-Attention������������Transformer���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������DL���������������������������������������������������������������������������������������������������������������������������
发表评论
最新留言
关于作者
