Transformer注意力机制笔记
发布日期:2021-05-10 18:39:25 浏览次数:21 分类:精选文章

本文共 3522 字,大约阅读时间需要 11 分钟。

������������������������������������Transformer������Self-Attention

���������������������������������������������Transformer������������������������������������������������������������������Self-Attention���������������������������������������������������������������������������������������RNN������������������������������������������������������Self-Attention������������������������Transformer���������������

1. Query���Key���Value���������������������������������������

���Self-Attention������_query���������������������������������������������������������������������������������Key������������Value������������������������������������������������������������������������������������������������������������������������������������������������

2. ���������������������������������������������

  • ���������������������

    ������Query���Key������������������������������������������������������������������Query���Key���������������������q_i���k_j������������������������Wq���Wk������������������������������S���������������������������������������

  • ���������������

    ��������������������������������������������������������������������������K������������������������������������������������������������ sqrt(K)������������������������������������

  • ���������������

    ���������������S���V���������������������������������������O���V���Value������������������ama���������o_i,j������������������i���������������j������������������������������������

  • 3. ���������������

    • ���������������
      Query���Key���Value���������������������������������������������������d_k������������������������������d_v�����������������������������������������������������������������������������������������������1xd_k.
    • ���������������������
      ���������������������������������������������������������������������������������������������������������������������������������������
    • ���������������
      ���������������������������������������������������������������������������������������/fs/g������������������������������

    4. Multi-head Attention���������

    ��������������������������������������������������������� heads��������������������������������������� head������������������������������������������������������������������������������������������������������������������2���������������������������������������������������������������������������concat���������������������������������������

    5. Transformer���������������������������

  • ���������������FFN������

    ������������������������FFN������������������������������������������������������������������������������ReLU������������������������������FFN������������������������������������������������������������������������������������������������

  • ���������������Positional Encoding������

    Transformer������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

  • Layer Normalization���

    ������������������������������������������������������������������������������������ ���������������������������������������������������������������������������������������������������������

  • 6. ������

    Self-Attention������������Transformer���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������DL���������������������������������������������������������������������������������������������������������������������������

    上一篇:差分数组
    下一篇:KMP字符串匹配算法代码(模板)

    发表评论

    最新留言

    留言是一种美德,欢迎回访!
    [***.207.175.100]2025年04月03日 22时48分03秒