关注

揭秘多头注意力:数据处理的智慧分身术

多头注意力的核心实质:是通过多个“头”并行捕捉不同维度的信息,最终将这些局部信息拼接整合,形成能覆盖更全面语义的全维度词嵌入向量。

在这里插入图片描述

一、核心原理拆解:从“分工”到“整合”

多头注意力并非多个相同头的简单重复,而是通过维度拆分+并行计算+拼接整合,实现对词向量多维度信息的完整捕捉,具体分两步:

  1. 多头“分工”:拆分维度,捕捉局部关系
    首先会将原始词嵌入向量(比如维度为512)拆分成多个低维子向量(比如拆成8个,每个子向量维度为64),每个子向量对应一个“头”。
    每个头会独立计算注意力权重,专注捕捉某一特定维度的关系,比如:

    • 头1:专注捕捉“语法依赖”(如“红”修饰“苹果”);
    • 头2:专注捕捉“语义关联”(如“苹果”与“水果”的从属关系);
    • 头3:专注捕捉“情感倾向”(如“喜欢苹果”中的积极情绪)。
  2. 拼接“整合”:汇总局部,形成全维度向量
    每个头计算完成后,会输出一个对应维度的局部注意力向量(仍为64维)。
    将这8个局部向量重新拼接,就能得到一个维度与原始词嵌入相同的向量(8×64=512维)。
    这个拼接后的向量,融合了语法、语义、情感

转载自CSDN-专业IT技术社区

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/qq_38998213/article/details/154260633

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--