多头注意力的核心实质:是通过多个“头”并行捕捉不同维度的信息,最终将这些局部信息拼接整合,形成能覆盖更全面语义的全维度词嵌入向量。

一、核心原理拆解:从“分工”到“整合”
多头注意力并非多个相同头的简单重复,而是通过维度拆分+并行计算+拼接整合,实现对词向量多维度信息的完整捕捉,具体分两步:
-
多头“分工”:拆分维度,捕捉局部关系
首先会将原始词嵌入向量(比如维度为512)拆分成多个低维子向量(比如拆成8个,每个子向量维度为64),每个子向量对应一个“头”。
每个头会独立计算注意力权重,专注捕捉某一特定维度的关系,比如:- 头1:专注捕捉“语法依赖”(如“红”修饰“苹果”);
- 头2:专注捕捉“语义关联”(如“苹果”与“水果”的从属关系);
- 头3:专注捕捉“情感倾向”(如“喜欢苹果”中的积极情绪)。
-
拼接“整合”:汇总局部,形成全维度向量
每个头计算完成后,会输出一个对应维度的局部注意力向量(仍为64维)。
将这8个局部向量重新拼接,就能得到一个维度与原始词嵌入相同的向量(8×64=512维)。
这个拼接后的向量,融合了语法、语义、情感
转载自CSDN-专业IT技术社区
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/qq_38998213/article/details/154260633



