本文介绍Agent Attention注意力机制,Transformer中的Attention模块可以提取全局语义信息,但是计算量太大,Agent Attention是一种计算非常有效的Attention模块。
论文:Agent Attention: On the Integration of Softmax and Linear…
同一个字,前后接的不同,词汇的意思不同,通过bert 之后输出的向量也不一样。 bert 输出后的向量包含上下文的信息。 比如 吃苹果 和苹果电脑中的 果,向量不一样。 DNA 分类 把DNA 的 A T C G 用 we you he she 表示,然…