attention的相关语法

2024-05-16

1. attention的相关语法

pay attention to注意某事
pay attention 专心；集中注意力 
pay more attention to更加注意 
pay close attention to  密切注意 
be paid attention to 关心 
give one's attention to v. 注意 

注：这里的to 是介词，后面只能加名词或者动词的现在分词形式。attention的具体含义：attention [ə'tenʃən] 
n.
1. 
专心；留心；注意；精神集中
专注；注目
2. 注意力
3. 关心；照料；考虑；思考；特殊处理
4. 
关怀，体贴(别人)
礼貌，客气
[通常用于复数] 款待；热心；(尤指求爱时表现的)殷勤
5. 【军事】
立正姿势
立正口令
6. 检修，修理
7. 【心理学】注意
8. 【计算机】注意，留心(来自外部的处理要求)
interj.
1. (口令)立正!
2. (有要事当众宣布时说)注意!

attention的相关语法

2. attention的讲解

attention是一个名词，意思是注意力、关心、口令立正，attention这个单词可以划分为几个音节呢？我们一起来看一看，这个单词一共可以划分为三个音节【at】【ten】和【tion】，第一个音节at的发音为【ə】，而第二个音节ten的发音为【ten】，而第三个音节tion的发音为【ʃn】，合在一起的话这个单词的发音就是【əˈtenʃn】，我们再看一下用法，attention作为注意力、关心、立正的意思来使用；
 
   
 
 例如在下面这两个句子里，I couldn't give the programme，my undivided attention . 我不能一心一意地关注这个方案，If we don't keep bringing，this to the attention of the people，nothing will be done.如果我们无法让公众保持对此事的关注，那就将一事无成，在这两个句子中，attention都指的是注意力，attention还有一个短语，pay more attention to，指的是更加注意，These tours may awaken people，to pay more attention to long standing poverty，or the effects of war. 这些旅行可能会唤醒人们，来更多地关注长期的贫困或战争的影响，attention这个单词你学会了吗？

3. attention的相关语法

pay attention to注意某事
  pay attention 专心；集中注意力 
  pay more attention to更加注意 
  pay close attention to 密切注意 
  be paid attention to 关心 
  give one's attention to v.注意 
  注：这里的to 是介词,后面只能加名词或者动词的现在分词形式.attention的具体含义：attention [ə'tenʃən] 
  n.
  1.
  专心；留心；注意；精神集中
  专注；注目
  2.注意力
  3.关心；照料；考虑；思考；特殊处理
  4.
  关怀,体贴(别人)
  礼貌,客气
  [通常用于复数] 款待；热心；(尤指求爱时表现的)殷勤
  5.【军事】
  立正姿势
  立正口令
  6.检修,修理
  7.【心理学】注意
  8.【计算机】注意,留心(来自外部的处理要求)
  interj.
  1.(口令)立正!
  2.(有要事当众宣布时说)注意!

attention的相关语法

4. attention的用法和搭配

1.bringsthtoonesattention使某人注意某事。  2.callonesattentiontosth提醒某人注意。  3.draw[catch,attract]onesattention引起某人的注意。  4. fix one’s attention on sth 集中注意力于某事物  5. pay attention to 注意。                    扩展资料                       　　例句：I brought this to his attention. 我使他注意到了这一点。
    　　He called our attention to what he said. 他提醒我们注意他说的话。
    　　I kept trying to attract the waiter’s attention. 我不断地示意招呼服务员。
    　　He fixed his attention on writing. 他专心写作。

5. 目前主流的attention方法都有哪些

首先是Object Recognition。是因为模型结合了CNN，RNN 和 Reinforcement Learning，来解决问题。并且在其上对它进行很大程度了改进，并引入了weakly supervised的因素；然后是Image Caption。Xu在ICML上的 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention可谓应用Attetion来解image caption的经典。再是NLP中的MachinTranslation. 前面的工作都是用时序地进行Attention来关注一幅图像的不同位置区域。类比sequence问题，也就顺理成章地用在Machine Translation上了。划重点来说attention机制听起来高达上，其实就是学出一个权重分布，再拿这个权重分布施加在原来的特征之上，就可以叫attention。当然这个加权可以是保留所有分量均做加权（即soft attention）；也可以是在分布中以某种采样策略选取部分分量（即hard attention）。

目前主流的attention方法都有哪些

6. 一文看懂 Attention（本质原理+3大优点+5大类型）

 Attention（注意力）机制如果浅层的理解，跟他的名字非常匹配。他的核心逻辑就是「 从关注全部到关注重点 」。
                                           Attention 机制很像人类看图片的逻辑，当我们看一张图片的时候，我们并没有看清图片的全部内容，而是将注意力集中在了图片的焦点上。大家看一下下面这张图：
                                           我们一定会看清「锦江饭店」4个字，如下图：
                                           但是我相信没人会意识到「锦江饭店」上面还有一串「电话号码」，也不会意识到「喜运来大酒家」，如下图：
                                           所以，当我们看一张图片的时候，其实是这样的：
                                           上面所说的，我们的视觉系统就是一种 Attention机制， 将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。 
    AI 领域的 Attention 机制 
   Attention 机制最早是在计算机视觉里应用的，随后在 NLP 领域也开始应用了，真正发扬光大是在 NLP 领域，因为 2018 年  BERT  和 GPT 的效果出奇的好，进而走红。而  Transformer  和 Attention 这些核心开始被大家重点关注。
   如果用图来表达 Attention 的位置大致是下面的样子：
                                           这里先让大家对 Attention 有一个宏观的概念，下文会对 Attention 机制做更详细的讲解。在这之前，我们先说说为什么要用 Attention。
   之所以要引入 Attention 机制，主要是3个原因：
                                            参数少 
   模型复杂度跟 CNN、RNN 相比，复杂度更小，参数也更少。所以对算力的要求也就更小。
    速度快 
   Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。
    效果好 
   在 Attention 机制引入之前，有一个问题大家一直很苦恼：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。
   Attention 是挑重点，就算文本比较长，也能从中间抓住重点，不丢失重要的信息。下图红色的预期就是被挑出来的重点。
                                           Attention 经常会和 Encoder-Decoder 一起说，之前的文章《 一文看懂 NLP 里的模型框架 Encoder-Decoder 和 Seq2Seq 》 也提到了 Attention。
   下面的动图演示了attention 引入 Encoder-Decoder 框架下，完成机器翻译任务的大致流程。
                                            但是，Attention 并不一定要在 Encoder-Decoder 框架下使用的，他是可以脱离  Encoder-Decoder 框架的。 
   下面的图片则是脱离 Encoder-Decoder 框架后的原理图解。
                                            小故事讲解 
   上面的图看起来比较抽象，下面用一个例子来解释 attention 的原理：
                                           图书管（source）里有很多书（value），为了方便查找，我们给书做了编号（key）。当我们想要了解漫威（query）的时候，我们就可以看看那些动漫、电影、甚至二战（美国队长）相关的书籍。
   为了提高效率，并不是所有的书都会仔细看，针对漫威来说，动漫，电影相关的会看的仔细一些（权重高），但是二战的就只需要简单扫一下即可（权重低）。
   当我们全部看完后就对漫威有一个全面的了解了。
    Attention 原理的3步分解： 
                                           第一步： query 和 key 进行相似度计算，得到权值
   第二步：将权值进行归一化，得到直接可用的权重
   第三步：将权重和 value 进行加权求和
   想要了解更多技术细节，可以看看下面的文章或者视频：
   「文章」 深度学习中的注意力机制 
   「文章」 遍地开花的 Attention，你真的懂吗？ 
   「文章」 探索 NLP 中的 Attention 注意力机制及 Transformer 详解 
   「视频」 李宏毅 - transformer 
   「视频」 李宏毅 - ELMO、BERT、GPT 讲解 
   Attention 有很多种不同的类型：Soft Attention、Hard Attention、静态Attention、动态Attention、Self Attention 等等。下面就跟大家解释一下这些不同的 Attention 都有哪些差别。
                                           由于这篇文章《 Attention用于NLP的一些小结 》已经总结的很好的，下面就直接引用了：
   本节从计算区域、所用信息、结构层次和模型等方面对Attention的形式进行归类。
    1. 计算区域 
   根据Attention的计算区域，可以分成以下几种：
   1） Soft  Attention，这是比较常见的Attention方式，对所有key求权重概率，每个key都有一个对应的权重，是一种全局的计算方式（也可以叫Global Attention）。这种方式比较理性，参考了所有key的内容，再进行加权。但是计算量可能会比较大一些。
   2） Hard  Attention，这种方式是直接精准定位到某个key，其余key就都不管了，相当于这个key的概率是1，其余key的概率全部是0。因此这种对齐方式要求很高，要求一步到位，如果没有正确对齐，会带来很大的影响。另一方面，因为不可导，一般需要用强化学习的方法进行训练。（或者使用gumbel softmax之类的）
   3） Local  Attention，这种方式其实是以上两种方式的一个折中，对一个窗口区域进行计算。先用Hard方式定位到某个地方，以这个点为中心可以得到一个窗口区域，在这个小区域内用Soft方式来算Attention。
    2. 所用信息 
   假设我们要对一段原文计算Attention，这里原文指的是我们要做attention的文本，那么所用信息包括内部信息和外部信息，内部信息指的是原文本身的信息，而外部信息指的是除原文以外的额外信息。
   1） General  Attention，这种方式利用到了外部信息，常用于需要构建两段文本关系的任务，query一般包含了额外信息，根据外部query对原文进行对齐。
   比如在阅读理解任务中，需要构建问题和文章的关联，假设现在baseline是，对问题计算出一个问题向量q，把这个q和所有的文章词向量拼接起来，输入到LSTM中进行建模。那么在这个模型中，文章所有词向量共享同一个问题向量，现在我们想让文章每一步的词向量都有一个不同的问题向量，也就是，在每一步使用文章在该步下的词向量对问题来算attention，这里问题属于原文，文章词向量就属于外部信息。
   2） Local  Attention，这种方式只使用内部信息，key和value以及query只和输入原文有关，在self attention中，key=value=query。既然没有外部信息，那么在原文中的每个词可以跟该句子中的所有词进行Attention计算，相当于寻找原文内部的关系。
   还是举阅读理解任务的例子，上面的baseline中提到，对问题计算出一个向量q，那么这里也可以用上attention，只用问题自身的信息去做attention，而不引入文章信息。
    3. 结构层次 
   结构方面根据是否划分层次关系，分为单层attention，多层attention和多头attention：
   1）单层Attention，这是比较普遍的做法，用一个query对一段原文进行一次attention。
   2）多层Attention，一般用于文本具有层次关系的模型，假设我们把一个document划分成多个句子，在第一层，我们分别对每个句子使用attention计算出一个句向量（也就是单层attention）；在第二层，我们对所有句向量再做attention计算出一个文档向量（也是一个单层attention），最后再用这个文档向量去做任务。
   3）多头Attention，这是Attention is All You Need中提到的multi-head attention，用到了多个query对一段原文进行了多次attention，每个query都关注到原文的不同部分，相当于重复做多次单层attention：
                                           最后再把这些结果拼接起来：
                                            4. 模型方面 
   从模型上看，Attention一般用在CNN和LSTM上，也可以直接进行纯Attention计算。
    1）CNN+Attention 
   CNN的卷积操作可以提取重要特征，我觉得这也算是Attention的思想，但是CNN的卷积感受视野是局部的，需要通过叠加多层卷积区去扩大视野。另外，Max Pooling直接提取数值最大的特征，也像是hard attention的思想，直接选中某个特征。
   CNN上加Attention可以加在这几方面：
   a. 在卷积操作前做attention，比如Attention-Based BCNN-1，这个任务是文本蕴含任务需要处理两段文本，同时对两段输入的序列向量进行attention，计算出特征向量，再拼接到原始向量中，作为卷积层的输入。
   b. 在卷积操作后做attention，比如Attention-Based BCNN-2，对两段文本的卷积层的输出做attention，作为pooling层的输入。
   c. 在pooling层做attention，代替max pooling。比如Attention pooling，首先我们用LSTM学到一个比较好的句向量，作为query，然后用CNN先学习到一个特征矩阵作为key，再用query对key产生权重，进行attention，得到最后的句向量。
    2）LSTM+Attention 
   LSTM内部有Gate机制，其中input gate选择哪些当前信息进行输入，forget gate选择遗忘哪些过去信息，我觉得这算是一定程度的Attention了，而且号称可以解决长期依赖问题，实际上LSTM需要一步一步去捕捉序列信息，在长文本上的表现是会随着step增加而慢慢衰减，难以保留全部的有用信息。
   LSTM通常需要得到一个向量，再去做任务，常用方式有：
   a. 直接使用最后的hidden state（可能会损失一定的前文信息，难以表达全文）
   b. 对所有step下的hidden state进行等权平均（对所有step一视同仁）。
   c. Attention机制，对所有step的hidden state进行加权，把注意力集中到整段文本中比较重要的hidden state信息。性能比前面两种要好一点，而方便可视化观察哪些step是重要的，但是要小心过拟合，而且也增加了计算量。
    3）纯Attention 
   Attention is all you need，没有用到CNN/RNN，乍一听也是一股清流了，但是仔细一看，本质上还是一堆向量去计算attention。
    5. 相似度计算方式 
   在做attention的时候，我们需要计算query和某个key的分数（相似度），常用方法有：
   
   
                                           
   
                                           
   
                                           
   
                                           5）用多层感知机也可以：

7. 请问atten和 attention有什么区别呢？

atten是attention的缩写。
读音：[英][əˈtenʃn][美][əˈtɛnʃən]
n. 注意，注意力; 照料，关怀; 殷勤; 
int. [口令]立正; 
复数：attentions。

例句用法：
1、You have my undivided attention.
我专心听你所讲。
2、Pay particular attention to the first page of results.
尤其要注意第一页的搜索结果。
3、Later he turned his attention to the desperate state of housing in the province.
其后，他将注意力转向了该省形势严峻的住房问题。
4、Young children with short attention spans.
小孩子很难长时间保持注意力集中。
5、Volume Two, subtitled 'The Lawyers', will also attract considerable attention.
副标题为“律师”的第二册也将获得广泛关注。

请问atten和 attention有什么区别呢？

8. Attention机制概念整理

深度学习中的注意力机制（Attention Macheanism）：
  
 Attention机制较为广泛的应用是为了解决  LSTM长输入序列在编码成固定长度向量后，解码受限于该固定长度向量  的问题。但是这个概念最初引入是在计算机视觉领域。
  
 Attention的概念来源于人类的  视觉注意力机制  ：人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。所以，深度学习中注意力机制的核心目标也是从众多信息中选择出对当前任务目标更关键的信息。
                                          
 上图的另外一个理解方式是软寻址，也就是说每来一个Query，通过和存储器内key的地址进行相似性比较，并可能从每个对应的key中都会取出具有一定重要性的内容value，这个重要性由Query和key的相似性决定，最后对这些从不同的key中取出的value进行加权求和
  
 Encoder顾名思义就是对输入句子Source进行编码，将输入句子通过非线性变换转化为中间语义表示C：
                                          
 对于解码器Decoder来说，其任务是根据句子Source的中间语义表示C和之前已经生成的历史信息(y1,y2,...,yi-1)来生成i时刻要生成的单词：
                                          
 对于nlp文本处理领域中不同的任务只需要改变source和target：s（中文句）t（英文句）——>机器翻译；s（文章）t（概述）——>文本摘要；s（问题）t（回答）——>对话机器人
  
 如果不加attention机制，生成目标yi时，source中任意一个单词的影响力都是相同的（没有注意力的焦点）。
  
 如果句子过长，中间语义C不足以包含每个单词本身的信息，会丢失很多细节信息，因此要引入注意力机制，将重点放在对target中的yi生成有用的相应的source词上。
  
   理解Attention模型的关键就是这里  ，即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci
                                          
 将上图转化成函数表示：（Soft Attention:Attention+Softmax）
                                          
 其中Aij是一个权值矩阵，aij表示source中的第i个单词对target中第j的单词预测的贡献（可以理解成相似性），hj是source中第j个单词的语义编码（不同框架编码不同）
  
 
  
                                          
 i-1时刻的隐层状态Hi-1是已知的，F(hj,Hi-1)函数表示目标单词yi和每个输入单词j对齐的可能性
  
 一般在自然语言处理应用里会把Attention模型看作是输出Target句子中某个单词和输入Source句子每个单词的对齐模型，这是非常有道理的。例如在传统机器学习方法中相当于短语对齐的过程。
  
 更进一步的抽象，可以将target看成Query，这个Query和source中的每个检索词value都有一个相似性，即权重系数，将这些权重系数相加得到Attention值，转化成公式：
                                          
 从这个层面上可以看出Attention就是从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，这个“聚焦”就体现在权重系数上
  
 1. 根据Query和key计算权重系数；
  
     ① 根据Query和Key计算相似性：相似度的计算可用点积、cosine相似性、MLP网络等计算
  
     ② 对①的原始分值进行归一化处理：如SoftMax
  
 
  
                                          
 2.根据权重系数对value就行加权求和
  
 
  
                                          
 整个计算过程可表示成下图：
  
 
  
                                          
 未完待续
  
 参考张俊林博士的博客结合个人理解整理了一下 https://blog.csdn.net/malefactor/article/details/78767781