嘘~ 正在从服务器偷取页面 . . .

VQA


Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

一篇博客,写的不错

Info

18CVPR 2017 VQA Challenge冠军

image captioning:图像描述 VQA:视觉问答

Abstract

提出了一种结合自底向上和自顶向下的注意机制,使注意能够在物体和其他显著图像区域的水平上计算。

自下而上的机制(基于更快的R-CNN)提出图像区域,每个区域都有一个相关的特征向量,而自上而下的机制决定特征权重。

评价标准:CIDEr SPICE BLEU-4

Conclusion

可以使用预训练的自底向上的注意力特征而不是CNN特征

Introduction

图像与语言理解相结合-计算机视觉和自然语言处理结合。这需要细粒度的视觉处理,或者甚至需要多个步骤的推理来生成高质量的输出。因此,视觉注意机制在图像字幕和VQA中被广泛采用,其通过学习关注图像中突出的区域来提高性能。

在人类的视觉系统中,注意力可以由当前任务所决定的自上而下的信号(如寻找某物)自愿地集中起来,也可以由与意想不到的、新奇的或显著的刺激相关的自下而上的信号自动地集中起来。在本文中,我们采用类似的术语,将由非视觉或任务特定背景驱动的注意机制称为“自上而下”,而纯粹的前馈注意机制称为“自下而上”。

如图1, 自顶向下的注意力机制决定不同特征的贡献度,一般的CNN提取特征都是差不多相同的方格块,而自下向上的注意力机制选择了需要注意的区域,从而有很多大小不一的物体级别的方格。自顶向下得到显著图像区域,每个区域是一组特征向量,由Faster R-CNN实现;自顶向下机制利用特定任务上下文预测图像区域的注意分布。然后计算所关注的特征向量作为图像特征在所有区域的加权平均

确定区域的数量和区域的位置很重要。之前显著区域关注的比较少,从概念上讲,优势应该类似于在ImageNet上训练前的视觉表示,并利用显著更大的跨领域知识。

Approach

自顶向下只使用了最简单的one-pass一遍过模型,而没有使用类似堆叠、多头或者双向等复杂的注意力模型。

Bottom-Up Attention Model

使用 Faster R-CNN,表达区域没有使用之前空间图像特征V的定义,而是使用了bounding box.


文章作者: Dch
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Dch !
评论
  目录