Semantic-Segmentation-3

FCN

语义分割

发布日期: 2021-04-13

文章字数: 8.8k

阅读次数:

Nonlocal和Transformer的区别？

==区别在于把注意力当做辅助模块还是核心模块==

无论是non-local还是CCNet,都是认为CNN整体上已经非常好了,但是缺乏一些长距离建模的能力,所以我们稀疏的插入一下注意力模块,帮助CNN做这件事。

另外的全注意力或者类Transformer的网络,是让网络的主要部分都是用注意力结构。==卷积和注意力的地位已经颠倒过来了==,由卷积去负责一些注意力可能不擅长的事情,比如低层的特征提取,而剩下绝大部分的建模都交给注意力.

此外，全注意力网络的工作也可以分为两类：

==一类是保留原有CNN的训练流程，通过修改注意力模块的结构适应CV任务==，比如AAConv、SASA、GSA-Net；
==另一类则保留原本的Transformer架构，通过修改训练流程来适应CV任务==，比如ViT、DETR。
这两类工作相比，目前看来第二类工作的改动更彻底、效果也更好。==第一类工作往往因为需要处理高分辨率的特征图并且引入相对位置表征，导致在GPU、TPU上效率不高。==第二类工作遇到的主要问题则是，==如果完全抛弃卷积，由于缺乏平移不变性的先验，往往对数据量和训练长度要求很高，不能高效地学习。如果不使用超大规模数据进行预训练，则一般还是需要保留一部分卷积层。==

关于attention的思考

对于深层的一个Channel，特征图的每一个点都是之前的

AANet

Info

19ICCV Google Brain 用自注意力增强卷积：这是新老两代神经网络的对话

Abstract

卷积运算的弱点:局部邻域运行缺少全局信息。本文使用自注意力作为卷积的替代。

我们介绍了一种新颖的二维相对自注意力机制，该机制证明了在取代卷积作为图像分类的独立计算基元方面具有竞争力。

==我们在控制实验中发现，将卷积和自注意力结合起来可获得最佳结果。==

因此，我们建议通过将卷积特征图与通过自我注意产生的一组特征图进行级联，以利用这种自我注意机制来增强卷积算子。

广泛的实验表明，注意力增强技术可在许多不同的模型和规模（包括ResNets和SOTA的移动受限网络）上，在ImageNet上的图像分类和COCO上的对象检测方面带来一致的改进，同时保持参数数量相似。

比SENet好

Introduction

==卷积层的设计强加了 1.有限感受野的局部性 2.权重共享的平移等变性translation equivariance==

==self attention的关键思想是从hidden units中计算得出值的加权平均。The key idea behind self-attention is to produce a weighted average of values computed from hidden units.==

==与池化和卷积算子不同，加权平均运算中(self attention)使用的权重是通过hidden units之间的相似度函数动态生成的。作为结果，输入信号之间的相互作用取决于信号本身，而不是像卷积一样由它们的相对位置预先确定。特别地，这使得self attention能捕捉远程交互，而无需增加参数的数量。==

应用self attention替代conv

我们开发了一种新颖的二维相对self attention机制[37]，该机制在注入相对位置信息的同时保持平移等变性，使其非常适合图像。

我们的self-attention 显示出了完全取代conv的竞争力,但是我们在对照实验中发现，==将两者结合使用可获得最佳效果==。

因此，我们没有完全放弃卷积的概念，而是建议使用self attention机制来增强卷积。这是通过将强制局部性的卷积特征图与能够建模更长距离依赖项的self attention特征图（请参见图2）进行级联来实现的。

实验还表明,fullyself attention模型(Attention Argument的一种特例)仅比ImageNet上的完全卷积模型稍差，这表明self attention是图像分类的强大独立计算基元。

这个图真的有大问题,不知道它画的什么,这也能入选顶会？？？就离谱

2.1. Convolutional networks

的确，用于基于卷积图元设计体系结构的自动搜索策略可在跨多种任务的大规模图像分类任务中实现最先进的准确性[55，21]。

2.2. Attention mechanisms in networks

针对视觉任务提出了多种注意力机制，以解决卷积的弱点[17、16、7、46、45、53]。例如，Squeeze and Excitation [17]和Gather-Excite [16]使用从整个特征图汇总的信号重新分配特征通道的权重，而BAM [31]和CBAM[46] (18ECCV)在通道和空间维度上独立地完善卷积特征。

但是，non-local block仅在ImageNet预训练之后才添加到体系结构中，并以不破坏预训练的方式进行初始化。

我们的在整个架构中采用self attention

==The use of multi-head attention allows the model to attend jointly to both spatial and feature subspaces.==

另外，我们通过将relative self attention[37，18]扩展到二维输入，从而增强了self attention对图像的表示能力，从而使我们能够以一种有原则的方式对平移等变性transparent equivariance进行建模。

最终，我们的方法产生了附加的特征图，而不是通过加法[45、53]或门控(权重相乘的形式)[17、16、31、46]重新校准卷积特征。==此属性使我们可以灵活地调整注意力通道的比例，并考虑从完全卷积到完全注意力模型的一系列体系结构。==

Methods

不同空间下的表示可以做attention吗？

我觉得显然可以。我们对注意力机制最朴素、直观的认识就是，它学习的是一种对齐关系（alignment）。而这种机制并不假定query和memory同属于一个所谓语义空间，而是假定两个空间存在某种可以靠注意力机制学习的对齐关系。

在注意力较早应用的机器翻译应用中，你也很难说源语言和目标语言二者属于同一个语义空间，但是可以大胆假定两门语言存在某种对齐关系，简单的例如词汇之间的对齐，复杂的例如模式之间的对齐，在Transformer中分别对应低层表示的cross-attention和高层的cross-attention。

在跨模态场景中，显然你也总是可以找到特征之间的某种对齐关系，例如图像和文本之间广泛存在的对应。抛开DL的理论实践，光是看人类的认知，当你阅读小说时，看到『天空』，你可能会想象到一片蓝色；看到『bobo』，你可能会想象到一颗猥琐的猫头。这就是图像和文本之间固有的对齐关系，因为语言习得过程就需要我们将特定文字和特定意象（包括图像、声音）联系，这正是近期众多跨模态工作（包括著名的CLIP，DALL-E）得以成功的原因。引入跨空间的注意力即是学习这种对齐关系的一种方法。

希望能帮助你理解手头的论文。

作者：TniL
链接：https://www.zhihu.com/question/452498914/answer/1814362500
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

可以类比CNN中同时使用多个滤波器的作用，直观上讲，多头的注意力有助于网络捕捉到更丰富的特征/信息。

论文中是这么说的：

Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions.

我觉得也可以把多头注意力看作是一种ensemble，模型内部的集成。不过另外的答主也提到了，多头注意力的机理还不是很清楚。事实上，注意力机制本身如何工作，这个可解释性工作也还没有完成，目前的一些解释都还只是intuition，除了seq2seq中起到一种alignment的作用外，在许多模型中加入注意力以后如何起作用，还是有一点争议的。

$$
Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V
$$

Q、K获得数值为0-1的mask矩阵(可以理解为attention score矩阵)，V表示的是输入线性变换后的特征,mask矩阵乘上V就获得过滤后的V特征

$H$特征图的高度 $W$宽度 $F_{in}$输入维度 $N_h$:头数 $d_v$:values的深度**(深度指channels吧)** $d_k$:query和keys的深度 $d_v^h$ $d_k^h$第h个头的深度

3.1. Self-attention over images

input:$(H,W,F_{in})\to X\in R^{HW\times F_{in}}$

single head h:
$$
O_h=softmax(\frac{(XW_q)(XW_k)^T}{\sqrt{d_k^h}})(XW_v)\
W_q,W_k\in R^{F_{in}\times d_k^h},W_u\in R^{F_{in}\times d_v^h}
$$
W是学到的线性变换,将X映射到queries:$Q=XW_q$,keys:$K=XW_k$,values:$V=XW_v$

==所以说,应用到视觉上,是将二维的图像展开,展开后类似nlp==

The outputs of all heads are then concatenated 连接and projected 投影again as follows:
$$
MHA(X)=Concat[O_1,O_2,…,O_{Nh}]W^O\
W^O\in R^{d_v\times d_v}
$$
W是学到的线性变换,MHA(X)然后reshaped into $(H,W,d_v)$

We note that multi-head attention incurs招致 ==a complexity of== $O((HW)^2d_k)$ and ==a memory cost== of $O((HW)^2Nh) $as it requires to store attention.

==时间复杂度推导:==

假设现在有两个矩阵$A:m\times n$ $B:n\times l$

对于矩阵$A$第一行的第一个元素,需要进行$l$次运算,一行需要进行$n\times l$次运算,$m$行需要进行$m\times n \times l$次运算

根据上面的推导,$multi.head$的时间复杂度为:
$$
O(multihead)=O(HW\times F_{in}\times d_k + HW\times d_k\times HW)\
=O((HW)^2d_k)
$$

==空间复杂度推导:==

举例:

int i = 1;
int j = 2;
++i;
j++;
int m = i + j;

只分配了三个变量,i、j、m,所以空间复杂度$S(n)=O(1)$

int[] m = new int[n]
for(i=1; i<=n; ++i)
{
   j = i;
   j++;
}

第一行分配了n个元素的数组,之后的循环操作都没有再分配空间,所以说空间复杂度为$S(n)=O(n)$

对于$multi.head$的空间复杂度为:
$$
O(multihead)=O((HW)^2N_h)
$$
每个head,分配的最大空间就是那个$HW\times HW$,$N_h$个头就是$(HW)^2N_h$

3.1.1 Two-dimensional Positional Encodings
==如果没有关于位置的明确信息，则self attention是permutation equivariant置换等变的：==
$$
MHA(\pi(X))=\pi(MHA(X))
$$
对于像素位置的任何排列$\pi$,使其对建模高度结构化的数据(如图像)无效。

已经提出了使用显式空间信息来增强激活图的多种位置编码以缓解相关问题。Transformer[32]将在original Transformer[43]中引入的正弦波扩展到二维输入,而CoordConv[29]将positional channels连接到激活图。

这些编码对我们进行图像分类和目标检测的实验没有帮助（请参见第4.5节）

==我们猜想是因为这样的位置编码虽然不是置换等变的，但不满足平移等变，而平移等变在处理图像时是理想的特性。==

作为解决方案，我们建议将relative position encodings[37]**的使用扩展到二维，并提出一种基于Music Transformer** [18]的内存高效实现。

Relative positional encodings:

[37]引入位置编码,防止置换等变的同时实现平移等变。我们通过独立地添加相对高度信息和相对宽度信息来实现二维相对自我关注。

piexl$i=(i_x,i_y)$,这里的$i_x$和$i_y$是指在spatial时候的坐标， $j=(j_x,j_y)$与$i$类似，他俩的相对注意力计算公式如下:
$$
l_{i,j}=\frac{q^T_i}{\sqrt{d_k^h}}(k_j+r^W_{j_x-i_x}+r^H_{j_y-i_y})
$$
$q_i$指query $Q$的第$i$行,也就是第$i$个点,$k_j$就是key $K$的第$j$行,$r^W_{j_x-i_x}$是learned embeddings for 相对宽度$j_x-i_x$,$r^H_{j^y-i^y}$是相对宽度,

output of head h now becomes:
$$
O_h=Softmax(\frac{QK^T+S^{rel}_H+S^{rel}_W}{\sqrt{d^h_k}})V
$$

$S^{rel}_H,S^{rel}_W\in R^{HW\times HW}$

$S^{rel}_H[i,j]=q^T_ir^H_{j_y-i_y}$

$S^{rel}_W[i,j]=q^T_ir^W_{j_x-i_x}$

[37]中的相对注意机制带来额外的内存开销为$O((HW)^2d^k_h)$, 太大了 ,不带位置注意的才$O((HW)^2N_h)$,并且一般来说$N_h<d^h_k$，实在得不偿失，==本文提出的只有==$O(HWd_k^h)$

相对位置嵌入$r^H$和$r^W$在头之间共享而不是在层之间共享,对每个layer,建模高度和宽度的相对位置距离增加了$(2(H+W)-2)d^h_k$的参数量。

3.2. Attention Augmented Convolution

SENet[17] GENet[16]channelwise reweighing

BAM[31] CBAM[46] reweigh both channels and spatial positions ==independently==.

与这些方法相比,我们

使用一种可以同时注意空间和特征子空间(每个头部对应一个特征子空间)的注意力机制
引入额外的特征图而不是refining them

Concatenating convolutional and attentional feature maps:

形式上,考虑一个kernel size=k，$F_{in}$input filters $F_{out}$ output filters.相应的AA conv can be written as:
$$
AAConv(X)=Concat[Conv(X),MHA(X)]
$$

$v=\frac{d_v}{F_{out}}$表示the ratio of attentional channels to number of original output filter

$\kappa=\frac{d_k}{F_{out}}$the ratio of key depth to number of original output filters

与卷积类似,AAC:

is equivariant to translation 平移等变
可以很容易地对不同spatial尺寸的输入进行操作

Effect on number of parameters：

参数量计算先不看了,反正这篇文章奇奇怪怪的啊

Attention Augmented Convolutional Architectures:

增强卷积之后是BN,==BN can learn to scale the contribution of the convolution feature maps and the attention feature maps可以学习放缩卷积特征层和注意力特征层的贡献/作用== 与SENet等相同,对每个残差块应用一次增强卷积

由于内存成本$O(N_h(HW)^2)$,对于较大的空间维度是不行的,==所以我们从最后一层开始加,直到内存受不了==就tm离谱

为了减少内存占用,选用较少的$batchsize$，同时开始的尺寸较大的时候用$downsample$，使用3x3,stride=2的平均池化

Experiments

SASA

Info

Relationship