【多尺度 + 間隔注意】Transformer CrossFormer: A Versatile Vision Transformer Based On Cross-Scale Attention

主要結構和創新點

以往 Vision Transformer 結構在將圖片轉換成序列時會切成提前預設好的大小，將統一大小的小塊輸入網路中，但是這種方法往往忽略了圖片中包含的尺度特徵。本文提出了一種多尺度的轉換結構，並提出間隔選取形式的 Attention 模組節約視訊記憶體。

首先作者在對一張圖片進行嵌入 Embedding 操作時，會選取四個不同大小的卷積核以及輸出維度，具體可見上面封面圖。越小的尺度具有更大的維度，之後，將這四個尺度的特徵圖按特徵維度疊加在一起，具體程式碼可供參考：

class

PatchEmbed

（

。

Module

）：

‘’‘

img_size （int）： Image size。 Default： 224。

patch_size （int）： Patch token size。 Default：［4， 8， 16， 32］。

in_chans （int）： Number of input image channels。 Default： 3。

embed_dim （int）： Number of linear projection output channels。 Default： 96。

norm_layer （nn。Module， optional）： Normalization layer。 Default： None

’‘’

def

__init__

（

self

，

img_size

224

，

patch_size

［

，

］，

in_chans

，

embed_dim

，

norm_layer

None

）：

self

。

projs

。

ModuleList

（）

for

，

enumerate

（

patch_size

）：

len

（

patch_size

）

：

dim

embed_dim

#最大一層維度和上一層一樣

else

：

dim

embed_dim

（

）

#可以參照圖片中給的資料

stride

patch_size

［

］

padding

（

patch_size

［

］）

self

。

projs

。

append

（

。

Conv2d

（

in_chans

，

dim

，

kernel_size

，

stride

，

padding

））

def

forward

（

self

，

）：

，

。

shape

［］

for

range

（

len

（

self

。

projs

））：

self

。

projs

［

］（

）

。

flatten

（

）

。

transpose

（

，

）

#根據提前設定的不同大小核卷積

。

append

（

）

# B Ph*Pw C

torch

。

cat

（

，

dim

）

#以特徵為維度合併

return

（a）文章整體模型網路結構；（b）採用的低視訊記憶體間隔選取注意力模組

從文章的整體結構來看，本文不但在原圖上進行了多尺度操作，在之後每一層也會進行兩種尺度的合併計算。

class

PatchMerging

（

。

Module

）：

‘’‘

input_resolution （tuple［int］）： Resolution of input feature。

dim （int）： Number of input channels。

norm_layer （nn。Module， optional）： Normalization layer。 Default： nn。LayerNorm

’‘’

def

__init__

（

self

，

input_resolution

，

dim

，

norm_layer

。

LayerNorm

，

patch_size

［

，

］，

num_input_patch_size

）：

self

。

reductions

。

ModuleList

（）

self

。

patch_size

self

。

norm

norm_layer

（

dim

）

for

，

enumerate

（

patch_size

）：

len

（

patch_size

）

：

out_dim

dim

else

：

out_dim

dim

（

）

stride

padding

（

stride

）

self

。

reductions

。

append

（

。

Conv2d

（

dim

，

out_dim

，

kernel_size

，

stride

，

padding

））

def

forward

（

self

，

）：

#size： B， H*W， C

，

self

。

input_resolution

，

。

shape

self

。

norm

（

）

。

view

（

，

）

。

permute

（

，

）

#為了方便卷積

［］

for

range

（

len

（

self

。

reductions

））：

tmp_x

self

。

reductions

［

］（

）

。

flatten

（

）

。

transpose

（

，

）

#其實和 Embedding 一樣啦

。

append

（

tmp_x

）

torch

。

cat

（

，

dim

）

return

而對於每一個模組，作者共設計了兩種機制，短距離注意力（SDA： Short distance attention）和長距離注意力（LDA： Long distance attention）模組，都將視訊記憶體和計算成本從

$O\left( S^{4} \right)$

縮減為

$O\left( S^{2}G^{2} \right)$

，其中 G 要遠小於 S。

直觀上可以理解為分批次輸入注意力模組，短距離是使用鄰接模組作為一個批次，長距離則是間隔選取，程式碼中寫的很清楚，實際操作也很簡單：

。

view

（

，

）

self

。

group_size

#文中設為 7

self

。

lsda_flag

：

# 0 for SDA

。

reshape

（

，

）

。

permute

（

，

）

#變形啦

else

：

# 1 for LDA

。

reshape

（

，

）

。

permute

（

，

）

#變形啦

。

reshape

（

，

）

#形成分割好的結構

# multi-head self-attention

self

。

attn

（

，

mask

self

。

attn_mask

）

# nW*B， G*G， C

# ungroup embeddings

。

reshape

（

，

）

self

。

lsda_flag

：

。

permute

（

，

）

。

reshape

（

，

）

else

：

。

permute

（

，

）

。

reshape

（

，

）

。

view

（

，

）

在模組中，SDA 和 LDA 輪換使用。

同時，本文網路還使用了動態位置偏差結構，使注意力模組中加入一個動態位置偏差。位置偏差本身不是創新點，在之前文章中已被提到：

d 為一個常量約束；B 為位置偏差

但先前 B 一般為一個固定大小的引數矩陣，輸入圖片大小會被限制，防止超過 B 的大小範圍。作者提出了動態的位置偏差結構（DPB： Dynamic position bias），即依靠多層感知機訓練得到具體位置的引數。

DPB 結構

因為使用了長短距離注意力機制，因此輸入注意力模組的組別大小為 G*G，計算成本為

$O\left( G^{2} \right)$

。

具體程式碼如下：

class

DynamicPosBias

（

。

Module

）：

def

__init__

（

self

，

dim

，

num_heads

）：

self

。

num_heads

self

。

pos_dim

dim

self

。

pos_proj

。

Linear

（

，

self

。

pos_dim

）

self

。

pos1

。

Sequential

（

。

LayerNorm

（

self

。

pos_dim

），

。

ReLU

（

inplace

True

），

。

Linear

（

self

。

pos_dim

，

self

。

pos_dim

））

self

。

pos2

。

Sequential

（

。

LayerNorm

（

self

。

pos_dim

），

。

ReLU

（

inplace

True

），

。

Linear

（

self

。

pos_dim

，

self

。

pos_dim

））

self

。

pos3

。

Sequential

（

。

LayerNorm

（

self

。

pos_dim

），

。

ReLU

（

inplace

True

），

。

Linear

（

self

。

pos_dim

，

self

。

num_heads

））

def

forward

（

self

，

biases

）：

pos

self

。

pos3

（

self

。

pos2

（

self

。

pos1

（

self

。

pos_proj

（

biases

））））

return

pos

# 然後是在 Attention 模組裡的具體使用部分

def

__init__

（

self

，

dim

，

group_size

，

num_heads

）：

self

。

pos

DynamicPosBias

（

self

。

dim

，

self

。

num_heads

）

#DPB模組

# 這部分是創造所有位置相互之間的差值

position_bias_h

torch

。

arange

（

self

。

group_size

［

］，

self

。

group_size

［

］）

position_bias_w

torch

。

arange

（

self

。

group_size

［

］，

self

。

group_size

［

］）

biases

torch

。

stack

（

torch

。

meshgrid

（［

position_bias_h

，

position_bias_w

］））

#size： 2， 2G-1， 2G-1

biases

。

flatten

（

）

。

transpose

（

，

）

。

float

（）

#size：（2G-1）*（2G-1）， 2

self

。

biases

# 這部分是創造對應關係的索引值

coords_h

torch

。

arange

（

self

。

group_size

［

］）

coords_w

torch

。

arange

（

self

。

group_size

［

］）

coords

torch

。

stack

（

torch

。

meshgrid

（［

coords_h

，

coords_w

］））

#size： 2， G， G

coords_flatten

torch

。

flatten

（

coords

，

）

#size： 2， G*G

relative_coords

coords_flatten

［：，

：，

None

］

coords_flatten

［：，

None

，

：］

#size： 2， G*G， G*G 即以行或列為單位的 delta

relative_coords

。

permute

（

，

）

。

contiguous

（）

#size： G*G， G*G， 2

relative_coords

［：，

：，

］

self

。

group_size

［

］

#將負值取非負，為了索引

relative_coords

［：，

：，

］

self

。

group_size

［

］

#同上

relative_coords

［：，

：，

］

self

。

group_size

［

］

relative_position_index

relative_coords

。

sum

（

）

#和上面一起，即行索引*列數+列數，計算最終對應索引值

self

。

relative_position_index

def

forward

（

self

，

mask

None

）：

pos

self

。

pos

（

self

。

biases

）

#size：（2G-1）*（2G-1）， heads

relative_position_bias

pos

［

self

。

relative_position_index

。

view

（

）］

。

view

（

self

。

group_size

［

］

self

。

group_size

［

］，

self

。

group_size

［

］

self

。

group_size

［

］，

）

#size： G*G， G*G， heads

relative_position_bias

。

permute

（

，

）

。

contiguous

（）

# heads， G*G， G*G

attn

relative_position_bias

。

unsqueeze

（

）

在測試階段，引數不需要回傳，因此當 G 不變時，矩陣 B 也不會改變，在初始計算一次就夠了。

四個不同大小的網路具體內部引數

實驗結果

在 ImageNet 上的實驗結果，網路使用了相似的引數量獲得了更高的精度

COCO 資料集上檢測和分割任務的實驗結果

論文資訊

Transformer CrossFormer： A Versatile Vision Transformer Based On Cross-Scale Attention

https：//

arxiv。org/pdf/2108。0015

4。pdf

【多尺度 + 間隔注意】Transformer CrossFormer: A Versatile Vision Transformer Based On Cross-Scale Attention

如果想寫一流的文學作品，需要做哪些準備？

Unicode 編碼及 UTF-32, UTF-16 和 UTF-8

隨便看看

滷牛肉的調料可以滷羊肉嗎？

178的身高編織毛衣要多少針？

化療後可以吃白鴿補充營養嗎？

8公分反光燈槽木工怎麼施工？

【多尺度 + 間隔注意】Transformer CrossFormer: A Versatile Vision Transformer Based On Cross-Scale Attention

如果想寫一流的文學作品，需要做哪些準備？

Unicode 編碼及 UTF-32, UTF-16 和 UTF-8

猜你喜歡

pos機出票和電簽有什麼區別？

舉例說明：寫出專業和優秀的引言（SCI論文）

不可芳物是啥意思？

隨便看看

滷牛肉的調料可以滷羊肉嗎？

178的身高編織毛衣要多少針？

化療後可以吃白鴿補充營養嗎？

8公分反光燈槽木工怎麼施工？