Learning a Discriminative Feature Network for Semantic Segmentation —論文筆記

原文地址:

https://

arxiv。org/abs/1804。0933

7

發表日期:2018 CVPR

解讀:

本文的主要創新點是提出了一個判別特徵網路,使得分割效果更好。簡單來說,文章解決的還是語義分割中兩個一直存在的問題,空間資訊和語義資訊的兼顧問題,文中作者用的是類內不一致和類間無差別的兼顧,個人認為兩種提法本質上是一樣的。

作者解決這個問題的辦法是在上取樣重建的過程中使用了兩個分支,一個分支就是傳統的上取樣重建,其中使用了全域性平均池化和通道注意力機制。另一個分支是邊界重建,這個分支的ground truth是原始label經過邊緣提取後的邊界資訊,透過這個分支的訓練學習,網路能夠學到更多有關邊界的特徵,能夠更好的辨別不同的類。

1. 待解決的兩個問題

類內不一致

標籤相同但外觀不同的影象塊

影象分割之DFN 論文解讀

類間無差別

兩個相鄰的影象塊,標籤不同但外觀相似

影象分割之DFN 論文解讀

2. 解決方法

使用判別特徵網路,其中包含兩個子網路:

Smooth Network。包含通道注意力模組和全域性平均池化,選擇更有判別力的特徵,從而解決類內不一致的問題。

Boder Network。本文認為,過多的將全域性語境整合進分類過程很容易導致圖d中的問題,所以,本文將邊界損失整合進Boder Network,透過語義邊界來知道特徵的學習,增大類間差別。

3. 網路結構

影象分割之DFN 論文解讀

關鍵部分

下面兩個技術屬於文中提到的Smooth Network,主要是提取更有判別能力的特徵,解決類內不一致的問題。

全域性平均池化

:為網路引入最強的一致性約束指導。(?)

通道注意力模組

(CAB)

影象分割之DFN 論文解讀

傳統的FCN卷積,在計算每個畫素的score map時,是假定不同通道的權重是平等的,上取樣時直接把低級別和高級別的特徵進行融合。而CBA模組先利用高階和低級別的特徵藉助全域性池化及1*1卷積算出attention vector,再用該權重向量乘low stage 的feature map,使其的重要性產生區分,再將其和Hige stage的feature map融合。

思考:直觀上來講,這個attention vector是經過全域性池化(每個通道的重要性),然後是兩次1*1的卷積,這時候通道的重要性是不是已經不在了?還是說這種操作是給了網路學習關於通道權重的一個容器,之後它會自動學習到相關的引數? 因為從文中的消除實驗來看,這部分CAB的確是很有用的,這樣解釋貌似是比較合理的。

影象分割之DFN 論文解讀

Boder Network

這部分透過語義邊界來提高類別間的區別,過程其實很簡單,就是加了另一個重建的分支,只不過該分支的ground truth是邊界,是對原始label做邊緣提取得到的,作者認為,加這樣一個約束能讓網路學到更多關於邊界的特徵,也就能夠更好的不同的類進行區分。

影象分割之DFN 論文解讀

Reference

https://zhuanlan.zhihu.com/p/36540674