0。總結

本文提供了一個large-scale帶有完善標註的服裝資料集DeepFashion,包含超過50類800,000張圖片,標註有大量的attributes,clothing landmarks,Consumer-to-shop pairs(同一衣服在不同場景的圖片)。資料庫提供可研究的task有:

類別與屬性預測(Category and Attribute Prediction)

對 50 個fine-gained 類別和 1000 個屬性進行分類。 共 63720 張標註圖片。對於類別分類,採用標準的 top-k 分類精度 作為評價準則; 1-of-K classification problem。 對於屬性預測,採用 top-k recall rate 作為評價準則,透過對 1000 個分類 scores 進行排名,檢測在 top-k 中所匹配的屬性數量; multi-label tagging problem。

商家服裝檢索(In-Shop Clothes Retrieval)

該任務是判斷兩張商家影象是否屬於同一款。 共 11735 款服裝,54642 張圖片。 採用 top-k 檢索精度作為評價準則,如果在 top-k 檢索結果中能夠精確找到服裝款,則認為是檢索正確。

買家到商家服裝檢索(Consumer-to-Shop Clothes Retrieval)

該任務是匹配買家所拍照片與商家的服裝。 251361 張買家與商家對。

為了證明此資料庫的優勢,文中提出一個新的deep model, FashionNet,透過聯合預測attributes和landmarks學習衣物特徵。

1。難點

Clothes Recognition的難點大概可以分為三類:

Style/texture Variation。

Deformation+occlusion。

Different Scenarios(背景不純淨)

故作者認為需要一個unified dataset, 用大量的attribute幫助分割feature space(分解style的抽象問題),而landmark可以幫助Recognition。

2。方法

我們先看看clothing recognition and retrieval 的方法:作者使用的是基於VGG-16的multi-task結構,分三步得到landmark和attributes,可以從下圖看到從conv4後有三個分支: 全域性特徵分支(橙色),區域性特徵分支(綠色),姿態分支(藍色)。

全域性特徵分支—— 整個服裝商品的全域性特徵;

區域性特徵分支—— 由估計的服裝關鍵點池化(pooling) 得到服裝的區域性特徵;

姿態分支—— 預測關鍵點位置及其可見性(i。e。, landmarks存在的機率)。

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

global branch 與 local branch 在全連線層融合(feature拼接),聯合做分類和attribute預測。

2。1 前向傳播(Forward Pass)

主要包括三個階段:

Stage 1 - 服裝影象輸入網路,在pose branch傳遞,以預測關鍵點位置landmark locations和可見性visibity;

Stage 2 - 如下圖所示得到將有visibility的地方從conv4_featuremaps中扣出來堆疊在一起,再各自乘以visibility經過maxpooling得到pool5_local的值。這樣的操作使區域性特徵對服裝形變和缺失具有不變性;堆疊的好處是增加landmark之間的關聯性。

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

Stage 3 - 得到了pool5_local以後,fix conv4及以前的層訓練對category和attribute的分類/預測。 fc7_fusion層是對 對 fc6_global 層全域性特徵和 fc6_local池化後的關鍵點區域性特徵的連線。

2。2 反向傳播(Backward Pass)

FashionNet主要含有四種loss:

a

regression loss

for landmark localization,(Stage 1)

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

2。 a

softmax loss

for the predictions of landmark visibility and clothes categories (Stage 1)

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

3。 a

cross-entropy loss

for attribute predictions(Stage 3),

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

4。 a

triplet loss

for metric learning of the pairwise clothes images(Stage 3)。

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

利用三元組sample: x_j, 其對應的cross-domain正例x_j+和負例x_j-可以幫助特徵空間拉開合適的距離。

3。實驗

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

對比方法選用了Where to buy it(WTBI) 和Dual Attribute-aware Ranking Network (DARN)[後續筆記會提到]。也與方法本身做了控制變數測試: +100和+500指使用attribute數量, joints和poselet替換掉了stage 1中的landmark預測。

可以觀察到本方法在

分類上有極大提升

,無論是attribute數量還是stage1 landmark迴歸。->本文也可作為attribute prediction必要性的佐證。

在attribute任務上FashionNet與poselets方式準確率差距不大,但遠超其他setting。但查全率Recall上我們可以看出FashionNet部分不足:e。g。,直覺上我們會把deep-V和V-neck聯絡到一起,但從performance上看網路沒有抓到二者關聯性:

在attribute處理上可能仍需要引入embedding

,尤其是我們需要上千attributes的時候one-hot的label presentation比較乏力。此外一些Style例如Distressed(做舊,I guess視覺特徵是有破洞)以及heart(衣服中間有心形圖案)都沒被predict到,大概是衣服中央的圖案會被landmark周圍細節資訊淹沒掉。

故可能在feature fusion可以做attention或window

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

DeepFashion資料庫attribute的examples

可以看到retrieval的效果還是很不錯的,這部分實驗讀者有興趣可以詳細看。

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations