[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations
0。總結
本文提供了一個large-scale帶有完善標註的服裝資料集DeepFashion,包含超過50類800,000張圖片,標註有大量的attributes,clothing landmarks,Consumer-to-shop pairs(同一衣服在不同場景的圖片)。資料庫提供可研究的task有:
類別與屬性預測(Category and Attribute Prediction)
對 50 個fine-gained 類別和 1000 個屬性進行分類。 共 63720 張標註圖片。對於類別分類,採用標準的 top-k 分類精度 作為評價準則; 1-of-K classification problem。 對於屬性預測,採用 top-k recall rate 作為評價準則,透過對 1000 個分類 scores 進行排名,檢測在 top-k 中所匹配的屬性數量; multi-label tagging problem。
商家服裝檢索(In-Shop Clothes Retrieval)
該任務是判斷兩張商家影象是否屬於同一款。 共 11735 款服裝,54642 張圖片。 採用 top-k 檢索精度作為評價準則,如果在 top-k 檢索結果中能夠精確找到服裝款,則認為是檢索正確。
買家到商家服裝檢索(Consumer-to-Shop Clothes Retrieval)
該任務是匹配買家所拍照片與商家的服裝。 251361 張買家與商家對。
為了證明此資料庫的優勢,文中提出一個新的deep model, FashionNet,透過聯合預測attributes和landmarks學習衣物特徵。
1。難點
Clothes Recognition的難點大概可以分為三類:
Style/texture Variation。
Deformation+occlusion。
Different Scenarios(背景不純淨)
故作者認為需要一個unified dataset, 用大量的attribute幫助分割feature space(分解style的抽象問題),而landmark可以幫助Recognition。
2。方法
我們先看看clothing recognition and retrieval 的方法:作者使用的是基於VGG-16的multi-task結構,分三步得到landmark和attributes,可以從下圖看到從conv4後有三個分支: 全域性特徵分支(橙色),區域性特徵分支(綠色),姿態分支(藍色)。
全域性特徵分支—— 整個服裝商品的全域性特徵;
區域性特徵分支—— 由估計的服裝關鍵點池化(pooling) 得到服裝的區域性特徵;
姿態分支—— 預測關鍵點位置及其可見性(i。e。, landmarks存在的機率)。
global branch 與 local branch 在全連線層融合(feature拼接),聯合做分類和attribute預測。
2。1 前向傳播(Forward Pass)
主要包括三個階段:
Stage 1 - 服裝影象輸入網路,在pose branch傳遞,以預測關鍵點位置landmark locations和可見性visibity;
Stage 2 - 如下圖所示得到將有visibility的地方從conv4_featuremaps中扣出來堆疊在一起,再各自乘以visibility經過maxpooling得到pool5_local的值。這樣的操作使區域性特徵對服裝形變和缺失具有不變性;堆疊的好處是增加landmark之間的關聯性。
Stage 3 - 得到了pool5_local以後,fix conv4及以前的層訓練對category和attribute的分類/預測。 fc7_fusion層是對 對 fc6_global 層全域性特徵和 fc6_local池化後的關鍵點區域性特徵的連線。
2。2 反向傳播(Backward Pass)
FashionNet主要含有四種loss:
a
regression loss
for landmark localization,(Stage 1)
2。 a
softmax loss
for the predictions of landmark visibility and clothes categories (Stage 1)
3。 a
cross-entropy loss
for attribute predictions(Stage 3),
4。 a
triplet loss
for metric learning of the pairwise clothes images(Stage 3)。
利用三元組sample: x_j, 其對應的cross-domain正例x_j+和負例x_j-可以幫助特徵空間拉開合適的距離。
3。實驗
對比方法選用了Where to buy it(WTBI) 和Dual Attribute-aware Ranking Network (DARN)[後續筆記會提到]。也與方法本身做了控制變數測試: +100和+500指使用attribute數量, joints和poselet替換掉了stage 1中的landmark預測。
可以觀察到本方法在
分類上有極大提升
,無論是attribute數量還是stage1 landmark迴歸。->本文也可作為attribute prediction必要性的佐證。
在attribute任務上FashionNet與poselets方式準確率差距不大,但遠超其他setting。但查全率Recall上我們可以看出FashionNet部分不足:e。g。,直覺上我們會把deep-V和V-neck聯絡到一起,但從performance上看網路沒有抓到二者關聯性:
在attribute處理上可能仍需要引入embedding
,尤其是我們需要上千attributes的時候one-hot的label presentation比較乏力。此外一些Style例如Distressed(做舊,I guess視覺特徵是有破洞)以及heart(衣服中間有心形圖案)都沒被predict到,大概是衣服中央的圖案會被landmark周圍細節資訊淹沒掉。
故可能在feature fusion可以做attention或window
DeepFashion資料庫attribute的examples
可以看到retrieval的效果還是很不錯的,這部分實驗讀者有興趣可以詳細看。