[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

0。總結

本文提供了一個large-scale帶有完善標註的服裝資料集DeepFashion，包含超過50類800，000張圖片，標註有大量的attributes，clothing landmarks，Consumer-to-shop pairs（同一衣服在不同場景的圖片）。資料庫提供可研究的task有：

類別與屬性預測(Category and Attribute Prediction)

對 50 個fine-gained 類別和 1000 個屬性進行分類。共 63720 張標註圖片。對於類別分類，採用標準的 top-k 分類精度作為評價準則； 1-of-K classification problem。對於屬性預測，採用 top-k recall rate 作為評價準則，透過對 1000 個分類 scores 進行排名，檢測在 top-k 中所匹配的屬性數量； multi-label tagging problem。

商家服裝檢索(In-Shop Clothes Retrieval)

該任務是判斷兩張商家影象是否屬於同一款。共 11735 款服裝，54642 張圖片。採用 top-k 檢索精度作為評價準則，如果在 top-k 檢索結果中能夠精確找到服裝款，則認為是檢索正確。

買家到商家服裝檢索(Consumer-to-Shop Clothes Retrieval)

該任務是匹配買家所拍照片與商家的服裝。 251361 張買家與商家對。

為了證明此資料庫的優勢，文中提出一個新的deep model， FashionNet，透過聯合預測attributes和landmarks學習衣物特徵。

1。難點

Clothes Recognition的難點大概可以分為三類：

Style/texture Variation。

Deformation＋occlusion。

Different Scenarios（背景不純淨）

故作者認為需要一個unified dataset，用大量的attribute幫助分割feature space（分解style的抽象問題），而landmark可以幫助Recognition。

2。方法

我們先看看clothing recognition and retrieval 的方法：作者使用的是基於VGG-16的multi-task結構，分三步得到landmark和attributes，可以從下圖看到從conv4後有三個分支：全域性特徵分支（橙色），區域性特徵分支（綠色），姿態分支（藍色）。

全域性特徵分支—— 整個服裝商品的全域性特徵；

區域性特徵分支—— 由估計的服裝關鍵點池化（pooling）得到服裝的區域性特徵；

姿態分支—— 預測關鍵點位置及其可見性（i。e。， landmarks存在的機率）。

global branch 與 local branch 在全連線層融合（feature拼接），聯合做分類和attribute預測。

2。1 前向傳播（Forward Pass）

主要包括三個階段：

Stage 1 - 服裝影象輸入網路，在pose branch傳遞，以預測關鍵點位置landmark locations和可見性visibity；

Stage 2 - 如下圖所示得到將有visibility的地方從conv4_featuremaps中扣出來堆疊在一起，再各自乘以visibility經過maxpooling得到pool5_local的值。這樣的操作使區域性特徵對服裝形變和缺失具有不變性；堆疊的好處是增加landmark之間的關聯性。

Stage 3 - 得到了pool5_local以後，fix conv4及以前的層訓練對category和attribute的分類/預測。 fc7_fusion層是對對 fc6_global 層全域性特徵和 fc6_local池化後的關鍵點區域性特徵的連線。

2。2 反向傳播（Backward Pass）

FashionNet主要含有四種loss：

regression loss

for landmark localization，（Stage 1）

2。 a

softmax loss

for the predictions of landmark visibility and clothes categories （Stage 1）

3。 a

cross-entropy loss

for attribute predictions（Stage 3），

4。 a

triplet loss

for metric learning of the pairwise clothes images（Stage 3）。

利用三元組sample： x_j，其對應的cross-domain正例x_j+和負例x_j-可以幫助特徵空間拉開合適的距離。

3。實驗

對比方法選用了Where to buy it（WTBI）和Dual Attribute-aware Ranking Network （DARN）［後續筆記會提到］。也與方法本身做了控制變數測試： +100和+500指使用attribute數量， joints和poselet替換掉了stage 1中的landmark預測。

可以觀察到本方法在

分類上有極大提升

，無論是attribute數量還是stage1 landmark迴歸。->本文也可作為attribute prediction必要性的佐證。

在attribute任務上FashionNet與poselets方式準確率差距不大，但遠超其他setting。但查全率Recall上我們可以看出FashionNet部分不足：e。g。，直覺上我們會把deep-V和V-neck聯絡到一起，但從performance上看網路沒有抓到二者關聯性：

在attribute處理上可能仍需要引入embedding

，尤其是我們需要上千attributes的時候one-hot的label presentation比較乏力。此外一些Style例如Distressed（做舊，I guess視覺特徵是有破洞）以及heart（衣服中間有心形圖案）都沒被predict到，大概是衣服中央的圖案會被landmark周圍細節資訊淹沒掉。

故可能在feature fusion可以做attention或window

DeepFashion資料庫attribute的examples

可以看到retrieval的效果還是很不錯的，這部分實驗讀者有興趣可以詳細看。

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

腎精虧虛會不會影響記憶衰退

您好：我和妻子視力正常，但孩子的眼睛左眼視力0.3，右眼正常，三歲時在左眼下瞼開過一小刀，問左眼原因

隨便看看

君樂寶至臻a2大罐和小罐的區別？

野兔出生至三斤需要多少天？

三國志九級地多少兵力可以佔領？

蒲菜三鮮水餃的做法？

[CVPR 2016]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

腎精虧虛會不會影響記憶衰退

您好： 我和妻子視力正常，但孩子的眼睛左眼視力0.3，右眼正常，三歲時在左眼下瞼開過一小刀，問左眼原因

猜你喜歡

misicamii衣服怎麼樣？

找兔寶寶定做整體衣櫃好不好？有做過的嗎？

如何做使用者異常行為分析？

隨便看看

君樂寶至臻a2大罐和小罐的區別？

野兔出生至三斤需要多少天？

三國志九級地多少兵力可以佔領？

蒲菜三鮮水餃的做法？

您好：我和妻子視力正常，但孩子的眼睛左眼視力0.3，右眼正常，三歲時在左眼下瞼開過一小刀，問左眼原因