作者 | 塗逸

編輯 | 唐裡

基於美學的影象裁剪(aesthetic image cropping)的目標是在一張圖片中找到具有最高美學評價的子圖。

在本篇論文中,我們提出了一個新穎的影象裁剪模型來解決這個問題。對於每張圖片,我們使用一個全卷積網路來生成一個同時對照片構圖(photo composition)和物體顯著性(object saliency)敏感的美學評分圖(aesthetic score map),並讓其所有候選子圖都使用其進行美學評分。

該美學評分圖可以用來定點陣圖像中具有較高美學價值的區域,並幫助分析模型所學習到的構圖規則。因此,我們的模型可以揭示美學評價的內在機理,具有良好的可解釋性。我們在多個數據集上證明了本模型的優越效能,並展示了它的廣泛應用場景。

本文已被AAAI20接收(

https://

arxiv。org/abs/1911。1049

2

)。

模型概述

為了找到最佳子圖,影象裁剪模型一般會先生成大量的候選子圖,然後對每張子圖逐個進行美學評分,最終確定評分最高的子圖。因此,一般來說,影象裁剪模型通常由候選子圖生成模型和美學評分模型兩個部分組成。早期的研究透過利用一些攝影知識來實現美學評分,比如使用人類總結的構圖規則,像是三分法和中心法則。它們透過定義並抽取相應的特徵來衡量子圖的構圖優劣。

ASM-Net:可解釋的美學評分及影象剪裁

隨著深度學習技術的發展,很多人開始以資料驅動的方式研究這個問題,收集並標註了許多美學資料集來學習人類的審美偏好。他們直接透過深度學習模型來學習並預測美學評分,並取得了不錯的進展,但這類方法往往缺乏對美學評分機理的揭示與闡述。

我們認為,一個好的影象裁剪需要兩步:首先是選定圖片中最重要的內容,然後是把它放在一個構圖最優的位置。所以本問題所需的知識可以分為兩部分,即對內容的偏好(content preference)和對構圖的偏好(composition preference)。因此,一個好的影象裁剪模型應該能夠在從標註資料中同時學習這兩種知識,並且能夠在推薦最佳子圖時利用它們。

ASM-Net:可解釋的美學評分及影象剪裁

為此,我們設計出了一個新穎的影象裁剪模型,

ASM-Net

。給定一張圖片,ASM-Net首先會生成一張美學評分圖(aesthetic score map)。這張圖能夠透過池化的方式來對任意子圖給出一個對應美學評分。在訓練時時,我們將標註過的子圖的評分預測排序作為監督資訊,用排序損失(ranking loss)訓練模型;在測試時,我們對所有候選子圖分別計算美學評分,將最高分子圖作為最終剪裁結果。此外,我們還利用了視覺顯著性(visual saliency)對模型進行了約束,使得它會更關注顯著區域的構圖效果。

Composition-Aware Aesthetic Score Map

受到Class Activation Map 模型的啟發,我們首先使用全卷積網路對每張圖片生成一個等大小的美學評分圖。我們期望評分圖上每一處的分值能夠反映圖片對應區域的美學重要性,進而能夠把子圖的平均分當作其美學評分。然而我們發現,因為美學評分問題本身的複雜性,這種設計並不能滿足我們的需要。為此,我們需要讓美學評分圖具有更多的變化,比如對構圖敏感。

受攝影構圖規則的啟發,我們認識到一個被拍攝物體在圖片內的相對位置對其圖片的美學評分很重要。比如,在中心法則中,我們總是將被拍攝物體放在中心位置,以實現一種對稱和平衡的美感。因此,被拍攝物體位於一個子圖中心時的美學評分應該大於它偏離中心時的評分。因此,我們認識到圖片中每個區域在美學評分圖上的審美分數應該隨著其在不同子圖中的相對位置發生變化。

ASM-Net:可解釋的美學評分及影象剪裁

為了實現這個目標,我們首先預設一些構圖模板(composition pattern)。每個構圖模板都能夠將一個子圖劃分若干不重疊的相對位置,稱之為構圖分割槽(composition partition)。

給定一個構圖模板,圖片中每個部分的美學評分就要由它在每個子圖中的相對位置,即構圖分割槽決定。假設我們有九個構圖分割槽,那麼圖片中每個部分的美學評分就一共有九種取值,取決於它在不同子圖中所處的構圖分割槽是否合適。這樣,圖片的每個區域不再由單個美學評分而是對構圖分割槽敏感的一組評分表示。因此,我們的模型在學習標註資料的時候,不僅能夠學習到圖片中每個區域的總體審美偏好,還能夠學習到它們出現在不同子圖、處在不同構圖分割槽時的審美偏好。

Saliency-Aware Aesthetic Score Map

視覺顯著性是一種使物體吸引更多人類注意力的感知特性。一般來說,一張圖片中具有較高視覺顯著性的區域與圖片中最重要的內容有很大的關聯。因此,在影象裁剪問題中,我們可以利用視覺顯著性來保護最要的重要內容不被剪裁掉。一些以前的方法已經在這個方向上做過一些嘗試,它們的假設是:視覺顯著性最高的區域或者顯著物體(salient object),就是對應著圖片中最重要的內容。在這個假設的前提下,它們生成的候選子圖都一定會覆蓋顯著物體,這樣最終預測的最佳子圖就一定不會裁減掉重要內容。

然而,我們認為這樣的假設有幾個侷限性。首先,許多現實世界的影象,比如一張聚會照片,可能有多個顯著的區域,我們不能只關注最顯著的一個。其次,一些照片,比如風景照,可能沒有任何顯著的物體,這可能導致上述方法失效。第三,顯著的物體也可能是一個干擾物體,應該排除而不是包含在最優子圖中。因此,在我們的方法中,我們採用了一個更合理的假設:圖片中的顯著區域應該對其構圖分割槽更敏感的。這是因為顯著的區域會吸引更多的注意力,所以它們的構圖分割槽更加影響人們對子圖的美學評價。為此,為了實現這一假設,我們設計了一種基於顯著性損失函式。它透過讓我們的模型對顯著區域對美學評分更加敏感,使得模型在學習過程中更加關注顯著物體應該放在子圖的哪個構圖分割槽。

實驗與視覺化結果

我們的模型在三個基準資料集上做了大量的實驗,並使用了多種指標對結果進行了比較。實驗我們模型的效能優於最先進的方法,並具有良好的通用性。除了定量結果,我們也提供了大量的視覺化結果。

ASM-Net:可解釋的美學評分及影象剪裁

首先我們對比來自訓練集中同一張圖片的三個不同子圖的美學評分。黑色數字表示其的標註評分,紅色數字表明瞭其預測評分。可以看到,子圖的預測評分的相對大小關係與標註評分是一致的,這表明了模型透過使用ranking loss學習到了訓練資料集中的美學評分偏好。進一步,預測評分下的熱力圖表明瞭子圖中每個區域的預測評分,而預測評分則是整個熱力圖的均值。前兩個子圖中有重疊的區域,然而其預測評分卻不一樣,這是因為重疊區域在兩個子圖中的構圖分割槽不一樣。第三個圖的預測評分很低,這是因為它沒有捕捉到整個圖片中最顯著的物體,訊號燈。上述結果表明了我們的模型確實是同時考慮了構圖分割槽和物體顯著性的。

ASM-Net:可解釋的美學評分及影象剪裁

其次,我們對三類圖片展示最優裁剪結果: 有一個顯著的物體、有多個顯著物體和沒有顯著物體。對於每一類,我們展示兩張圖片在五個長寬比(9:16、3:4、1:1、4:3和16:9)下的最優剪裁結果。在第三類沒有顯著物體的圖片中,之前的基於顯著性的方法可能會失效,因為它們依賴於顯著物體的檢測結果;然而我們的模型仍然可以達到令人滿意的結果。這表明了我們模型的泛用性。

最後,我們還發現我們的模型可以用於對任意形狀的子圖進行美學評分。這裡,我們嘗試將矩形的影象裁剪任務擴充套件為圓形的裁剪,因為它有一些實際應用場景,比如生成圓形的使用者頭像。在上圖中,圓形的剪裁結果也表明了我們模型的拓展性,也證明我們的模型學習到了可以在不同形狀的子圖之間通用的美學評價知識。更多結果可見

http://

bcmi。sjtu。edu。cn/home/n

iuli/paper/AIC_Supplementary。pdf

總結

在本文中,我們提出了一個全新的影象裁剪模型。對於每一張待剪裁圖片,我們的模型可以生成一個對構圖分割槽和視覺顯著性都很敏感的美學評分圖。我們的模型可以學會將重要的的圖片內容放在最恰當的子圖位置,以剪裁得到美學評分最高的子圖。我們的模型在大量實驗上證明了其擁有最好的效能,並在實際應用中表現出良好的通用性和拓展性。我們的研究方法也對揭開美學評價的內在機理做出了貢獻。