轉載自:HyperAI超神經

作 者:神經小兮

內容提要:

只需幾個不同視角的影片,就能把整個人體形象 360° 無死角地構建起來,不得不說,AI 的腦補能力越來越強大。這樣的工具,今後將可能為影視業、體育節目呈現等帶來新的突破。

關鍵詞:

人體新檢視合成 動態 3D

未來,我們的看電影、球賽以及演唱會等的方式,可能被「自由視角影片」(free-viewpoint video)徹底改變。

你可能不知道什麼是「自由視角影片」,但你應該體驗過 VR、AR 影片,或者玩過 3D 遊戲,這些都屬於自由視角影片的範疇,其特點便是:

可以從任意角度觀看,提供完全沉浸式的觀感。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

觀眾可以切換任意視角,不再侷限於導播鏡頭

這種影片到底怎麼才能拍出來?一般來說,傳統的方法是,需要好多臺攝像機從不同角度一起拍,然後把所有角度的影片合成在一起。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

比如這樣,在各個角度佈滿攝像頭獲取多個角度的畫面,最終合成為自由視角影片

但是這種方式依賴於多個攝像機,不僅成本昂貴,還受限於拍攝場地的環境。

還有一種方式,可以擺脫這些限制,

只需輸入少量角度拍攝的人體鏡頭,便可合成 360° 的人體 3D 新檢視。

這便是來自浙江大學的研究人員,最近發表的最新成果。

12 月底,該團隊在 arxiv 上發表了新論文

《Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans》

,提出一種新的人體表示 Neural Body,用稀疏多視角影片進行動態 3D 人體新檢視的合成。經過實驗驗證,該方法優於此前的其它方法。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

Neural Body:用於動態人像新檢視合成的結構化潛碼隱式神經表徵

論文地址:

https://

arxiv。org/pdf/2012。1583

8。pdf

值得一提的是,該論文背後的七位作者,均來就讀或畢業於浙江大學,並來自浙江大學計算機輔助設計與圖形學國家重點實驗室。

其中,Hujun Bao(鮑虎軍)、Xiaowei Zhou(周曉巍)均為該實驗室教授,Yinghao Xu(徐英豪) 與 Qianqian Wang 本科畢業後,分別於港中文與康奈爾大學攻讀博士學位。

素材不多,也能生成優質 3D 檢視

目前,無論是影視節目,或是體育賽事,我們所看到的都是來自單個攝像頭所拍攝的畫面。如果能夠得到「自由視角影片」,想看哪裡看哪裡,那一定會是上帝視角一般的體驗。

事實上,AI 近幾年也在研究這個問題,並誕生了諸如 NeRF、Neural Volumes (簡稱 NV)等檢視合成方案。

不過,目前已有的研究表明,在密集的輸入檢視條件下,學習三維場景的隱式神經表示可以獲得很好的檢視合成質量。然而,如果檢視是高度稀疏的,表示學習將是不適定的。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

NeRF(左一)NV (中)與新方法效果對比

前兩者均出現失真、變形等問題

因此,為了解決這個不適定問題,來自浙大、港中文和康奈爾大學的研究團隊,提出在影片幀上整合觀察結果的關鍵思想。

團隊的最新研究成果中,提出了 Neural Body。這是一種新的人體表示,它假設在不同幀上學習到的神經表示共享,錨定在一個可變形網格上的相同的潛碼集,以便跨幀的觀察可以自然地整合。可變形網格也為網路提供了幾何指導,以更有效地學習 3D 表示。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

Neural Body 的基本思想

研究人員在一個新收集的多檢視資料集上進行了實驗,結果表明,該方法在檢視合成質量方面,與之前的方法相具有很大的優勢。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

從 4 個角度的影片影象中,得到自由視角影片結果

這一方法大大降低了自由視角影片合成的成本,至少,省下了攝像機的成本,因此也具有更廣泛的適用性。

得到 Neural Body,分五步走

一、結構化的潛碼

為了控制潛碼的空間位置與人體姿態,團隊將這些潛碼錨定到一個可變形人體模型(SMPL)。

SMPL 是一個基於面板頂點的模型,它被定義為形狀引數、姿勢引數和相對於 SMPL 座標系的剛體變換函式。

潛碼與神經網路,一起用於表示人的區域性幾何和外觀。將這些程式碼錨定在一個可變形的模型上,能夠表示一個動態的人。透過動態人的表示,團隊建立了一個潛在變數模型,將同一組潛碼對映到不同幀的密度和顏色的隱式域中,自然地整合了觀察結果。

二、程式碼擴散

由於結構化的潛碼在三維空間中比較稀疏,直接對潛碼進行插值會導致大多數三維點的向量為零。為了解決這個問題,團隊將表面上定義的潛碼擴散到附近的三維空間。

由於程式碼的擴散不應該受到人在世界座標系中的位置和方向的影響,他們將程式碼的位置轉換為 SMPL 座標系。

程式碼擴散還將結構化潛碼的全域性和區域性資訊集合起來,有助於學習隱式域。

三、密度和顏色迴歸

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

圖(b)概述了三維空間中任意點的密度和顏色的迴歸

研究團隊發現,時間變化因素會影響人體的外觀,如二次照明和自陰影。受自動解碼器的啟發,團隊為每個影片幀分配了一個潛在的嵌入框架 t,以編碼時間變化的因素。

四、體繪製

在給定的視點下,團隊利用經典的體繪製(volume rendering,也稱立體渲染)技術,將 Neural Body 渲染成二維影象。

然後,基於 SMPL 模型估計場景邊界,接著,Neural Body 會預測這些點的體積密度和顏色。

在體繪製的基礎上,透過對渲染影象和觀測影象的比較,對模型進行了最佳化。

五、訓練

與基於幀的重建方法相比,該方法利用影片中的所有影象來最佳化模型,並擁有更多的資訊來恢復 3D 結構。

此外,團隊採用 Adam 最佳化器來訓練 Neural Body。訓練在四個 2080 Ti GPU 上進行。對於一個共 300 幀的四檢視影片,訓練通常需要大約 14 小時。

經過以上五個步驟,Neural Body 得以實現基於少量檢視的自由視角影片合成,而且與其他方法對比,效果明顯優於前者。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

三種方法輸出結果的 PSNR(峰值信噪比)對比

數值越大,表明輸出影象質量越好

注:「OURS*」 和「OURS」分別代表只在一幀影片和在四幀影片訓練的結果)

AI 的腦補技術,讓 3D 效果的實現越來越簡便,而它的應用也不止是影視業與體育賽事直播領域,對於遊戲開發者、健身指導、3D 廣告提供商等來說,都是能夠大大提升工作效率與效果的工具。

浙大團隊發表 3D 檢視合成新方法,效果遠超 NeRF、NV

未來的影院、賽場,可能人手一部 iPad,想看哪裡點哪裡!

專案主頁:

https://

zju3dv。github。io/neural

body