在7月29日的Unity技術開放日(上海站)活動裡,Unity向開發者展示了最新的數字人Demo,分享了基於Unity的完整製作流程。由上海科技大學MARS實驗室打造的穹頂光場掃描技術也在活動中首次亮相。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

(來源:Unity技術開放日)

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

(來源:Unity技術開放日)

從影視特效到遊戲再到現在的MetaVerse元宇宙概念,人們對數字人技術的追求從未停止過。隨著計算機圖形學、計算影像學以及一系列專業製作工具的不斷髮展,數字人也從電影特效裡對數字替身的高精度離線渲染走向實時。

在這個系列裡,我們將從掃描、製作、驅動、渲染等多個方向出發,介紹數字人技術的演進。接下來,作為這個系列的第一篇,我們將從“掃描”開始帶大家進入數字人的世界……

P。S。 臉作為人最重要的部位,我們所有的介紹都預設以臉為物件來展開。

“傳統”方案

在CGI(Computer-generated imagery)還沒有那麼發達、還不需要對角色進行數字化處理的時候,藝術家們如何完成對演員的建模的?答案是活體鑄模(Life Casting)技術——這絕對是你能想到最傳統的“掃描”方案了。

活體鑄模是透過使用成型和鑄造技術,創造一個活體的三維副本的過程。鑄模通常只限於身體的一個部分,但全身的鑄模也是可以實現的。鑄模可以複製小到指紋和個別毛孔的細節。

但整個鑄模過程對演員就沒那麼友好了。特效化妝師會將藍色綠色的矽膠塗滿演員臉以得到陰模,整個過程中演員要儘可能保持靜止;而後在陰模中敷入石膏等材料,得到原始的活體陽模,再進行後續的加工處理。放一張圖讓大家體會一下……

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

(來源:Youtube Insider頻道)

活體鑄模雖然是一種傳統的建模方案,在人臉重建方面早有更高階的影像學方法(也是我們後面會介紹的內容)能達到出色的效果,但活體鑄模技術依然被沿用至今,在一些特效化妝或是身體部位的建模中活體鑄模技術依然是首選,比如大家也許比較熟悉的強尼銀手的手……

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

基努裡維斯正在對手部活體鑄模

結構光

2017年9月在Apple Park的Steve Jobs劇院,搭載了Face ID的iPhone X橫空出世,從此結構光這個詞開始進入大眾的視野,手機也正式進入了深度感測器時代。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

釋出會上介紹iPhoneX的FaceID功能

結構光是透過鐳射器,將具有一定結構特徵的光線投射到被拍攝物體上,再由攝像頭進行採集反射的結構光圖案進行深度資訊的計算。依據採用結構圖案的不同,可以分為線掃描結構光和麵陣結構光等等。

iPhoneX上的Truedepth相機使用了以色列PrimeSense公司的Light Coding技術。該方案透過投射人眼不可見的偽隨機散斑紅外光點到物體上,每個偽隨機散斑光點和它周圍一定範圍內的點集在空間分佈中的每個位置都是唯一的,並將預先進行了儲存,是典型的面陣結構光。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

iPhoneX結構光在紅外相機下的樣子

曾被稱為“黑科技”的XBox Kinect(初代)體感攝像頭使用的也是這一套方案。值得一提的是,浙江大學周昆教授的3D人臉資料集Facewarehouse就是使用Kinect採集的。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

Kinect水果忍者遊戲,記憶裡的黑科技

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

Facewarehouse資料集

面陣結構光也能使用在全身模型的掃描上,並利用其掃描幀率上的優勢實現動態人體模型的掃描。Google在2018年發表的The relightables: volumetric performance capture of humans with realistic relighting對人體的幾何掃描使用的就是面陣結構光。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

Google的LED Egg使用的結構光

為了得到更高精度的人臉模型,研究人員往往會採用線掃描結構光的掃描手段。常見的方法是使用一臺投影儀,向演員面部週期性投影不等寬的線形豎直條紋,再根據條紋在演員面部發生的形變去推斷演員的幾何。這種方案往往比面陣結構光需要更長的掃描時間,也能達到更高精度的掃描結果。並且只需要投影儀與一臺相機,硬體相比接下來的相機陣列法和光度立體法成本也更低,是一種比較經濟的掃描方案。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

基於線掃描結構光的人臉掃描

最後補充一句,因為使用的結構光很像是一根根的柵欄,所以這種方法也被稱為光柵掃描,在工業製品平整度檢測中也常使用這種方法。

攝影製圖法

Capturing Reality是一家攝影製圖技術公司(Photogrammetry),該公司開發的Reality Capture軟體能夠允許開發者透過無序的照片或鐳射掃描來建立高質量的3D模型。簡單來說,你只要拿手機對著物體拍一圈,就能完成對該物體的3D掃描。

同類的軟體還有Agisoft Photoscan、Autodesk ReCap、VisualSFM,以及開源的OpenMVS等等。在拿LiDAR測了幾年距之後,Apple也終於在今年的WWDC2021推出了Object Capture實現類似的功能,聯合起AR Kit算是一套不錯的組合拳了。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

WWDC2021上釋出Object Capture

回到數字人掃描的話題中來。攝影製圖法應該是行業內用於人臉建模的最主流方案了,它既可以只用一臺相機完成質量還OK的模型掃描,又可以花大價錢組相機陣列光源陣列來實現高精度的掃描。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

使用單相機與Agisoft完成的人臉建模

攝影製圖法的底層原理是利用圖片間的相同特徵點來進行配準,而後使用MVS、SFM等方法進行重建。照片的解析度、相機內外參的標定、人臉光線的均勻程度、演員的移動等等因素都會影響最終的重建質量,而且在影視級的掃描中,往往還會有消除高光等需求。這就需要一個相對理想的拍攝環境來很好的控制以上的因素,一大批掃描技術提供商應運而生,國內做的比較好的有PixelLight、諾華視創等等,都承接了許多影視業務。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

諾華視創的球陣掃描系統

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

PixelLight的球陣掃描系統

可能有人會注意到上面圖中的相機掃描陣列與接下來將講到的Light Stage很像,但由於軟體演算法的缺失,市面上大部分球形掃描系統使用的依然是上文提到的幾款攝影製圖軟體,採用球陣目的還是為了控制相對光照均勻、增加偏振以及對方便對相機進行預標定,在精度上依然無法與接下里要介紹的光度立體法對面板表面Normal直接掃描得到的模型相匹敵。但隨著Reality Capture等一票軟體的不斷升級,現在也勉強能夠達到接近毛孔級別的細節。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

騰訊SIREN專案中的掃描

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

PixelLight提供的高精度掃描

近兩年得益於高速相機硬體的提升,4D掃描的成本降低了很多,PixelLight等公司已經著手研發基於攝影製圖法的面部4D掃描系統。騰訊NextStudio的SIREN專案與Unity的Heretic專案中也都已經引入了4D掃描資料作為藝術家的參考,相信4D掃描資料的應用接下來也將會成為行業的一個研究趨勢。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

帥氣的京一老師自己的4D掃描資料

光度立體法

2019年初,Paul Debvec獲得了Oscar SciTech Award獎項。你可能不知道這個大鬍子有點微胖的人是誰,但你一定知道他作為主要貢獻者的HDR技術……

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

Paul Debvec獲奧斯卡SciTech Award

當然,這次獲得奧斯卡技術成就獎並不是因為HDR,而是Light Stage掃描技術。Light Stage是由美國南加州大學ICT Graphic Lab的Paul Debevec所領導開發的一個高保真的三維採集重建平臺系統。該系統以高逼真度的3D人臉重建為主,並已經成功應用於40多部好萊塢電影渲染中。從第一代系統Light Stage 1至今已經升級到Light Stage 6,最新的一代系統命名為Light Stage X。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

USC ICT拍攝的眾多巨星

Light Stage本質上是一套光源、相機協同採集系統,能夠對每個光源進行獨立程式設計控制其亮度和顏色,在Light Stage內模擬出較為理想的各種光照環境。Light Stage使用光度立體法來完成對演員面部Normal的直接掃描,能夠達到攝影製圖法無法超越的細節程度。具體來說,Light Stage利用其可程式設計光源打出符合某種梯度分佈的多種光源,並以此採集到的影象來計算演員表面的PBR材質。具體的原理可以在ICT VGL官網放出的Paper中找到,知乎使用者春日也做了不錯的總結。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

基於梯度光的光度立體法

嚴格上來說,光度立體法並不提供準確的幾何結構,Light Stage中依然使用攝影製圖或結構光的方法來獲取演員的準確幾何,再使用光度立體法獲得的法向來對模型表面進行高精度細節的計算——加入光度立體法其實是疊buff。也正是如此,Light Stage掃描技術能夠超越上述幾種方法受到更多好萊塢大片的青睞。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

USC ICT的Digital Emily專案的精度

可能會有人說Normal透過高低模烘焙的手段也可以得到,但其實這樣得到的Normal本質上也還是幾何,無論是精度還是表現上都與掃描得到的Normal差異巨大。烘焙出來的Normal精度受制於幾何,往往比較有稜有角、像浮雕,而掃描得到的Normal是畫素級別的,表現上也更加圓潤、更自然。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

左:烘焙法向;右:掃描法向

然而,Light Stage搭建困難、運輸不便、成本高,基於光度立體法的Normal推算也沒有成熟的商業解決方案,很多演算法上的know-how無從知曉,致使國內長期以來一直沒有這種級別的掃描技術出現。超維的VR3D也使用了光度立體法作為掃描手段,但距離Light Stage級別的掃描還有一定距離。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

超維的VR3D掃描結果

這次在Unity技術開放日中亮相的上海科技大學MARS實驗室(也就是筆者所在的實驗室)的穹頂光場(Light Field Stage),包含約150個256級可控LED光源,每個LED光源帶有6個高亮度LED燈珠,這些燈珠分為兩組獨立控制,兩組分別安裝有不同的偏振片。光源均勻分佈於一個直徑約3米的鋁合金框架球體上。所有燈光以最高1000Hz的頻率變化亮度,並與三臺高速相機、三十臺工業相機實現毫秒級同步,所有的燈光每變化一次亮度的同時,高速相機進行一次拍攝——要達到這種級別的同步性,連通訊協議都是需要自己研發定義的。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

穹頂光場資料採集

在無數次演算法迭代後,目前MARS實驗室的穹頂光場已經能夠輸出4D高精度幾何與PBR材質,掃描精度能夠達到面板毛孔級別,向影視需求提供千萬面級高模,對遊戲行業也提供低模+Normal的解決方案,歡迎一起來合作測試。相信未來會在行業裡更多的看到我們的身影…

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

穹頂光場模型精度,圖裡是某百大Up主,大家認得出來嗎?

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

穹頂光場Normal細節

未來…

身處行業之中,你很難不聽到Metaverse這個詞,但每個人都對這個詞都有不同的理解——一個基本的共識是,數字人必然是Metaverse的入口。如何低成本的生成真是的數字人是一個亟待解決的問題。

在2D人像生成的問題上,NVIDIA與2019年底提出的StyleGAN2已經達到了逼真到難以分辨的細節,甚至上傳任意一張人像StyleGAN都能在它的隱式空間中找到“那個世界裡的”替身,更是衍生出了一系列編輯年齡、性別、長相等其他應用。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

在StyleGAN中“尋找”馬克龍

筆者認為真正的MetaVerse應該共用一套覆蓋面足夠廣泛的數字人角色系統,每個人的形象在系統中僅僅是以其真實長相為基礎的一個獨一無二的latent vector(當然可以根據自己的想法整個容),不同的平臺再根據自己的需要在同個隱式空間內對形象進行統一的風格化遷移調整——這個過程就像之前很火的Toonify一樣。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

Toonify在StyleGAN空間的基礎上對每張臉進行風格化

MetaVerse時代單使用者獲取自己數字形象的成本應該是要相當低的,所謂“掃描”應該要縮減至僅需若干張照片或粗糙的三維模型僅可完成,數字形象應該由一個具有足夠表達效能的網路來生成後用戶再微調,而不是讓使用者花大把時間在有限組合的捏臉系統裡捏臉,換個遊戲後又要重新捏。

光有生成還不夠,要想組成一個“Verse”,統一的形象管理是相當必要的。網際網路時代國外相當多的平臺都接入了GRAVATAR來允許使用者進行統一的頭像管理,MetaVerse時代也需要有這樣一個平臺來儲存每個使用者的基礎形象,再開放給不同的平臺來按需風格化……

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

各種遊戲/軟體的照片捏臉效果比較

學術圈也是有往這個方向做的趨勢的。上個部分提到的南加州大學ICT實驗室在2020年發表的一項成果裡,引入了一個全面的框架,從高精度面部掃描資料中學習基於物理的人臉模型,利用深度學習的3D可變形人臉建模方法抓住了近4000個高精度人臉掃描的特徵,包括表情和身份分離等等,頗有一種3D StyleGAN的感覺。

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

利用穹頂光場這樣的高精度面部掃描裝置,上海科技大學MARS實驗室也正在進行高精度多表情含PBR材質人臉模型方面資料儲備,在人臉生成問題上發表了SofGAN等高質量工作,在建模與渲染問題上也提出了多種基於Neural Rendering的方案。敬請期待我們未來的工作……

聊了那麼久MetaVerse,我們的數字人究竟做的怎樣了?(1)掃描篇

我們可能即將釋出的基於SofGAN的二次元捏臉APP

引用

Youtube Insider頻道活體鑄模

結構光綜述 - 知乎

ToF技術是什麼 - 知乎

Facewarehouse

The Relightables

Capturing Reality is now part of Epic Games - Unreal Engine

WWDC21 - Apple Developer

Single Camera Head Scanning | Photogrammetry

騰訊虛擬數字人“Siren”的開發歷程(上) - 知乎

諾華視創三維掃描平臺

最近研究4D掃描的一點心得 - 知乎

虛幻4 Siren的製作 - 知乎

Learning Formation of Physically-Based Face Attributes

MetaHuman Creator | 虛幻引擎 - Unreal Engine

Toonify

gravatar。com

GitHub - FuxiCV/MeInGame: MeInGame: Create a Game Character Face from a Single Portrait, AAAI 2021

GitHub - apchenstu/sofgan: A Free Viewpoint Portrait Generator with Dynamic Styling

ShanghaiTech Digital Human

SciTech Awards: Scanning Hollywood with Paul Debevec – fxguide

Debvec HDR

春日 - 知乎

USC ICT VGL Research - Facial Capture

數字人全流程方案_嘉興超維資訊科技有限公司