豐色 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
要製作
慢動作
影片就必須要用
死貴的高速攝像機
?
NO! 可以用AI。
看到沒,這就是
AI
完成的效果!
雖然和真正的高速攝像機至少上千的幀數沒法比,但它完全可以做到每秒
53幀
的影片輕輕鬆鬆變成
960幀
,
沒有偽影
也沒有噪聲。
很多網友看完效果都按耐不住了:“非常想要一個深入的教程”、“能不能出一個應用程式?”……
而這項酷斃的研究成果也成功入選
CVPR 2021
,研究人員來自
華為蘇黎世研究中心和蘇黎世大學
。
當然,也用了一個特殊的攝像頭
實現這一效果沒有采用透過影片光流來猜測粒子運動的經典思想,而是先用了兩個攝像頭來捕捉畫面。
一個就是普通攝像頭,記錄低幀(20-60FPS)真實畫面;
要想達到慢動作效果,起碼得每秒300張畫面才夠;20幀的影片給的資訊太少了,沒法直接合成慢動作。
怎麼辦?靠另一個特殊的攝像頭——
也就是事件相機(也稱為神經形態相機),它使用新型的感測器,拍攝的是“事件”,也就是記錄
畫素亮度變化
。
事件相機還比較新興,實驗室裡有很多,市場上還沒有大規模問世,報價有2000美元一個或更高。
由於該相機記錄的資訊經過壓縮表示,因此可以較低的清晰度、高速率進行拍攝,也就是犧牲影象質量換取更多影象資訊。
最終的資訊量足夠AI理解粒子的運動,方便後續插值。
#FormatImgID_15##FormatImgID_16#
△
問號部分即為我們要的插幀
這倆相機
同步
拍攝到的內容合起來就是這樣的:
拍好以後,就可以使用機器學習來最大化地利用這兩種相機的資訊進行插幀了。
研究人員在這裡提出的AI模型叫做Time Lens ,一共分為
四塊
。
首先,將倆相機拍到的幀資訊和事件資訊傳送到前兩個模組:基於變形(warp)的插值模組和合成插值模組。
基於變形的插值模組利用U形網路將運動轉換為光流表示,然後將事件轉換成真實的幀。
合成插值模組也是利用U形網路將事件置於兩個幀之間,並直接為每個事件生成一個新的可能幀(現在就為同一事件生成兩個幀了)。
該模組可以很好地處理幀之間出現的新物件以及光線變化(比如水反射啥的)。
不過到這裡的話,合成的影片可能會有一個問題:
出現噪聲
。
這時,第三個模組的作用就派上用場了,它使用第二個插值合成模組中的新資訊來細化第一個模組。
也就是提取同一事件的兩個生成幀中最有價值的資訊,進行變形最佳化——再次使用U-net網路生成事件的
第三個幀版本
。
最後,這
三個候選幀
被輸入到一個基於注意力的平均模組。
該模組採用三幀表示中最好的部分將它們組成最終幀。
現在,有了幀之間第一個事件的高畫質幀後,再對事件相機提供的所有事件重複此過程,就能生成最終我們想要的結果了。
這就是使用AI建立逼真的慢動作影片的方法。怎麼樣?
附一個攝像機的引數圖:
取得了智慧手機和其他模型無法達到的效果
你說這個AI模型的效果好,那得對比一下才知道。
比如上面這個與最優秀的插值模型之一的
DAIN
(入選CVPR 19)的對比,誰好誰壞效果就很明顯了。
而且它的插值方法的
計算複雜度
也是最優的:影象解析度為640×480,在研究人員的GPU上進行單個插值時,DAIN模型需要878毫秒,該AI則
只需要138毫秒
。
另外,雖然不建議,用該模型輸入的影片即使只有
5幀
,也可以生成慢動作。
和其他模型的對比實驗資料,大家感興趣的可以檢視論文。
最後,作者在介紹成果的影片裡也再次說道,不和昂貴的專業裝置相比,該模型至少取得了智慧手機和其他模型無法達到的效果。
作者介紹
一作Stepan Tulyakov,華為蘇黎世研究中心機器學習研究員。
共同一作Daniel Gehrig,蘇黎世大學博士生。蘇黎世聯邦理工大學機械工程碩士。
論文地址:
http://
rpg。ifi。uzh。ch/docs/CVP
R21_Gehrig。pdf
開源地址:
https://
github。com/uzh-rpg/rpg_
timelens
參考連結:
[1]
https://www。
louisbouchard。ai/timele
ns/
[2]
https://www。
reddit。com/r/MachineLea
rning/comments/pm6s6h/news_make_slow_motion_videos_with_ai_timelens/
[3]
https://www。
youtube。com/watch?
v=dVLyia-ezvo
—完—
@量子位 · 追蹤AI技術和產品新動態
深有感觸的朋友,歡迎贊同、關注、分享三連վ‘ᴗ’ ի ❤