中科院自動化所人工智慧學術論壇總結【附PPT】

10月17日，中科院自動化研究所慶祝建所60週年舉辦了人工智慧學術論壇，論壇邀請人工智慧相關領域的專家學者做主題學術報告。我們有幸到場聆聽幾位專家的報告。由於時間原因，只參加了下午3場報告，以下是我們對報告的感受和總結。

譚自忠(TJ Tarn)：Next Big Things in Robotics and Automation

譚老師首先介紹了機器人的發展，新技術的應用使得機器人越來越精細，智慧。矽谷帶來的革命就是把原來大、貴、複雜的系統替換成小、便宜、高效能的微系統。微晶片能夠感知、思考、行動甚至互相交流，最終它們將帶來智慧機器。

譚教授根據不同時期人機互動程度把機器人分為：工業機器人，服務機器人，合作機器人。譚教授指出，未來機器人的一個發展方向是生物與機械的結合，它們在生物技術、環境、資訊科技甚至新藥物研發中都會有很好的應用。

李航：擁抱自然語言處理新時代【

PPT

】

李老師的報告分成兩部分，第一部分介紹人類語言的5個特性，這5個特性讓自然語言處理很困難。雖然我們到現在都搞不清楚人腦是怎麼處理語言的，但技術上還是可以做一些事讓計算機看上去能理解一點人類語言，第二部分就是介紹目前技術上的一些方法。

一、人類語言的5個特性

在第一部分開始，李老師從規模，速度，計算模型，容量四個方面，對比人腦和計算機工作方式的不同：

李老師之後提出導致NLP很難的五個語言特性。第一個特性是人類語言不僅有很多語法規則，還有很多特例（不遵守語法規則）。人類語言是由成千上萬的人在漫長的時間內逐步建立而成，很像現在維基百科的建立過程。正是由於這種多人長期的協作導致語言既有規則又有很多特例。

語言的第二個特點是遞迴性，也即可把短句透過遞迴的方式組合成很複雜的長句。（好像有本英文書就只有一個句子。）這個特點是由著名的喬姆斯基提出的。雖然很多動物如大猩猩也掌握簡單的單詞，但它們的語言並不具有遞迴性，所以其表達能力和人類語言不在一個層級上。更多介紹見語言的對決：喬姆斯基攻防戰。

語言的第三個特點是比喻性。透過比喻可以把多個不相關的概念組合起來產生新的概念。比如“在微信裡潛水”就是組合了潛水和在微信中不說話的行為這兩個原始概念，還有“上廁所”、“下廚房”也是透過比喻來組合不同的原始詞彙。有小孩的朋友應該經常能聽到小孩自創的一些比喻性說法。

語言的第四個特點是語言與世界外部知識是相關聯的。這也是為什麼現在大家都在搞知識圖譜。第五個特點是語言具有互動性。

這五個人類語言特性使得人類語言和計算機工作方式不同，從而導致了讓計算機完全理解人類語言變成一大難題。雖然我們現在沒法讓計算機以人腦理解語言的機理去理解人類語言，但我們可以讓計算機去模擬理解語言的結果。報告的第二部分，李老師提出了一些讓計算機理解人類語言的技術策略。

二、讓計算機理解人類語言的一些技術策略

第一種策略叫

任務驅動策略（Task-Driven Strategy）

。

比如我們可以把人類理解問題的機理簡化，只保留計算機能處理的步驟。以QA為例，人類的處理邏輯包括問題分析、理解、推斷、檢索、決策、答覆產生6個步驟，但我們可以把這個過程簡化為分析、檢索和答覆產生3個步驟，這樣計算機就可以解決QA問題了。

我們也可以透過限定任務所在領域來把計算機之前沒法做的事變成它能做的。以多輪對話舉例，雖然在開放領域很難做好，但是如果只是限制在特定領域，計算機就可能做的很好。我們的一個AI平臺就是為了幫助開發者建立特定領域的QA系統，大家可以嘗試一下。

而且透過AI LOOP（系統-使用者-資料-演算法）我們可以持續最佳化計算機對人類語言的處理效果。

第二種策略叫

融合策略（Hybrid Strategy）

。

我們可以將基於規則，基於統計和基於深度學習的NLP方法進行融合，不斷提升計算機的自然語言處理能力。

顏水成：Facial Entertainment--Techniques and Applications

顏老師是國際知名計算機視覺與深度學習專家，現在是360人工智慧研究院院長。他的報告主要包括兩個方面：深度學習上的一些探索、人臉處理技術和產品。下面分別做簡單介紹。

一、深度學習的探索

Network In Network (NIN)

顏老師首先介紹了他們2年前的工作：Network In Network（NIN）。NIN主要包含了2個創新點，第一個是利用MLP模型代替原來卷積層的線性模型（見下圖），提升卷積層的非線性性，從而提升其區域性表達能力。這個被稱為mlpconv層的新卷積層相當於先做一個一般的卷積，再做幾個1x1的卷積（只改變filter的個數，不改變feature map的大小）。1x1卷積在很多模型都被使用，比如GoogleNet、ResNet，它有以下作用：

實現跨通道的互動和資訊整合。

進行卷積核通道數的降維和升維，降低模型的引數數量。

更多細節可見（Paper）Network in Network 網路分析。

經過多次的卷積層後，最終產生的每個feature map都包含了很高層的全域性資訊，所以單獨一個feature map就應該能代表一個類的特徵了。NIN的第二個創新點是把CNN裡頂層的全連線層替換為全域性平均池化層（見下圖）。以分類問題為例，最後一層卷積層產生的feature map數量和類別數量相同，在每個feature map上取平均值，這個平均值就代表了對應類的資訊，把平均值最後放到softmax函數里就得到此類的機率值。原始CNN中大部分的引數都來自於頂層的全連線層。NIN透過引入全域性平均池化層降低了模型引數數量。在保持精度的情況下，NIN能把引數數量壓縮為原始CNN的1/10。

圖片來自於Network In Network（精讀）

More is Less

顏老師他們觀察到，很多情況下超過40%的模型結點在ReLU之前獲得的值都小於0，所以經過ReLU （max（x， 0））後這些結點都變成0了，它們具體的取值毫無意義。

如果用很低的計算量我們就能預估出哪些結點的取值會小於0，在卷積時就不用再花更多時間去計算它們的精確取值了。基於這個邏輯，顏老師他們提出在原來網路的基礎上增加1x1的卷積層，新模型的輸出為原模型的輸出（逐元素）乘以1x1卷積層的輸出。如果1x1卷積層的輸出為0，那原始卷積層對應結點就不用再計算了，從而達到降低計算量的作用。這就是所謂的用更復雜的模型結構（More）來獲取更低的計算量（Less）。這種方法在很多模型上能達到20%的加速，在某些模型上甚至加速近50%。據說顏老師的這個工作還沒正式發表。。。

More is Less這種加速思路比較適合計算能力較差的裝置，比如手機。對於計算能力較強的機器，更高模型複雜度會帶來更多的排程等開銷，最終導致加速效果不明顯。

二、人臉處理技術和產品

接下來，顏老師介紹了他們之前在化妝、美顏和人臉增強方面的一些工作。這部分既有技術含量又很實用，相信不會有人不感興趣。

怎麼化妝能變身為女神

愛美之心姑娘皆有之，但不是每個姑娘都知道怎麼化妝。顏老師做了一個產品叫“Beauty e-Expert”，使用者只要上傳一張人臉照片，Beauty e-Expert會根據使用者的臉型和衣服給使用者推薦合適的底妝、唇膏、眼影和髮型，並把這些推薦的化妝術合成到使用者上傳的照片上，讓使用者立刻看到化妝後的效果圖。合成部分主要難點在於面部對準，需要準確把假髮放到頭上，唇膏塗到嘴唇上。演算法細節可以參考他們2013年的論文“Wow！ You Are So Beautiful Today！”。下圖給出了系統處理流程和合成效果。

美顏（Facial Beautification）

傳統美顏方法是先找臉部的各種特徵點，然後對五官做調整，從而達到美顏的效果。顏老師他們提供了一個美顏新思路。首先訓練一個深度神經網路預測一張臉型圖片的buauty score，預測時把輸入作為引數最佳化，使用梯度上升演算法得到更高的beauty score，最佳化後的輸入即為美顏後的結果。

人臉增強（Facial AR）

這部分顏老師演示了實時臉部替換的效果，即把一個人的人臉實時放到另一個頭上的效果。以後跟姑娘影片聊天時你可以換個臉了。系統主要用到的技術包含人臉檢測、面部跟蹤與對標、人臉替換。具體可參考他們2016年剛發表的論文“A Live Face Swapper”。

本文作者︱楊鵬@yige。ai，吳金龍@yige。ai

一個AI，是免費建立虛擬對話機器人（Bot）應用的線上平臺。利用一個AI，開發者甚至產品和運營人員都可以輕鬆地開發聊天/對話機器人應用，而不需要具備機器學習與自然語言處理等相關知識。

一個AI的使命是：

讓每個人都能輕鬆開發一個AI應用。

中科院自動化所人工智慧學術論壇總結【附PPT】

為什麼混凝土要淋水

這個是天然的冰種的黑曜石麼

隨便看看

相聲界最成功（名氣最大）的三對師徒，你認為是哪三對？

19款寶來油門踏板怎麼抬高？

佳釣尼網紅冠軍是誰？

男生文案簡短吸引人50字？

中科院自動化所人工智慧學術論壇總結【附PPT】

為什麼混凝土要淋水

這個是天然的冰種的黑曜石麼

猜你喜歡

12歲科學小製作？

視覺部是幹嘛的？

怎麼樣修改自己的MAC地址？詳細的說明下 或者用什麼軟體能偽造一個MAC地址？

隨便看看

相聲界最成功（名氣最大）的三對師徒，你認為是哪三對？

19款寶來油門踏板怎麼抬高？

佳釣尼網紅冠軍是誰？

男生文案簡短吸引人50字？

怎麼樣修改自己的MAC地址？詳細的說明下或者用什麼軟體能偽造一個MAC地址？