編者按:大資料和人工智慧的浪潮正在席捲全球,眾多熱門詞彙蜂擁而至:人工智慧(Artificial Intelligence)、大資料(Big Data)、雲計算(Cloud Computing)、機器學習(Machine Learning)、資料探勘(Data Mining)、深度學習(Deep Learning)、強化學習(Reinforcement Learning)和資料庫(Databases)。不少人對這些高頻詞彙的含義及其背後的關係總是似懂非懂、一知半解。

為了幫助大家更好地理解人工智慧,我們邀請到微軟亞洲研究院資深研究員鄭宇博士用最簡單的語言來解釋這些詞彙的含義,理清它們之間的關係,希望對剛入門的同學們有所幫助。

人工智慧、機器學習、深度學習和強化學習

首先來看一下人工智慧、機器學習和深度學習之間的關係。如圖一所示,我們可以大致認為深度學習是機器學習中的一種學習方法,而機器學習則可以被認為是人工智慧的一個分支。

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

圖一人工智慧研究分支

人工智慧:

人工智慧涵蓋的領域很廣,除了機器學習外,還包括專家系統、進化計算、模糊邏輯、粗糙集、多代理、規劃問題等。最近幾年,人工智慧的發展主要得益於機器學習領域的推動,尤其是深度學習取得的突破,其他領域的進展相對較小。人工智慧分為弱人工智慧和強人工智慧,前者讓機器具備觀察和感知的能力,可以做到一定程度的理解和推理。目前的科研都集中在弱人工智慧這部分,並很有希望在近期取得重大突破。而強人工智慧期待讓機器獲得自適應能力,解決一些之前沒有遇到過的問題。電影裡的人工智慧多半都是在描繪強人工智慧,而這部分在目前的現實世界裡難以真正實現。

機器學習:

從學習方法上來分,機器可以分為監督學習(如分類問題)、無監督學習(如聚類問題)、半監督學習、整合學習、深度學習和強化學習。深度學習本來並不是一種獨立的學習方法,其本身也會用到有監督和無監督的學習方法來訓練深度神經網路。但由於近幾年該領域發展迅猛,一些特有的學習手段相繼被提出(如殘差網路),因此越來越多的人將其單獨看作一種學習的方法。按照學習目的來分,機器學習涵蓋了迴歸、分類、聚類、異常監測、量綱學習和因果分析等。

深度學習:

最初的深度學習是利用深度神經網路來解決特徵表達的一種學習過程。

深度神經網路本身並不是一個全新的概念

,可大致理解為隱含層很多的一個神經網路結構。為了提高深層神經網路的訓練效果,人們對神經元的連線方法和啟用函式等方面做出相應的調整。其實有不少想法早年間也曾有過,但由於當時訓練資料量不足、計算單元落後,因此最終的效果不盡如人意。

強化學習:

強化學習為一個代理(Agent)在一個環境裡設計一系列動作(Actions)以獲得最優的未來長期回報(Reward)。走迷宮常被用來作為解釋強化學習的例子。因為學習方法複雜,早年間強化學習只能解決一些非常簡單(狀態空間小、動作選擇少)的問題。直到深度學習的出現,使得我們可以用深度神經網路去逼近一個近似的價值和策略函式,強化學習才取得很大的進展(如在AlphaGo裡的價值判斷網路),人們稱其為深度強化學習(Deep Reinforcement Learning)。與其說是強化學習的進展,不如說是在強化學習的框架裡,深度學習貢獻了巨大的力量。

資料探勘、人工智慧、大資料和雲計算

如圖二所示,

資料探勘是從資料中發掘知識的過程,在這個過程中人工智慧和資料庫技術可以作為挖掘工具,資料可以被看作是土壤,雲平臺可以看作是承載資料和挖掘演算法的基礎設施。

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

圖二資料探勘的過程以及與人工智慧和雲計算的關係

資料探勘:

資料探勘是從資料中發掘知識的過程,在挖掘資料的過程中需要用到一些挖掘工具和方法(如圖二第二個層面所示)。這些工具可以是基於資料庫的挖掘方法,比如頻發模式發掘(Frequent Pattern Mining)和關聯規則。大家經常聽說的啤酒和尿布的例子就是基於資料庫技術的頻繁模式發掘。資料探勘也可以用到機器學習的方法,比如各種分類模型(如Decision trees和SVM)、機率圖模型(Probabilistic Graphical Models)以及深度學習的方法。資料探勘同樣也可以用到人工智慧裡非機器學習的方法,比如遺傳演算法和粗糙集等。

當數量非常大時,資料探勘需要藉助雲平臺來承載資料

,並利用雲平臺中的分散式計算單元來提高資料探勘效率。當挖掘完畢後,資料探勘還需要對知識進行視覺化和展現。

雲計算:

雲計算平臺一般是由第三方IT公司建立的涵蓋基礎設施、計算資源和平臺作業系統的整合體。雲平臺解決了傳統公司各自搭建機器叢集所產生的建設週期長、升級換代慢、維護成本高的痛點,讓其他公司可以從搭建計算平臺的繁重任務中解脫出來而專注於自己的業務。雲平臺使用者可以高效、靈活的調整自己的資源配置(比如用多少臺虛擬機器、多少個計算節點等),第三方公司根據使用者使用的資源來收取相應的費用。打一個通俗的比喻,就好比不用每家每戶弄一個發電機,而是集中建一個發電廠,每家只需要插上插頭就可以用電,根據用電的多少來計費。使用者不用關心發電廠建在哪裡、如何發電,也不用操心如何維護髮電廠本身的運轉和安全。

雲計算平臺本身為大資料的儲存和分析提供了很好的基礎設施(如storage和Hadoop、Spark和Storm等分散式計算環境),但預設的雲平臺上並沒有自帶強大的機器學習和人工智慧能力,也缺乏高效的索引機制(如時空索引演算法)。因此,

雲平臺並不等於大資料平臺

。近期不少公司在積極地開發基於雲平臺的機器學習工具(如AzureML)和人工智慧平臺。圖三是我們基於Azure搭建的城市大資料平臺,其中時空索引、針對時空資料的機器學習演算法和多源資料融合演算法都是以前的雲平臺所不具備的。

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

圖三城市大資料平臺

大資料:

大資料是一種

從資料的採集、管理、分析挖掘到服務提供的端到端的、解決行業問題的綜合實力

,是從資料生命週期這個維度來看的知識獲取過程(資料庫、機器學習和人工智慧技術可以成為其中的一個環節),也是一種基於資料的思維方式。通常講大資料都會提到4個V,Volume(量大)、Velocity(速度快)、Variety(多樣性)、Value(價值)。但實際上,除了Variety(多樣性)以外,其他幾個屬性很難界定,比如多大才叫大,一直很難給出一個嚴格的定義。而只要是資料就有其價值,關鍵是如何利用資料。因此,大資料不是指一個體量很大的單一資料,其關鍵在於多源資料融合(即把來自不同領域的資料的知識相互結合,形成1+1>2的合力),這是大資料的戰略制高點,不是單單在“資料”前加個“大”字那麼簡單。

多源資料的融合給資料管理、資料探勘、機器學習和人工智慧帶來了很多新興課題。當資料探勘被用來挖掘和融合多源資料中蘊含的知識時,資料探勘就跟大資料有了完美的結合。如果資料探勘還在挖掘單一資料,那就是傳統的資料探勘或者是早年間研究的“海量資料探勘”。作為資料探勘的工具,分散式機器學習的重點是解決海量資料探勘的問題,而不是解決多源資料融合的問題。要想融合多源資料,我們就需要在機器學習中設計新的多源資料融合演算法([1]是一篇關於多源資料融合的機器學習演算法的綜述),併為雲平臺設計特別的管理和索引方法。

圖四以城市大資料為例,說明了大資料和資料探勘以及人工智慧之間的關係。城市大資料就是從城市資料的感知、管理、分析到服務提供的端到端的、解決行業(如交通、環境等)問題的綜合實力。在解決一個問題時,我們通常需要同時用到來自於多個領域的資料(如預測空氣質量需要考慮氣象、交通和地理資訊等),如何融合多源資料中的知識就是一個難點。這需要在資料探勘過程中設計相應的資料管理演算法和機器學習演算法。因此,可以大致理解在圖四的第二、三(管理和分析)層面是在做資料探勘的事情,而在第三層裡,又需要用到一些改良的機器學習和人工智慧演算法。更多細節將在《Urban Computing》[2]一書中介紹。

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

圖四城市計算和城市大資料

[1] Yu Zheng, Methodologiesfor Cross-Domain Data Fusion: An Overview, in IEEE Transactions on Big Data

[2] Yu Zheng, Urban Computing, MIT Press (預計2018年初出版)

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

五分鐘瞭解你不得不知道的人工智慧熱門詞彙

感謝大家的閱讀。

本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,併為研究人員提供討論和參與的開放平臺,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的“邀請”,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信(ID: MSRAsia)賬號,瞭解更多我們研究。