機器之心整理

參與:機器之心編輯部

機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、演算法、應用、論文、書籍、影片等資訊如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類彙總,機器之心在其基礎上做了增益,希望對讀者有所幫助。

先決條件

機器學習的基礎是數學。數學並非是一個可選可不選的理論方法,而是不可或缺的支柱。如果你是一名計算機工程師,每天使用 UML、ORM、設計模式及其他軟體工程工具/技術,那麼請閉眼一秒鐘,忘掉一切。這並不是說這些概念不重要,絕不是!但是機器學習需要一種不同的方法。如今 Python 如此流行的原因之一是其「原型設計速度」。在機器學習中,一種使用幾行程式碼即可建模演算法的語言絕對是必要的。

微積分、線性代數、機率論在機器學習幾乎所有演算法中不可或缺。如果你的數學背景很紮實,請跳過這一章節。如若不然,那麼重新溫習一下這些重要概念也不錯。考慮到理論的數量,我並不建議大家從大部頭開始。儘管一開始可以用它查詢具體概念,但是初學者先關注簡單的話題比較好。網上有很多好的線上資源(比如 Coursera、可汗學院或優達學城),實用且適合各種背景的人群。但是我建議從提綱之類的簡明書籍上手,其中所有核心概念均被涉及,次要概念可在需要的時候自行查詢。這種方法雖然不夠系統,但卻避免了這樣的缺陷:大量晦澀概念使得沒有紮實理論背景的人望而卻步。

初學者最好先學習下列內容:

機率論

離散型和連續型隨機變數

主要分佈(伯努利分佈、二項式分佈、正態分佈、 指數分佈、 泊松分佈、Beta 和 Gamma 分佈)

矩估計和最大似然估計

貝葉斯統計

相關性係數和協方差(Correlation and Covariance)

線性代數

向量和矩陣

矩陣的行列式

特徵向量和特徵值

矩陣分解(如 SVD)

微積分

極限與導數

微分和積分

數值計算與最最佳化方法

網上有很多免費資源,比如

《機率論入門》,Grinstead、Snell 著(

https://www。

dartmouth。edu/~chance/t

eaching_aids/books_articles/probability_book/amsbook。mac。pdf

《線性代數入門》,Wise、Gallagher 著(

http://www。

stat。columbia。edu/~liam

/teaching/4315-spr06/LinAlg。pdf

《微積分入門》,Heinbockel 著(

http://www。

math。odu。edu/~jhh/Volum

e-1。PDF

維基百科上也有很多好資源,對方程、定理等進行了清晰易懂的解釋。

機器之心也介紹過許多數學基礎與概念:

基礎入門:深度學習矩陣運算的概念和程式碼實現

想了解機率圖模型?你要先理解圖論的基本定義與形式

深度神經網路中的數學,對你來說會不會太難?

Reddit 熱門話題:如何閱讀並理解論文中的數學內容?

機器學習主要需要的數學基礎就是微積分、線性代數、機率論,我們感覺只需要掌握大學中常見的高數、線性代數、機率論與數理統計三門課程,基本上概念的理解就沒什麼問題了。如果再學一點數值計算和最最佳化等,我們基本上就能理解機器學習的學習過程推導。

機器學習方法建議(面向初學者)

特徵工程

開始機器學習的第一步是理解如何評估和改進資料集的質量。管理特徵的類別和缺失、歸一化和降維(PCA、ICA、NMF)是大幅提高演算法效能的基本技術,而且還有助於研究如何將資料集分割成訓練集和測試集、如何採取交叉驗證來取代傳統的測試方法。

機器之心也曾詳解過特徵工程如 PCA 降維演算法的詳細理論與推導,當然我們還介紹了其它有關特徵的概念:

從特徵分解到協方差矩陣:詳細剖析和實現PCA演算法

基於TensorFlow理解三大降維技術:PCA、t-SNE 和自編碼器

似乎沒區別,但你混淆過驗證集和測試集嗎?

Numpy:Python 數值計算之王!

使用 Python 時,Numpy 不僅僅是一個庫。它是幾乎所有機器學習實現的基礎,因此瞭解它的工作原理、關注向量化和廣播(broadcasting)是非常必要的。這些技術可以幫助加速大多數演算法的學習過程,利用多執行緒和 SIMD、MIMD 架構的力量。

官方文件已經很完整了,不過,我還建議大家看一下以下資源:

《Python 資料科學手冊:資料使用的核心工具》,VanderPlas J。 著

《Python 科學程式設計入門書》,LangTangen P。 H。 著

維度、廣播操作與視覺化:如何高效使用TensorFlow

資料視覺化

Matplotlib 即使不是純粹的機器學習話題,瞭解如何視覺化資料集也很重要。Matplotlib 可能是最廣泛使用的解決方案:Matplotlib 易用,允許繪製不同種類的圖表。Bokeh 和 Seaborne 提供了有趣的替代方案。不必要徹底瞭解所有包,但是瞭解每一個包的優點和弱點還是很有用的,可以幫助你選擇合適的包。

瞭解 Matplotlib 細節的資源:《掌握 Matplotlib》,McGreggor D。 著

線性迴歸

線性迴歸是最簡單的模型之一,可以把它作為一個最佳化問題來研究,該問題可透過最小化均方誤差而得到求解。該方法雖然有效,但是限制了可利用的可能性。我建議還可以把它當作貝葉斯問題,使用之前的可能性展示引數(比如,高斯分佈),最佳化變成了最大似然估計(Maximum Likelihood Estimation,MLE)。即使這看起來更加複雜,但該方法提供了一個可供幾十個其他複雜模型共享的新方法。

Coursera 上介紹貝葉斯統計的課程:

《貝葉斯統計:從概念到資料分析》(

https://www。

coursera。org/learn/baye

sian-statistics/

《貝葉斯統計:技術與模型》(

https://www。

coursera。org/learn/mcmc

-bayesian-statistics

以及這兩本書:

《思考貝葉斯》,Downey B。 A。 著

《駭客的貝葉斯方法》Davidson-Pilon C。 著

包括線性迴歸在內,機器之心曾介紹了一些解決迴歸問題的方法(後文提供了 CART 演算法進行迴歸分析):

初學TensorFlow機器學習:如何實現線性迴歸?

迴歸、分類與聚類:三大方向剖解機器學習演算法的優缺點(附Python和R實現)

線性分類

通常情況下,Logistic 迴歸是最佳起始點,也是研究資訊理論進而瞭解資訊熵、交叉熵和互資訊的好機會。類別交叉熵(Categorical cross-entropy)是深度學習分類中最穩定、使用最廣泛的代價函式,一個簡單的 logistic 迴歸可以展示它是如何加速學習過程的(與均方差相比)。另一個重要的話題是正則化(Ridge、Lasso 和 ElasticNet)。很多情況下,人們認為它是一種提高模型準確率的深奧方式,但是它的真實意義是更準確,在具體例項的幫助下變得易於理解。我還建議剛開始的時候,把 logistic 迴歸當作一個簡單的神經網路,視覺化(以 2D 例項為例)權重向量在學習過程中的移動軌跡。

我還建議本節應包括超引數網格搜尋。網格搜尋不在沒有完整了解的情況下嘗試不同的值,而是評估不同的超引數集的效能。因此,工程師可以將注意力集中在可達到最高準確率的組合上。當然還有更加強大的貝葉斯最佳化方法,即利用先驗知識逼近未知目標函式的後驗分佈從而調節超引數的方法。

從頭開始:用Python實現帶隨機梯度下降的Logistic迴歸

如何透過牛頓法解決Logistic迴歸問題

擬合目標函式後驗分佈的調參利器:貝葉斯最佳化

支援向量機(SVM)

支援向量機提供了不同的分類方法(包括線性和非線性方法)。該演算法非常簡單,具備基礎幾何知識的人也可以學會。不過,瞭解核支援向量機的工作原理非常有用,因為它會線上性方法失敗的時候展示出其真正實力。

一些有用的免費資源:

《支援向量機簡明教程》,Law 著

核函式方法,維基百科詞條

詳解支援向量機SVM:快速可靠的分類演算法

詳解支援向量機(附學習資源)

決策樹

決策樹提供了另一種分類和迴歸的方法。通常,它們不是解決複雜問題的首選,但它們提供了完全不同的方法,即使是非技術人員也可以很容易理解,該方法還可以在會議或演示中視覺化。

教程 | 從頭開始:用Python實現決策樹演算法

從決策樹到隨機森林:樹型演算法的原理與實現

整合學習一覽

在理解了決策樹的動態特性以後,研究整合訓練樹的集(整合)來提高整體準確率的方法很有用。隨機森林、梯度樹提升和 AdaBoost 都是強大的演算法,且複雜度較低。對比簡單的樹和提升方法與 bagging 方法採用的樹的學習過程挺有趣的。Scikit-Learn 提供了最常見的實現方法,但是如果你想更好地駕馭這些方法,我還是建議你在 XGBoost 上多花些時間,XGBoost 是一個既適用於 CPU 又適用於 GPU 的分散式框架,即使在較大的資料集上也能加速學習過程。

從Boosting到Stacking,概覽整合學習的方法與效能

聚類

當開始聚類方法的學習時,我的建議是從高斯混合演算法(基於期望最大化/EM)學起。雖然 K-均值聚類要更加簡單易懂(也是必須要學習的),但是高斯混合演算法為我們提供了純粹的貝葉斯方法,在其他類似任務中也十分實用。其它必學的演算法還有層次聚類(Hierarchical Clustering)、譜聚類(Spectral Clustering)和 DBSCAN。這對你瞭解基於例項的學習或研究 K-近鄰演算法(既適用於有監督又適用於無監督任務)也是有幫助的。譜聚類的一個有用的免費資源是:

《譜聚類教程》,Von Luxburg U 著

聚類演算法是無監督學習中的代表,機器之心也曾詳細地介紹過各種聚類方法與實現:

機器理解大資料的秘密:聚類演算法深度詳解

綜述分類、聚類和資訊提取演算法在文字挖掘領域內的應用

如何用Python和機器學習炒股賺錢?

神經網路入門

神經網路是深度學習的基礎,你可以在單獨的課程中學習神經網路。但是,我認為理解感知機、多層感知機以及反向傳播演算法的概念也很有幫助。Scikit-Learn 提供了一個實現神經網路的簡單方法,但是,開始探索 Keras 也是一個好主意,Keras 是一個基於 Tensorflow、Theano 或 CNTK 的高階架構,允許使用最少的努力對神經網路進行建模和訓練。開始神經網路學習的一些好資源:

《人工神經網路基礎》Hassoun M 著

《Keras 深度學習》Gulli A。、 Pal S。 著

目前最好的深度學習書籍可能就是:

《深度學習》,Goodfellow I。、 Bengio Y。、Courville A。 著

最全的DNN概述論文:詳解前饋、卷積和迴圈神經網路技術

機器之心GitHub專案:從零開始用TensorFlow搭建卷積神經網路

深度神經網路全面概述:從基本概念到實際模型和硬體基礎

訓練的神經網路不工作?一文帶你跨過這37個坑

TensorFlow從基礎到實戰:一步步教你建立交通標誌分類神經網路

神經網路快速入門:什麼是多層感知器和反向傳播?

教程 | 如何用30行JavaScript程式碼編寫神經網路異或運算器

神經網路除錯手冊:從資料集與神經網路說起

神經網路基礎:七種網路單元,四種層連線方式

如何從訊號分析角度理解卷積神經網路的複雜機制?

神經網路架構演進史:全面回顧從LeNet5到ENet十餘種架構(附論文)

麻省理工解讀神經網路歷史,三篇論文剖析基礎理論

最後,我們將介紹部分機器之心曾發過的綜述性技術文章或論文,並希望這些文章能對大家全面理解各種方法有所幫助:

自動駕駛計算機視覺研究綜述:難題、資料集與前沿成果

一文幫你發現各種出色的GAN變體

深度強化學習綜述:從AlphaGo背後的力量到學習資源分享

從FPS到RTS,一文概述遊戲人工智慧中的深度學習演算法

視覺問答全景概述:從資料集到技術方法

神經風格遷移研究概述:從當前研究到未來方向

從語言學到深度學習NLP,一文概述自然語言處理

遷移學習全面概述:從基本概念到相關研究

一文綜述所有用於推薦系統的深度學習方法

一文讀懂遺傳演算法工作原理(附Python實現)

從自編碼器到生成對抗網路:一文縱覽無監督學習研究現狀