機器學習——動手從決策樹實現隨機森林

本文始發於個人公眾號：

TechFlow，原創不易，求個關注

今天是

機器學習專題

的第26篇文章，我們一起聊聊另外一個整合學習模型，它就是大名鼎鼎的隨機森林。

隨機森林在業內名氣和使用範圍都很廣，曾經在許多演算法比賽當中拔得頭籌。另外，它也是一個透過組合多個弱分類器構建強分類器的經典模型，因此它在業內

廣受歡迎

。

本文基於決策樹相關的文章，沒有閱讀過的同學可以從

最上方的專輯

檢視過往決策樹相關的文章。

演算法原理

上一篇文章介紹AdaBoost的時候把整合學習的幾種思路大概介紹了一遍，整合學習主要是三種方法，

Bagging、Boosting和Stacking

。AdaBoost屬於Boosting，而隨機森林則屬於Bagging。

Bagging最大的特點就是“民主”，其中的思路很容易理解，針對同一份訓練資料我們會訓練出多個弱分類器來。當面臨一個新的樣本的時候，由這些分類器聚集在一起進行民主投票，

每一個分類器都是平等的，它們的權重一樣

。最後，根據所有這些弱分類器的結果整合出最後的結果來。比如說我們一共訓練了50個弱分類器，在面對一個樣本的時候，其中的35個給出類別1，15個給出類別0，那麼整個模型的結果就是類別1。

另外一點是，Bagging在訓練每一個分類器的時候所使用的資料並不是固定的，而是透過

有放回抽樣

選擇出來的。所以樣本在訓練集中出現的分佈也是各不相同的，有些樣本可能在同一個分類器中出現了多次，同樣也有一些樣本沒有出現過。單單有樣本隨機性還是不夠的，因為訓練樣本的分佈大體上是差不多的，雖然我們隨機取樣，也不會使得每一份訓練樣本會有很大的差距。所以為了保證每個分類器的側重點不同，擁有更強的隨機性，我們還可以從特徵入手，限制

每個分類器只能隨機使用部分特徵

。這樣得到的分類器每一個的特徵都各不相同，側重點也就不同，可以儘可能地增強隨機的效果，讓模型專注於資料。

隨機森林這個模型的名字當中隱藏了兩個關鍵點，分別是隨機和森林。隨機我們已經解釋過了，一方面是每一個分類器樣本的隨機，另外一個是分類器可以使用的特徵的隨機。而森林也很好理解，因為我們使用的分類器是決策樹，所以多棵決策“樹”組成的模型，自然就是森林了。

抓住這兩個特徵，隨機森林很好理解，也很好實現，畢竟決策樹模型我們之前已經實現過好幾次了。

程式碼實現

我們選擇決策樹當中最經典的CART演算法來實現決策樹，資料我們依然沿用上次AdaBoost模型當中乳腺癌預測的資料。

首先，我們還是一樣，先讀入資料：

import

numpy

import

pandas

from

sklearn。datasets

import

load_breast_cancer

breast

load_breast_cancer

（）

，

breast

。

data

，

breast

。

target

# reshape，將一維向量轉成二維

。

reshape

（（

，

））

之後我們利用sklearn庫中的train_test_split工具將資料拆分成訓練資料和測試資料。

from

sklearn。model_selection

import

train_test_split

X_train

，

X_test

，

y_train

，

y_test

train_test_split

（

，

test_size

0。2

，

random_state

）

隨機森林的核心結構依然是決策樹，我們可以直接

沿用之前CART決策樹的程式碼

，只需要稍稍做一些小小的改動即可。首先是計算GIni指數和根據所選的特徵拆分資料的函式，這兩個函式不需要做任何改動，我們從之前的文章當中複製過來。

from

collections

import

Counter

def

gini_index

（

dataset

）：

dataset

。

array

（

dataset

）

dataset

。

shape

［

］

：

return

counter

Counter

（

dataset

［：，

］）

ret

1。0

for

，

counter

。

items

（）：

ret

（

）

return

ret

def

split_gini

（

dataset

，

idx

，

threshold

）：

left

，

right

［］，

［］

dataset

。

shape

［

］

# 根據閾值拆分，拆分之後計算新的Gini指數

for

data

dataset

：

data

［

idx

］

threshold

：

left

。

append

（

data

）

else

：

right

。

append

（

data

）

left

，

right

。

array

（

left

），

。

array

（

right

）

# 拆分成兩半之後，乘上所佔的比例

return

left

。

shape

［

］

gini_index

（

left

）

right

。

shape

［

］

gini_index

（

right

）

然後是拆分資料集，我們根據特徵和閾值將資料集拆分成兩個部分。和上面的split_gini函式類似，只是split_gini函式計算的是拆分之後的Gini指數，而我們現在開發的是

將資料集拆分

的功能。

from

collections

import

defaultdict

def

split_dataset

（

dataset

，

idx

，

thread

）：

splitData

defaultdict

（

list

）

# 否則根據閾值劃分，分成兩類大於和小於

for

data

dataset

：

splitData

［

data

［

idx

］

thread

］

。

append

（

。

delete

（

data

，

idx

））

return

list

（

splitData

。

values

（）），

list

（

splitData

。

keys

（））

再然後是獲取所有閾值以及選擇最佳的特徵和拆分閾值的函式，這兩個函式的邏輯和之前也完全一樣，我們也複製過來。

def

get_thresholds

（

，

idx

）：

# numpy多維索引用法

new_data

［：，

［

idx

，

］］

。

tolist

（）

# 根據特徵值排序

new_data

sorted

（

new_data

，

key

lambda

：

［

］，

reverse

True

）

base

new_data

［

］［

］

threads

［］

for

range

（

，

len

（

new_data

））：

，

new_data

［

］

# 如果label變化則記錄

！=

base

：

base

threads

。

append

（

）

return

threads

def

choose_feature_to_split

（

dataset

）：

len

（

dataset

［

］）

len

（

dataset

）

# 記錄最佳Gini，特徵和閾值

bestGini

float

（

‘inf’

）

feature

thred

None

for

range

（

）：

threds

get_thresholds

（

dataset

，

）

for

threds

：

# 遍歷所有的閾值，計算每個閾值的Gini

gini

split_gini

（

dataset

，

）

gini

bestGini

：

bestGini

，

feature

，

thred

gini

，

return

feature

，

thred

再然後就是建樹的部分了，這裡我們做了一點小小的調整。因為我們

只使用了一部分訓練資料以及一部分特徵

訓練的決策樹，所以一般不會出現過擬合的情況，所以我去掉了防止過擬合的預剪枝邏輯。另外一個變動是加上了backup的設定，因為特徵和資料的稀疏，

可能會出現某個節點只有一個分支的情況

。為了防止這種情況，我在每個節點都儲存了一個backup，它代表的當前節點的資料中出現次數最多的那個類別。

def

create_decision_tree

（

dataset

）：

dataset

。

array

（

dataset

）

# 如果都是一類，那麼直接返回類別

counter

Counter

（

dataset

［：，

］）

len

（

counter

）

：

return

dataset

［

，

］

# 如果已經用完了所有特徵

dataset

。

shape

［

］

：

return

counter

。

most_common

（

）［

］［

］

# 記錄最佳拆分的特徵和閾值

fidx

，

choose_feature_to_split

（

dataset

）

node

{

‘threshold’

：

，

‘feature’

：

fidx

，

‘backup’

：

counter

。

most_common

（

）［

］［

］}

split_data

，

vals

split_dataset

（

dataset

，

fidx

，

）

for

data

，

val

zip

（

split_data

，

vals

）：

node

［

val

］

create_decision_tree

（

data

）

return

node

再然後是兩個工具函式，第一個是單棵子樹對於單個樣本的預測函式，第二個是單個子樹對於批次樣本的預測函式。整體的邏輯和之前大同小異，我們直接看程式碼即可：

def

subtree_classify

（

node

，

data

）：

key

node

［

‘feature’

］

pred

None

thred

node

［

‘threshold’

］

# 如果當前的分支沒有出現過，那麼返回backup

（

data

［

key

］

thred

）

not

node

：

return

node

［

‘backup’

］

isinstance

（

node

［

data

［

key

］

thred

］，

dict

）：

pred

subtree_classify

（

node

［

data

［

key

］

thred

］，

data

）

else

：

pred

node

［

data

［

key

］

thred

］

# 防止pred為空，挑選一個葉子節點作為替補

pred

None

：

for

key

node

：

not

isinstance

（

node

［

key

］，

dict

）：

pred

node

［

key

］

break

return

pred

def

subtree_predict

（

node

，

）：

y_pred

［］

# 遍歷資料，批次預測

for

：

subtree_classify

（

node

，

）

y_pred

。

append

（

）

return

。

array

（

y_pred

）

到這裡其實都是決策樹的部分，決策樹實現了之後，構建森林的部分非常簡單。只做了一件事，就是

隨機樣本和特徵，然後用隨機出的樣本和特徵建立新的決策樹

並進行記錄。

首先我們來看隨機樣本和特徵的函式：

def

get_random_sample

（

，

）：

rnd_idx

。

random

。

choice

（

range

（

。

shape

［

］），

350

，

replace

True

）

ft_idx

。

random

。

choice

（

range

（

。

shape

［

］），

，

replace

False

）

x_ret

［

rnd_idx

］［：，

ft_idx

］

# 將類別拼接到X當中

x_ret

。

hstack

（（

x_ret

，

［

rnd_idx

］））

# 對特徵的下標進行排序

ft_idx

。

sort

（）

return

x_ret

，

。

array

（

ft_idx

）

在這個函式當中，我們設定了每次訓練新的決策樹的時候，使用的樣本數量是350條，特徵數量是15個。透過這種方式保證構建的決策樹的隨機性。

隨機樣本搞定了之後，構建森林的程式碼就很簡單了，透過一重迴圈建立樹並記錄即可：

trees_num

subtrees

［］

for

range

（

trees_num

）：

X_rnd

，

features

get_random_sample

（

X_train

，

y_train

）

node

create_decision_tree

（

X_rnd

）

# 記錄下創建出來的決策樹與用到的特徵

subtrees

。

append

（（

node

，

features

））

我們在建立樹的時候隨機使用了一些特徵，我們在

後續預測的時候需要用同樣的特徵去預測

。所以我們需要記錄下每一棵樹用到了哪些特徵值，並且決策樹當中記錄的只是特徵的下標，所以我們在記錄之前需要先對這些特徵進行排序。

這些函式都實現之後就是predict方法了，根據Bagging的定義，對於每一個樣本，我們都需要獲取每一棵決策樹的分類。然後選擇其中數量最多的那個作為最終的預測結果，這段邏輯也不復雜，相信大家觀看程式碼都能想明白。

def

predict

（

，

trees

）：

y_pred

［］

for

：

ret

［］

for

tree

，

features

trees

：

ret

。

append

（

subtree_classify

（

tree

，

［

features

］））

ret

Counter

（

ret

）

y_pred

。

append

（

ret

。

most_common

（

）［

］［

］）

return

。

array

（

y_pred

）

最後，我們在測試集上驗證一下模型的效果：

準確率65。7%，看起來並不高，和我們預想中有些差距，我們來看下森林當中單棵樹的效果：

會發現有些樹的準確率只有30%多，都沒有達到50%的理論值。這當中的原因很多，一方面是我們選擇特徵的隨機性，導致了我們可能選出來一些效果比較差的特徵。另外一方面和我們訓練的樣本數量也有關係，在這個例子當中，我們

可以使用的樣本數量太少了

，所以隨機性很大，偏差自然也不小。

另外我們可以看下我們呼叫sklearn當中的隨機森林的效果，我們同樣設定森林中決策樹的數量是40，並且選擇Gini指數作為劃分樣本的依據。

我們可以看到它的準確率甚至比我們自己開發的還要低，這也是很正常的，畢竟

模型不是普適的

，會存在一些場景下不太適用或者是效果不好的情況，這是非常正常的。

總結

隨機森林模型最大的特點是隨機，其實其中的原理和AdaBoost非常接近，我們透過隨機樣本和特徵來保證模型的隨機性，以及保證這樣訓練得到的模型是一個弱分類器。弱分類器除了效果弱之外，還有很大的一個特點就是

不能過擬合

，也就是說它們都是欠擬合的模型，自然不可能過擬合。我們透過整合大量弱分類器獲得強大的分類效果。

和AdaBoost比起來，

隨機森林的隨機性更強

，並且對於引數的依賴更高，森林中決策樹的數量，每一棵決策樹需要使用的特徵數量，以及剪枝的策略等等。這些因素都會影響到最終模型的效果，但它也有AdaBoost沒有的優勢，因為隨機性，使得我們可能會

發掘一些常規方法無法發現的特徵組合

或者是樣本當中獨特的資料分佈。這也是為什麼經過合適的調參之後，隨機森林往往能夠獲得非常好的效果。

關於隨機森林的介紹到這裡就結束了，如果喜歡本文，可以的話，請

點個關注

，給我一點鼓勵，也方便獲取更多文章。

機器學習——動手從決策樹實現隨機森林

屬蛇和屬兔的人適合做夫妻麼

三個印度女孩唱的一首歌是什麼名字啊

隨便看看

電動汽車廠牌型號有什麼？

菟絲子，百合，桑葚，黃芪，枸杞泡水喝有什麼用？

鋅的相對分子質？

一山更比一山險的前一句？

機器學習——動手從決策樹實現隨機森林

屬蛇和屬兔的人適合做夫妻麼

三個印度女孩唱的一首歌是什麼名字啊

猜你喜歡

華碩滑鼠線是紅藍綠金怎麼接？

尋找資料統計網站？

利用python對EXCEL文字關鍵詞標註顏色

隨便看看

電動汽車廠牌型號有什麼？

菟絲子，百合，桑葚，黃芪，枸杞泡水喝有什麼用？

鋅的相對分子質？

一山更比一山險的前一句？