python實現knn演算法

KNN演算法是機器學習最為簡單的演算法之一，具體的思想這裡不做講解了，可以自行上網查閱。本文主要是用python來模仿sklearn實現knn演算法。

匯入所需的庫

import

numpy

from

math

import

sqrt

from

collections

import

Counter

knn的核心程式碼

def

KNN_classify

（

，

X_train

，

y_train

，

）：

“”“

k：表示knn的中k的值

X_train：訓練集的features

y_train：訓練集的labels

x：新的資料

”“”

assert

X_train

。

shape

［

］，

“k must be valid”

assert

X_train

。

shape

［

］

y_train

。

shape

［

］，

“the size of X_train must equal to the size of y_train”

assert

X_train

。

shape

［

］

。

shape

［

］，

“the feature number of x must to be equal to X_train”

# 計算新來的資料x與整個訓練資料中每個樣本資料的距離

distances

［

sqrt

（

。

sum

（（

x_train

）

））

for

x_train

X_train

］

nearest

。

argsort

（

distances

）

# 對距離排序並返回對應的索引

topK_y

［

y_train

［

］

for

nearest

］

# 返回最近的k個距離對應的分類

votes

Counter

（

topK_y

）

# 統計屬於每個分類的樣本數

return

votes

。

most_common

（

）［

］［

］

# 返回屬於樣本數最多的分類結果

虛擬資料進行驗證

［［

，

］，

［

，

］，

［

，

］，

［

，

］，

［

，

］，

［

，

］］

［

，

］

X_train

。

array

（

）

y_train

。

array

（

）

import

matplotlib。pyplot

plt

。

scatter

（

X_train

［：

，

］，

X_train

［：

，

］，

color

‘red’

）

plt

。

scatter

（

X_train

［

：，

］，

X_train

［

：，

］，

color

‘blue’

）

plt

。

show

（）

。

array

（［

，

］）

KNN_classify

（

，

X_train

，

y_train

，

）

sklearn實現knn分類

from

sklearn。neighbors

import

KNeighborsClassifier

kNN_classifier

KNeighborsClassifier

（）

kNN_classifier

。

fit

（

X_train

，

y_train

）

KNeighborsClassifier

（

algorithm

‘auto’

，

leaf_size

，

metric

‘minkowski’

，

metric_params

None

，

n_jobs

None

，

n_neighbors

，

weights

‘uniform’

）

X_predict

。

reshape

（

，

）

kNN_classifier

。

predict

（

X_predict

）

array

（［

］）

模仿sklearn重新封裝knn

import

numpy

from

math

import

sqrt

from

collections

import

Counter

class

KNNClassifier

：

def

__init__

（

self

，

）：

“”“初始化knn分類器”“”

assert

，

“k must be valid”

self

。

# knn中的k

self

。

_X_train

None

# 訓練資料集在類中，使用者不能隨意操作，故設定為私有

self

。

_y_train

None

def

fit

（

self

，

X_train

，

y_train

）：

“”“根據訓練資料集X_train和y_train訓練kNN分類器”“”

assert

X_train

。

shape

［

］

y_train

。

shape

［

］，

“the size of X_train must equal to the size of y_train”

assert

self

。

X_train

。

shape

［

］，

“the size of X_train must be at least k。”

self

。

_X_train

X_train

self

。

_y_train

y_train

return

self

# 模仿sklearn，呼叫fit函式會返回自身

def

predict

（

self

，

X_predict

）：

“”“給定待預測資料集X_predict，跟sklearn一樣，要求使用者傳來的是陣列格式的資料，

返回表示X_predict的結果向量”“”

assert

self

。

_X_train

not

None

and

self

。

_y_train

not

None

，

“must fit before predict！”

assert

X_predict

。

shape

［

］

self

。

_X_train

。

shape

［

］，

“the feature number of X_predict must be equal to X_train”

# 預測X_predict矩陣每一行所屬的類別

y_predict

［

self

。

_predict

（

）

for

X_predict

］

return

。

array

（

y_predict

）

# 返回的結果也遵循sklearn

def

_predict

（

self

，

）：

“”“給定單個待預測的資料x，返回x_predict的預測結果值”“”

# 先判斷x是合法的

assert

。

shape

［

］

self

。

_X_train

。

shape

［

］，

“the feature number of x must be equal to X_train”

# 計算新來的資料與整個訓練資料的距離

distances

［

sqrt

（

。

sum

（（

x_train

）

））

for

x_train

self

。

_X_train

］

nearest

。

argsort

（

distances

）

# 對距離排序並返回對應的索引

topK_y

［

self

。

_y_train

［

］

for

nearest

［：

self

。

］］

# 返回最近的k個距離對應的分類

votes

Counter

（

topK_y

）

return

votes

。

most_common

（

）［

］［

］

def

__repr__

（

self

）：

return

“KNN（k=

）”

self

。

X_train

。

array

（［［

，

］，

［

，

］，

［

，

］，

［

，

］，

［

，

］，

［

，

］］）

y_train

。

array

（［

，

］）

import

matplotlib。pyplot

plt

。

scatter

（

X_train

［：

，

］，

X_train

［：

，

］，

color

‘red’

）

plt

。

scatter

（

X_train

［

：，

］，

X_train

［

：，

］，

color

‘blue’

）

plt

。

show

（）

。

array

（［［

，

］，［

，

］］）

knn_clf

KNNClassifier

（

）

knn_clf

。

fit

（

X_train

，

y_train

）

KNN

（

）

knn_clf

。

predict

（

）

array

（［

，

］）

python實現knn演算法

睡蓮的花語？

大家為什麼喜歡趙麗穎？

隨便看看

減肥期間每天早晨快走3公里，晚上慢跑3公里，那中午可以做些什麼呢？

那些經常上夜班兩班的人，最後都怎麼了？身體還好嗎？

黃櫨獨枝幼苗造型技巧？

一山更比一山險的前一句？

python實現knn演算法

睡蓮的花語？

大家為什麼喜歡趙麗穎？

猜你喜歡

WB實驗時，細胞裂解液如何配置？

Python深度學習，先學TensorFlow還是先學Keras

深度學習——Tensorflow學習（三）文字分類

隨便看看

減肥期間每天早晨快走3公里，晚上慢跑3公里，那中午可以做些什麼呢？

那些經常上夜班兩班的人，最後都怎麼了？身體還好嗎？

黃櫨獨枝幼苗造型技巧？

一山更比一山險的前一句？