【導讀】:本文是PSO系列的第四篇,是一個對FS的特徵與實驗分析。

歡迎大家關注我們的網站和系列教程:http://www.tensorflownews.com/,學習更多的機器學習、深度學習的知識!也可以搜尋:磐創AI,關注我們的文章。

作者:Geppetto

前面我們介紹了特徵選擇(Feature Selection,FS)與離散化資料的重要性,介紹了PSO在FS中的重要性和一些常用的方法、FS與離散化的背景,介紹了EPSO與PPSO方法。今天我們將介紹與實驗相關的細節,包括資料集、用於與我們方法進行比較的基線方法、引數設定、終止標準以及實驗的硬體配置。

A. 實驗設計

(1) 資料集

為了在高維資料上測試PPSO的效能,我們使用了在

http://www。

gems-system。org

上提供的10個基因表達資料集。表1描述了關於這些資料集的詳細資訊。

粒子群最佳化演算法(PSO)之基於離散化的特徵選擇(FS)(四)

表1。資料集

(2) 基線法

為了驗證PPSO在離散化和FS中的有效性,我們比較了KNN在PPSO、原始資料集和EPSO轉換資料集上的分類效能。我們還將PPSO與兩階段方法(PSO-FS)進行了比較,以確定單階段方法的效能是否優於兩階段方法。在PSO-FS中,MDL用於在應用PSO進行特徵子集選擇之前對資料進行離散化。我們還比較了幾種傳統的兩階段方法,將MDL與LFS進行離散化,採用一致性方法和基於相關的FS (CFS)方法。我們還將PPSO與MChi2進行了比較,MChi2是一種典型的透過離散化處理FS的方法。

(3) 引數設定與終止條件

表2描述了三種比較方法PSO-FS、EPSO和PPSO的引數設定。由於搜尋空間的大小與問題的維數成正比,問題的維數因資料集而異。10個數據集中的特徵數量從2000到12000,導致搜尋空間的大小非常不同。因此,我們將總體大小設為特徵數除以20,由於計算機記憶體有限,最大限制為300。最大迭代次數被設定為70。然而,當gbest在10次迭代之後沒有得到改進時,也應用了早期停止。PPSO中的比例標準是gbest在10次迭代後沒有得到改善,當前gbest適應度至少比以前gbest適應度好1%。對於多類資料集,PPSO的初始大小為150。但是,根據我們的實驗,這個值對於二進位制類問題也是一個很好的初始大小,因為PSO能夠在演化過程中選擇適當的特徵子集大小。每次滿足標度的標準時,初始大小就增加50。

粒子群最佳化演算法(PSO)之基於離散化的特徵選擇(FS)(四)

表2。PSO引數設定

(4) 實驗配置

作為一種包裝方法,PPSO可以使用任何學習演算法的分類效能來評估粒子。本文使用k = 1的KNN,因為它簡單、快速、引數少。

因為這些資料集小樣本大小,我們使用10倍交叉驗證(CV)產生訓練集和測試集。在每一個CV,使用單一的形式使用測試集和剩下的九倍,形成訓練集。測試集用於評估產生的離散化和FS基於訓練集的每個解決方法。在進化過程中,一個內部迴圈的十倍的CV訓練集用於fitness評估。因此,每一種方法都包含了推薦的兩個CV迴圈,以避免FS偏差。

為了消除統計上的差異,每個方法都對每個資料集執行30次,每次都有不同的隨機種子。由於每個資料集使用10倍CV分解為訓練和測試集,每個方法總共執行300次。實驗是在PC上執行的英特爾核心i7-4770 CPU @ 3。4 GHz和8-GB記憶體。用統計學的威克森顯著性檢驗和5%顯著性水平進行比較,比較了各方法的30次執行結果。

B . 實驗結果

表3顯示了PSO-FS、EPSO和PPSO的結果。每個方法在30次執行中返回的平均特徵子集大小顯示在“size”列中。用“full”表示KNN精度的最佳、平均和標準偏差。在第4和第5列中顯示了所有連續的特性,或者使用每個比較方法轉換的資料。所報告的結果是基於前面介紹的平衡精度公式的測試精度。

“+”或“−”意味著結果比PPSO明顯更好或更糟。“ = ”表示他們有相似的表現。

粒子群最佳化演算法(PSO)之基於離散化的特徵選擇(FS)(四)

表3。實驗結果

C . PPSO結果分析

從表3中可以看出,PPSO選擇的特徵的平均數明顯小於特徵的總數。PPSO在4個數據集中選擇的特性總數不到1%,在5個數據集中選擇不到2%,在SRBCT中選擇4。6%。一般來說,PPSO在六個資料集上實現最小的子集。

使用離散和選擇的特性,PPSO比在所有10個數據集中使用所有連續的特性獲得更好的分類效能。在10個數據集中有7個的準確度提高了5%以上,在9Tumor中提高了23%。

結果表明,透過同時離散和選擇單個階段的相關特徵,PPSO可以為高維資料集生成更強大、更緊湊的表示。

D . 總結

在本系列文章中我們提出一種利用BBPSO在單階段離散化和FS的整合方法。透過提出一種新的方法PPSO,採用一種新的PSO表示法來選擇分割點來離散多個特徵,同時選擇特徵。與使用完整的原始特性集EPSO和兩階段方法(PSO-FS)進行比較。

實驗結果表明,PPSO可以同時離散多個特徵,並選擇數量更少的相關特徵,具有更好的識別能力。PPSO與PSO-FS的比較表明,離散化與FS在單個階段結合更有效。與EPSO相比,PPSO獲得的結果是相同的或更好的,但功能的數量更少。進一步的分析也表明,與比較的PSO方法相比,PPSO更通用、更可靠。

將PPSO與四種代表兩階段和一階段方法的傳統方法MDL+LFS、MDL+CON、MDL+CFS、MChi2進行了比較。兩個實驗的結果表明,在大多數情況下,PPSO的效能比MDL+LFS、MDL+CON和MChi2和類似的效能要好得多。結果還表明,在處理高維問題時,PPSO比MDL+CFS和MChi2具有更好的可擴充套件性。對KNN和NB的比較結果表明,與訓練過程中使用的分類器相比,PPSO得到的解可以推廣到其他分類器。

作為一種二進位制離散化方法,PPSO在需要被離散成多個區間的資料上可能不能很好地工作。此外,還計算了基於MDLP的潛在點。因此,在今後的工作中,我們將研究如何利用其他的演算法進行切入點計算、多區間離散化以及最佳化搜尋過程的不同方法。

實證結果表明,PPSO的執行時間可擴充套件到具有10000+特徵的高維資料。但是,由於PPSO表示是靜態的,並且與特性集大小成正比,因此對具有10萬多個特性的資料集應用PPSO可能會受到記憶體容量的限制。此外,由於可能的解決方案的指數增長,搜尋空間將變得更大,因此可能需要用不同的方法來解決這個問題。將來,我們將研究如何在PPSO中使用動態表示來克服這個限制。

【參考文獻】:

文章:“A New Representation in PSO for

Discretization-Based Feature Selection”

作者:Binh Tran, Student Member, IEEE, Bing Xue, Member, IEEE, and Mengjie Zhang, Senior Member, IEEE

最後,對深度學習感興趣,熱愛Tensorflow的小夥伴,歡迎關注我們的網站!http://www.tensorflownews.com。我們:磐創AI。