資料探勘過程中你使用最多的工具是什麼？

高飛1960979472018-02-19 17:04:28

多數是搜尋引擎，比如百度搜狗谷歌……

愛資料的小司機2018-07-07 10:22:41

當然是Python了，之所以Python能在機器學習方面笑傲江湖，全靠他哥倆，numpy和pandas，因為有了他倆，Python處理陣列和矩陣才成為現實。

在資料探勘過程中，資料探索和資料處理方面，主要是pandas，提供了類似行列式DataFrame的資料結構，在讀取外部資料，變換資料，處理空置和異常資料方面有極其強大的作用，而且使用起來非常簡單。是我日常分析資料，處理資料常用的工具。

matplotlib庫是Python資料相簿，提供了強大的圖表功能，在在平面和三維立體圖方面非常便捷，是資料視覺化的機器。

當然，還有機器學習庫scikit-learn，裡面包含了絕大部分演算法，分類，迴歸，降維，還提供了強大的模型最佳化類和模型評估類，也有專門用作文字分析的演算法和特徵提取，特徵選擇等。

當然，Python也有不足之處，就是Python不支援分散式計算，在當然大資料方面，這是致命的不足，不過分散式計算平臺spark，提供了全面的Python介面，可以方便的使用Python來操作spark來處理資料。

為什麼孔明在《出師表》中說：“臨表涕零”？他激動的時候會嘩啦啦地流涕涕，不流淚嗎？