資料探勘過程中你使用最多的工具是什麼?高飛1960979472018-02-19 17:04:28

多數是搜尋引擎,比如百度搜狗谷歌……

資料探勘過程中你使用最多的工具是什麼?愛資料的小司機2018-07-07 10:22:41

當然是Python了,之所以Python能在機器學習方面笑傲江湖,全靠他哥倆,numpy和pandas,因為有了他倆,Python處理陣列和矩陣才成為現實。

在資料探勘過程中,資料探索和資料處理方面,主要是pandas,提供了類似行列式DataFrame的資料結構,在讀取外部資料,變換資料,處理空置和異常資料方面有極其強大的作用,而且使用起來非常簡單。是我日常分析資料,處理資料常用的工具。

matplotlib庫是Python資料相簿,提供了強大的圖表功能,在在平面和三維立體圖方面非常便捷,是資料視覺化的機器。

當然,還有機器學習庫scikit-learn,裡面包含了絕大部分演算法,分類,迴歸,降維,還提供了強大的模型最佳化類和模型評估類,也有專門用作文字分析的演算法和特徵提取,特徵選擇等。

當然,Python也有不足之處,就是Python不支援分散式計算,在當然大資料方面,這是致命的不足,不過分散式計算平臺spark,提供了全面的Python介面,可以方便的使用Python來操作spark來處理資料。