多數是搜尋引擎,比如百度搜狗谷歌……
當然是Python了,之所以Python能在機器學習方面笑傲江湖,全靠他哥倆,numpy和pandas,因為有了他倆,Python處理陣列和矩陣才成為現實。
在資料探勘過程中,資料探索和資料處理方面,主要是pandas,提供了類似行列式DataFrame的資料結構,在讀取外部資料,變換資料,處理空置和異常資料方面有極其強大的作用,而且使用起來非常簡單。是我日常分析資料,處理資料常用的工具。
matplotlib庫是Python資料相簿,提供了強大的圖表功能,在在平面和三維立體圖方面非常便捷,是資料視覺化的機器。
當然,還有機器學習庫scikit-learn,裡面包含了絕大部分演算法,分類,迴歸,降維,還提供了強大的模型最佳化類和模型評估類,也有專門用作文字分析的演算法和特徵提取,特徵選擇等。
當然,Python也有不足之處,就是Python不支援分散式計算,在當然大資料方面,這是致命的不足,不過分散式計算平臺spark,提供了全面的Python介面,可以方便的使用Python來操作spark來處理資料。