結巴分詞基本可以算作目前最好用且用得人最多的python中文分詞庫。
專案地址:https://github。com/fxsjy/jieba
或者網上搜索
jieba 分詞
就可以找到各種相關教程
特點
支援三種分詞模式:
精確模式,試圖將句子最精確地切開,適合文字分析;
全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
支援繁體分詞
支援自定義詞典
MIT 授權協議