jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。
要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法:
1.全自动安装:easy_install jieba
或者 pip install jieba
/ pip3 install jieba
2.半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
3.手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
作者介绍其采用的算法:
1.基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
3.对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法