现有的分词工具包概览
现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解。
常见开源的中文分词工具
接下来,我具体介绍Jieba和IK Analyzer的使用。
一、jieba的分词使用
1、安装jieba
安装jieba
2、三种分词模式及比较
编写代码对 “古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计” 进行分词
import jieba
seg_list1 = jieba.cut("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计", cut_all=True) # 全模式
seg_list2 = jieba.cut("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计", cut_all=False) # 精确模式
seg_list3 = jieba.cut_for_search("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计") # 搜索引擎模式
print("Full Mode: " + "/ ".join(seg_list1)) # 全模式
print("Default Mode: " + "/ ".join(seg_list2)) # 精确模式
print(", ".join(seg_list3)) # 搜索引擎模式
结果如下图所示:
分词结果1
可以看到精确模式与搜索引擎模式的分词结果比全模式更准确。
3、添加自定义词典
在对“互联网+背景下古代娱乐项目综合体验平台的设计与实现——基于微信小程序和Web网页”这一文本进行分词的时候,发现“互联网+”与“微信小程序”没有被正确分出来,如下图所示:
添加词典前
添加自定义词典的方式帮助jieba正确地分出这些新词。
①载入词典
用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径