推广 热搜: 公司  快速  中国  上海    未来  企业  政策  教师  系统 

ik分词和jieba分词哪个好_Jieba&IK Analyzer——分词工具的比较与使用

   日期:2025-01-03     作者:dody8q    caijiyuan   评论:0    移动:http://keair.bhha.com.cn/mobile/news/5088.html
核心提示:现有的分词工具包概览现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可

现有的分词工具包概览

现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解。

常见开源的中文分词工具

接下来,我具体介绍Jieba和IK Analyzer的使用。

一、jieba的分词使用

1、安装jieba

安装jieba

2、三种分词模式及比较

编写代码对 “古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计” 进行分词

import jieba

seg_list1 = jieba.cut("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计", cut_all=True) # 全模式

seg_list2 = jieba.cut("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计", cut_all=False) # 精确模式

seg_list3 = jieba.cut_for_search("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计") # 搜索引擎模式

print("Full Mode: " + "/ ".join(seg_list1)) # 全模式

print("Default Mode: " + "/ ".join(seg_list2)) # 精确模式

print(", ".join(seg_list3)) # 搜索引擎模式

结果如下图所示:

分词结果1

可以看到精确模式与搜索引擎模式的分词结果比全模式更准确。

3、添加自定义词典

在对“互联网+背景下古代娱乐项目综合体验平台的设计与实现——基于微信小程序和Web网页”这一文本进行分词的时候,发现“互联网+”与“微信小程序”没有被正确分出来,如下图所示:

添加词典前

添加自定义词典的方式帮助jieba正确地分出这些新词。

①载入词典

用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径

本文地址:http://keair.bhha.com.cn/news/5088.html    康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号