专栏 | 中文分词工具测评
游客
2025-07-15 20:02:10
63
引言
分词对于研究和应用中文自然语言处理的童鞋来说,都是一个非常非常基础的部件,分词的质量直接影响到后续词性标注、命名实体识别、句法分析等部件的准确性。作为一个基础部件,学术界对分词的研究已经非常久了,市面上流行的几大开源分词工具也被工业界的各大公司应用很多年了。最近,中文分词随着一篇博文的发表被推到了风口浪尖,引发众多大牛在微博、微信群里的激烈讨论。本文并不想对这篇博文进行过多评论,只是想用公开的数据集对各大分词工具进行一个客观地测评,以供大家在选择工具时有所依据。
中文分词工具
本文选择了4个常见的分词工具,分别是:哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba,为了对比分词速度,选择了这四个工具的c++版本进行评测。
1、LTP https://github.com/HIT-SCIR/ltp
2、NLPIR https://github.com/NLPIR-team/NLPIR
3、THULAC https://github.com/thunlp/THULAC
4、jieba https://github.com/yanyiwu/cppjieba
测试数据集
1、SIGHAN Bakeoff 2005 MSR, 560KB
2、SIGHAN Bakeoff 2005 PKU, 510KB
3、人民日报 2014, 65MB
前两个数据集是SIGHAN于2005年组织的中文分词比赛所用的数据集,也是学术界测试分词工具的标准数据集,本文用于测试各大分词工具的准确性,而最后一个数据集规模较大,用于测试分词速度。
测试方法
用SIGHAN Bakeoff 2005比赛中所自带的score脚本、test gold数据和training words数据对4个工具进行准确性测试,具体使用方法可参考:http://sighan.cs.uchicago.edu/bakeoff2005/data/icwb2-data.zip中的readme文件。
测试硬件
Intel Core i7-6700 CPU@3.40GHz*8
测试结果
1、MSR测试结果
2、PKU测试结果
3、人民日报测试结果
测试结论
1、一个好的分词工具不应该只能在一个数据集上得到不错的指标,而应该在各个数据集都有很不错的表现。从这一点来看,thulac和ltp都表现非常不错。
2、因为分词是个基础部件,分词速度对于一个分词工具来说也至关重要。从这一点来看,thulac和jieba表现的不错。
3、大家都知道,基本的分词依赖模型,但真正想用分词工具来解决应用层面上的问题,都需要借助于词库,本文测试的4个工具均支持用户自定义词库。
4、特别需要强调的一点是,哈工大的ltp支持分词模型的在线训练,即在系统自带模型的基础上可以不断地增加训练数据,来得到更加丰富、更加个性化的分词模型。
总结
争论是一个好的事情,尤其是不同背景的人站在不同的角度对同一个事情进行争论,常常会碰撞出知识的火花,对于这个领域的发展有更好地推动作用。希望类似的争论可以多一些,让刚刚入门的或者准备入门的童鞋可以更加客观地看到一个领域的发展现状,而不是盲目地被一些热门的词蒙蔽双眼,失去判断。对于分词来说,最近几年大热的深度学习模型,并不会比之前传统的crf模型有多大性能上的突破,所以大家应该理性地看待深度学习以及人工智能,捧得越高可能摔得越惨。
参考文献
1、Zhongguo Li, Maosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation. Computational Linguistics, vol. 35, no. 4, pp. 505-512, 2009.
2、Meishan Zhang, Yue Zhang, Guohong Fu. Transition-Based Neural Word Segmentation
3、Meishan Zhang, Zhilong Deng,Wanxiang Che, and Ting Liu. Combining Statistical Model and Dictionary for Domain Adaption of Chinese Word Segmentation. Journal of Chinese Information Processing. 2012, 26 (2) : 8-12 (in Chinese)
4、Wanxiang Che, Zhenghua Li, and Ting Liu. LTP: A Chinese Language Technology Platform. In Proceedings of the Coling 2010:Demonstrations. 2010.08, pp13-16, Beijing, China.
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《专栏 | 中文分词工具测评》
标签:
- 搜索
- 最新文章
-
- 9月1日起,电动车、三轮车、四轮车上路“3禁5罚”新规,车主注意
- 如何在两个月内将新网站权重提升到4(实用技巧帮助新站点快速提升权重)
- 企业优化四步轻松搞定(用科技赋能企业,提升效率与利润)
- 网站内部优化策略——提升用户体验的最佳途径(实用技巧与案例分析,助你打造用户友好的网站)
- 《捕风追影》全球票房破1亿美元,大赚1亿人民币,北美贡献很少
- 如何优化单页网站,提升用户体验和转化率(掌握单页网站优化技巧,轻松提升流量和销售额)
- 如何通过SEO优化让网站排名靠前?(掌握SEO的关键技巧提升网站排名)
- 探究为什么SEO优化也要收费(SEO优化的价值与成本分析)
- 中国智能手机市场洗牌:华为第五,小米重回第二,第一名遥遥领先
- 响应式网站的设计与实现(让你的网站适配不同设备)
- 热门文章
-
- 苹果20周年大招来了!首款曲面屏iPhone曝光,居然长这样?
- 小米HyperOS3.0即将发布,流畅度与影像功能大幅升级
- 预算1600左右!红米Note15Pro+还是Turbo4Pro?关键就是这两点
- 0.92GB大更新!鸿蒙5.1持续推送3款机型先尝鲜,多款APP日常更新
- 大满贯单打冠军确定!产生2个意想不到和2个事实,世界乒坛新格局
- 天津,未来一周持续多雨,气温逐步下降!25号~30号天气预报!
- OPPO与荣耀手机怎么选?多维度对比帮你理清需求
- 女子两次举报鲁迅夹烟墙画,身份被扒,当地文旅回应网友拍手叫好
- 0.95GB!vivo持续推送新版本覆盖更多机型OriginOS6好消息不断
- 华为Mate40更新鸿蒙4.2.0.180,1个多G的大包,老机型又回春?
- 8岁男孩北海走失后续:走失9天,知情人曝惊人线索,最后画面揪心
- 14号台风趋向华南?新一轮超强降雨来袭,暴雨波及10省市
- 9月1日起,电动车、摩托车、三轮车上路“5必查”,违者处罚明确
- 提高网站收录的小技巧(15种有效方法让你的网站快速被搜索引擎收录)
- OPPO超大杯旗舰曝光:6.8x直屏+2亿主摄+双潜望,或明年3月发布
- 苹果13、14、15、16手机升级ios18.6.2系统,续航测试结果反馈。
- 网页标签在SEO优化中的重要性(如何利用网页标签提升网站排名)
- 如何将SEO优化推广应用于不同行业中(掌握SEO优化策略,实现行业营销效果的最大化)
- 河南!本轮高温确定已完成,明天8月27号天气预报,重点分布如下
- 彻底告别续航焦虑?真我15000mAh新机曝光,或8月28日发布!
- 热门tag