推广 热搜:   公司  快速  中国  企业    行业  设备  上海  未来 

中文语料库整理

   日期:2024-11-10     移动:http://keair.bhha.com.cn/mobile/quote/650.html
中文自然语言处理开放平台

由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。 语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15 文本语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

中文语料库整理

sogou文本分类语料库

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 地址: http://www.sogou.com/labs/dl/c.html

中文Web信息检索论坛

中文Web信息检索论坛(Chinese Web Information Retrieval Forum,简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。

CWT(Chinese Web Test collection, 中文Web测试集)

ComPaper10th Computer Paper collection with more than 10 thousand papers CWT70th      Chinese Web Test collection with 70 thousand pages      CWT70th顺序读取程序 CWT200g      Chinese Web Test collection with 200 GB web pages.      CWT20g_of_200g      CWT200g样例下载      CWT200g顺序读取程序

CWT相关工具  

中文网页分类训练集

CCT2006 2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应 类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页, 分布在8个类别中。 下载 CCT2002-v1.1 2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1, 说明。 是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生, 人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。 它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。 下载

中文网页分类相关工具


转载请注明  转载自 阿龙の异度空间

本文链接地址: http://blog.yidooo.net/archives/2509.html

本文地址:http://keair.bhha.com.cn/quote/650.html    康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号