业界动态
大模型(LLM)的训练语料信息汇总
2024-11-14 21:40

大模型的训练,大规模的语料是很重要的

大模型(LLM)的训练语料信息汇总

大型语言模型在许多自然语言处理任务上取得了显著进展,研究人员正在转向越来越大的文本语料库进行训练

大多数基于Transformer的大型语言模型 (LLM) 都依赖于英文维基百科和Common Crawl、C4、Github的4个大型数据集。这几个数据集是最常用的,基本上大部分大模型训练过程都会使用到,其中CommonCrawl的数据集比较大,而wiki Pedia的数据集比较规整相对来说比较少

目前Hugging Face上包含中文的语料数据集有954个 在这里插入图片描述

  • 数据来源:C4 是由 Common Crawl 爬虫数据经过清洗后得到的语料库。Common Crawl 是一个从互联网上爬取大量文本的项目。
  • 数据规模:C4 包含来自互联网上超过 3.65 亿个域的超过 1560 亿个 token。
  • 清洗方式:C4 是通过获取 Common Crawl 的 2019 年 4 月快照并应用多个过滤器来创建的,旨在删除非自然英语的文本。过滤器包括去除不以终端标点符号结尾或少于三个单词的行,丢弃少于五个句子或包含 Lorem ipsum 占位符文本的文档,以及删除包含“Dirty,Naughty,Obscene 或 Otherwise Bad Words 清单”上任何单词的文档。此外,还使用 langdetect 删除未被分类为英语且概率至少为 0.99 的文档,因此 C4 主要由英文文本组成。
  • 数据下载:C4 GitHub Repository
  • 数据来源:ROOTS 是一个跨越 59 种语言(46 种自然语言和 13 种编程语言)的 1.6TB 数据集,用于训练拥有 1760 亿个参数的 BigScience 大型公开科学多语言开放访问(BLOOM)语言模型。
    • ROOTS (Responsible Open-science Open-collaboration Text Sources) 这个数据集是一个由 huggingface datasets, dataset collections, pseudo-crawl dataset, Github Code, OSCAR 这几个数据构成的
  • 数据构建:ROOTS 主要包括三个来源:已整理好的数据集、伪爬虫数据集(部分志愿者提交的网站,但还没包括内容,需要利用 URL 去 Common Crawl 的快照中解析对应的内容)、经过预处理的网络爬取数据集 OSCAR。
  • 数据清洗:清洗过程包括去除重复内容、过滤页面代码或爬行工件、过滤 SEO 页面、过滤色情垃圾等。
  • 数据下载:https://huggingface.co/bigscience-data
  • 数据来源:Pile 是一个面向训练大规模语言模型的 825 GiB 英语文本语料库。它由 22 个多样化的高质量子集构成,包括现有的和新构建的子集,许多子集来自学术或专业来源。
  • 数据构建:Pile-CC 使用 jusText 提取 Common Crawl,而 OpenWebText2 是 Pile 提出的信数据集,从 Reddit 提交中提取了 URL 及其相关的元数据。
  • 数据清洗:清洗过程包括去除重复内容、过滤页面代码、过滤 SEO 页面、去除个人信息等。
  • 论文:Pile GitHub Repository
  • 数据下载:https://github.com/leogao2/commoncrawl_downloader
  • 数据来源:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。自2021年3月20日WuDaoCorpora首次发布后,获业界瞩目。目前已有450+"产、学、研"单位的研发团队下载使用。
  • 数据构建: 采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。

1 中文文本分类数据集THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。

http://thuctc.thunlp.org/

2 清华大学NLP实验室开放数据集

这是一个由清华大学[自然语言处理]与社会人文计算实验室维护的中文自然语言处理共享平台,提供了大量的中文文本数据集,包括新闻、论坛、微博、问答等。

http://thuocl.thunlp.org/

https://www.chinesenlp.com/

thuctc.thunlp.org/

3 wiki百科中文

[中文维基百科]是维基百科协作计划的中文*版本,自2002年10月24日正式成立,由非营利组织──维基媒体基金会负责维持,截至2010年6月30日14:47中文维基百科已拥有314,167条条目。

https://zh.wikipedia.org

4. WuDaoCorpora

WuDaoCorpora是北京智源研究院最新构建的高质量数据集,由全球最大的纯文本数据集、全球最大的多模态图文数据集和全球最大的中文对话数据集三部分构成。

https://openi.pcl.ac.cn/BAAI/WuDao-Data/

5 Chinese book

包含13.3万余册中文图书的数据集。包含书名、作者、出版社、关键词、摘要、图书分类号、出版年月等7个字段。提供[百度网盘]下载。可用于机器学习、数据挖掘、自然语言处理等领域。

https://github.com/JiangYanting/Chinese_book_dataset

6 千言

百度联合中国计算机学会自然语言处理专委会、[中国中文信息学会]评测工作委员会共同发起的,由来自国内多家高校和企业的数据资源研发者共同建设的中文开源*数据集。*如果是追求规模,可以关注下。

https://www.luge.ai/

7 天池

天池数据集是阿里集团对外开放的科研数据平台,由阿里巴巴集团业务团队和外部研究机构联合提供,覆盖了电商、娱乐、物流、医疗健康、交通、工业、自然科学、能源等十多个行业。*。*如果是追求规模,同样可以关注下。

https://tianchi.aliyun.com/dataset

8 中华古诗词数据库

最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

github.com/chinese-poetry/chinese-poetry

    以上就是本篇文章【大模型(LLM)的训练语料信息汇总】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/679.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
直播预告 | 4月13日,围观“象马”万人开跑,云观赛攻略来了!
01丹城区域天安路以东、丹峰路以南、丹南路以北区域:在4月13日6时30分至9时期间,建议不开车出入,或提前将车辆停放在外围区域
手机QQ怎么发邮件到别人邮箱-手机QQ发邮件教程手机邮件「手机QQ怎么发邮件到别人邮箱-手机QQ发邮件教程」
我们需要在手机上找到并打开手机QQ应用,如果你的手机没有安装QQ,可以在应用商店搜索“QQ”并进行下载安装。 步骤二:登录QQ账
小米15:重新定义小尺寸旗舰手机新标准小尺寸手机「小米15:重新定义小尺寸旗舰手机新标准」
在当今智能市场,小尺寸旗舰手机逐渐成为了众多追求单手操作便捷性与出色性能用户的心头好。2024年10月29日晚,小米正式推出的小
泰坦之旅永恒余烬(Titan Quest)泰坦之旅 手机版「泰坦之旅永恒余烬(Titan Quest)」
泰坦之旅永恒余烬还原了端游精彩玩法的的策略战争的游戏哦。随时可以体验到很多的与众不同的趣味玩法,武器非常的丰富哦,有着非
最便宜的麒麟990手机,550元王者华为nova6手机主板坏了值得修吗「最便宜的麒麟990手机,550元王者华为nova6」
正在使用这个手机,很满意。 从2020.5.14用到今天,整整2年了,一百分制,可以打95,也是在值得买看到的,当时拼多多1819(感觉
小象优品怎么选手机号「小象优品」
小象优品app是北京源石云科技有限公司上海分公司旗下的一款能让当下年轻人以更优惠的价格购买到自己想要的商品的购物平台软件,
火箭对阵湖人!乌度卡再变阵,8人短轮换重新上线,体能不落下风
北京时间4月1日,今天火箭队在背靠背第2场比赛里,客场挑战湖人队。前一天,火箭队在客场以39分的巨大优势大胜菲尼克斯太阳队,
南平:山城如何点亮影视经济
2023年以来,南平市延平区已经吸引10余部影视剧组前来拍摄,成为新兴影视热门取景地山城如何点亮影视经济东南网4月12日讯(福建
银发出游新选择:康养专列游豫秦
中国青年报客户端讯(张耀华 高庆彪 中青报·中青网见习记者 陈思阳 郑欣宜 记者 周伟)4月16日21时18分,由中国铁道旅行社集团
手机已插卡但显示无服务手机插卡显示无服务「手机已插卡但显示无服务」
若使用的是vivo手机,可以按以下方法处理:携号转网影响:由于各运营商目前已开始携号转网,若携号转网至联通,目前联通新卡均关
相关文章