业界动态
大模型(LLM)的训练语料信息汇总
2024-11-14 21:40

大模型的训练,大规模的语料是很重要的

大模型(LLM)的训练语料信息汇总

大型语言模型在许多自然语言处理任务上取得了显著进展,研究人员正在转向越来越大的文本语料库进行训练

大多数基于Transformer的大型语言模型 (LLM) 都依赖于英文维基百科和Common Crawl、C4、Github的4个大型数据集。这几个数据集是最常用的,基本上大部分大模型训练过程都会使用到,其中CommonCrawl的数据集比较大,而wiki Pedia的数据集比较规整相对来说比较少

目前Hugging Face上包含中文的语料数据集有954个 在这里插入图片描述

  • 数据来源:C4 是由 Common Crawl 爬虫数据经过清洗后得到的语料库。Common Crawl 是一个从互联网上爬取大量文本的项目。
  • 数据规模:C4 包含来自互联网上超过 3.65 亿个域的超过 1560 亿个 token。
  • 清洗方式:C4 是通过获取 Common Crawl 的 2019 年 4 月快照并应用多个过滤器来创建的,旨在删除非自然英语的文本。过滤器包括去除不以终端标点符号结尾或少于三个单词的行,丢弃少于五个句子或包含 Lorem ipsum 占位符文本的文档,以及删除包含“Dirty,Naughty,Obscene 或 Otherwise Bad Words 清单”上任何单词的文档。此外,还使用 langdetect 删除未被分类为英语且概率至少为 0.99 的文档,因此 C4 主要由英文文本组成。
  • 数据下载:C4 GitHub Repository
  • 数据来源:ROOTS 是一个跨越 59 种语言(46 种自然语言和 13 种编程语言)的 1.6TB 数据集,用于训练拥有 1760 亿个参数的 BigScience 大型公开科学多语言开放访问(BLOOM)语言模型。
    • ROOTS (Responsible Open-science Open-collaboration Text Sources) 这个数据集是一个由 huggingface datasets, dataset collections, pseudo-crawl dataset, Github Code, OSCAR 这几个数据构成的
  • 数据构建:ROOTS 主要包括三个来源:已整理好的数据集、伪爬虫数据集(部分志愿者提交的网站,但还没包括内容,需要利用 URL 去 Common Crawl 的快照中解析对应的内容)、经过预处理的网络爬取数据集 OSCAR。
  • 数据清洗:清洗过程包括去除重复内容、过滤页面代码或爬行工件、过滤 SEO 页面、过滤色情垃圾等。
  • 数据下载:https://huggingface.co/bigscience-data
  • 数据来源:Pile 是一个面向训练大规模语言模型的 825 GiB 英语文本语料库。它由 22 个多样化的高质量子集构成,包括现有的和新构建的子集,许多子集来自学术或专业来源。
  • 数据构建:Pile-CC 使用 jusText 提取 Common Crawl,而 OpenWebText2 是 Pile 提出的信数据集,从 Reddit 提交中提取了 URL 及其相关的元数据。
  • 数据清洗:清洗过程包括去除重复内容、过滤页面代码、过滤 SEO 页面、去除个人信息等。
  • 论文:Pile GitHub Repository
  • 数据下载:https://github.com/leogao2/commoncrawl_downloader
  • 数据来源:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。自2021年3月20日WuDaoCorpora首次发布后,获业界瞩目。目前已有450+"产、学、研"单位的研发团队下载使用。
  • 数据构建: 采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。

1 中文文本分类数据集THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。

http://thuctc.thunlp.org/

2 清华大学NLP实验室开放数据集

这是一个由清华大学[自然语言处理]与社会人文计算实验室维护的中文自然语言处理共享平台,提供了大量的中文文本数据集,包括新闻、论坛、微博、问答等。

http://thuocl.thunlp.org/

https://www.chinesenlp.com/

thuctc.thunlp.org/

3 wiki百科中文

[中文维基百科]是维基百科协作计划的中文*版本,自2002年10月24日正式成立,由非营利组织──维基媒体基金会负责维持,截至2010年6月30日14:47中文维基百科已拥有314,167条条目。

https://zh.wikipedia.org

4. WuDaoCorpora

WuDaoCorpora是北京智源研究院最新构建的高质量数据集,由全球最大的纯文本数据集、全球最大的多模态图文数据集和全球最大的中文对话数据集三部分构成。

https://openi.pcl.ac.cn/BAAI/WuDao-Data/

5 Chinese book

包含13.3万余册中文图书的数据集。包含书名、作者、出版社、关键词、摘要、图书分类号、出版年月等7个字段。提供[百度网盘]下载。可用于机器学习、数据挖掘、自然语言处理等领域。

https://github.com/JiangYanting/Chinese_book_dataset

6 千言

百度联合中国计算机学会自然语言处理专委会、[中国中文信息学会]评测工作委员会共同发起的,由来自国内多家高校和企业的数据资源研发者共同建设的中文开源*数据集。*如果是追求规模,可以关注下。

https://www.luge.ai/

7 天池

天池数据集是阿里集团对外开放的科研数据平台,由阿里巴巴集团业务团队和外部研究机构联合提供,覆盖了电商、娱乐、物流、医疗健康、交通、工业、自然科学、能源等十多个行业。*。*如果是追求规模,同样可以关注下。

https://tianchi.aliyun.com/dataset

8 中华古诗词数据库

最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

github.com/chinese-poetry/chinese-poetry

    以上就是本篇文章【大模型(LLM)的训练语料信息汇总】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/679.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
固安伟业气体:筑牢危化品安全防线 三级排查闭环管理显实效
在固安县伟业气体销售有限公司的储罐区,多个储存危化气体的储罐静静矗立。这里储存有液氧、液氩、液氮、液体二氧化碳等气体,最
原创果然不出中国所料,特朗普对全球征税,高兴不到一天,噩耗就来了
特朗普刚刚为美国争取到了重要的国际投资,然而刚一回头,他却遭遇了意料之外的打击,这让他这次真的是笑不出来了。7月31日,特
网警公布涉汛谣言5大类型,拆解造谣者“工具箱”
法律利剑高悬,让造谣者付出法律代价《中华人民共和国治安管理处罚法》第二十五条有下列行为之一的,处五日以上十日以下拘留,可
融资“前置”金融样本: 中信银行助力硬科技企业穿越“死亡之谷”
党的二十大明确提出“建设现代化产业体系,必须坚持把科技作为第一生产力”。面对科技创新的战略任务,金融如何有效支持科技企业
真好吃丨没有浇头的面条,凭啥日销千碗?
若说早餐是一座城市的良心,那宵夜便是城市的灵魂。在潜江,一碗名为“裸面”的特色宵夜,以其质朴本真的滋味温暖着无数食客的夜
易视顿眼科妇委会、关工委联合各区妇联开展暑期儿童关爱行动
为贯彻落实习近平总书记关于儿童和儿童工作的重要论述,汇聚各方力量做好暑期儿童关爱服务工作,暑期期间,易视顿眼科妇委会、关
阜城县:“三下乡”进大集 服务群众“零距离”
日前,由中共阜城县委宣传部联合阜城县卫健局、阜城县公安局、阜城县农业农村局等有关部门开展的2025年文化科技卫生“三下乡”活
书香溢满乡村 阅读点亮生活 太白县积极探索“农家书屋+”融合新模式
“以前开农家乐全靠老经验,自从有了农家书屋,我常来读乡村旅游类书籍,服务水平上去了,回头客多了,收入也提高了不少。”太白
东渚街道:支部领航,共绘全龄友好新图景
乒乓球轻快地跳跃在崭新的球台上,欢声笑语在精心布置的活动区回荡,书页翻动的沙沙声伴随着祖孙共读的细语……曾经闲置冷清的楼
大众日报丨激活沉睡的“深蓝宝藏”!蓝谷这家企业通过数据钥匙打开海洋产业新大门
在位于蓝谷的青岛国实科技集团,工作人员介绍在建的海洋可信数据空间。“小青,青岛海上的渔船都在哪里?展示一下近期的轨迹图