推广 热搜： 金公司杯中国快速行业上海未来设备企业

首个开源联邦大模型 FATE-LLM，突破数据与算力壁垒

日期：2024-12-01 移动：http://keair.bhha.com.cn/mobile/quote/3589.html

首个开源联邦大模型 FATE-LLM，突破数据与算力壁垒大模型

题图摄于北京奥林匹克公园

由于微信公众号更改规则，请点击上面“亨利笔记”关注本号，再点击右上角”..."，选择“设为星标”，以免错过文章更新。

以 ChatGPT 为代表的大型语言模型（LLM）已成为最热门的技术话题。大模型是指具有数十亿甚至多参数的深度神经网络，可在自然语言处理任务上表现出惊人的能力，如对话生成、文本摘要等。大模型面对的挑战除了需要巨大的计算资源外，还有一些伦理和社会问题，如数据隐私泄露等。业内首个开源联邦大模型 FATE-LLM 解决了使用隐私数据来对大模型进行微调（Fine-tune) 和定制化的问题，为企业的大模型应用开辟了新的模式。本文转发 FATE 开源社区的文章，供关注大模型领域的读者参考。

01

FATE v1.11版本发布，集成首个开源联邦大模型FATE-LLM

随着 ChatGPT 对话机器人的横空出世，人工智能大模型在学术界、工业界以及投资界掀起了讨论热潮，一时之间，各路大模型的相继出现让人目不暇接。今日，联邦学习隐私计算开源平台 FATE (Federated AI Technology Enabler）正式上线发布新版本 FATE v1.11，推出了联邦大模型 FATE-LLM 功能模块。

基于此技术方案，多个企业可以通过FATE内置的预训练模型如GPT-2进行横向联邦，利用各自隐私数据进行联邦大模型微调。过程中使用了安全聚合（Secure Aggregation）机制对各家模型数据进行保护。相对单一企业有限训练样本，通过联邦大模型技术综合多家的训练样本，可以显著提升模型效果和稳健性。经过实践测试，FATE-LLM 可以支持至少 30 家参与方同时进行横向联邦。

用户可访问以下网址获取发布版：

项目地址：https://github.com/FederatedAI/FATE/releases/tag/v1.11.0

02

为什么要做联邦大模型

FATE开源社区技术指导委员会主席杨强教授表示：“FATE-LLM的开源，是为了解决当前大模型应用的两个瓶颈问题。首先，是构建和使用大模型时的数据隐私保护问题。多个数据源联合训练一个大模型时极有可能会暴露每个数据源的用户隐私和影响信息安全，再一次凸显了隐私保护的必要性和紧迫性。

其次，利用联邦学习来解决可用数据数量不足的问题，也为业界提供了一个前瞻性的解决方案。正如来自阿伯丁大学、麻省理工大学、图宾根大学的 Pablo Villalobos 等6位计算机科学家在论文《我们会用完数据吗？机器学习中数据集缩放的局限性分析》中预测，ChatGPT 等大语言模型训练所需的高质量语言数据将在2026年之前耗尽1。目前大多数高质量数据来源于公域数据，也就是说当公域数据消耗殆尽时，如何在保护数据隐私的前提下，合规合法地利用手机等终端设备上的私域数据，将是解决大模型训练数据不足问题的关键。

这次发布的 FATE-LLM，是利用联邦学习技术来解决以上问题的初步成果，也是FATE 社区合作伙伴和我们的共识。未来，我们还将研究在基于大模型的应用中，如 ChatGPT，在与亿万用户的互动聊天中如何保护提问者的隐私安全问题。”

03

FATEv1.11功能介绍

1. 亮点概述

1）FATEv1.11 集成了业界主流的大模型，为用户提供多种选择，其中包含 GPT-2、BERT、RoBERTa 等常用大语言模型。这些模型已经被广泛应用于自然语言处理、推荐系统等领域，并在不同的任务中获得了良好的效果。此外，FATE v1.11还提供主流 parameter-efficient 方法集成，用户可以直接在提供的模型类型上配置 Houlsby Adapter、LoRA、IA3 等业界 Adapter 主要方法进行微调，从而进一步提高联邦大模型通讯效率。相关数据请见下方数据一览。

2）model_zoo 中的 PELLM Model 类提供了强大的语言模型，可以用于各种自然语言处理任务。用户能快速地配置联邦大模型，从而简化工作流程，提高模型的效率和准确性。这种模型的应用场景非常广泛，包括文本分类、情感分析等。由于FATE已经在大模型联邦化方面做了大量的工作，用户可以在这些联邦大模型的基础上进行微调，以适应自己的业务场景。

2. 功能一览

1） LLM支持:

2）Homo Trainer 类改进：LLM 的 Homo Trainer 类得到了进一步的改进，用户现在可以指定添加 CUDA 设备进行训练，并且可以通过多 GPU 设备使用 Data Parallel 来加速训练。

3）Tokenizer Dataset 功能升级：LLM 的 Tokenizer Dataset 功能也得到了升级，现在更好地适配了 HuggingFace Tokenizer 的使用，可以更加高效地处理自然语言文本数据。

3. 数据一览

1）目前支持的模型及其参数量:

目前版本支持各类经典语言模型，参数量从几十M 到 1.5B 不等。以下给出这些的模型参数量（由于各个模型都有多个版本，仅给出常用版本的参数量）：

2）目前支持的Adapter方法及其训练参数占比：

以标准的GPT2模型为例，目前使用adapter进行联邦学习，各个adapter参与联邦的参数量占语言模型的比例如下：

3) 训练时间对比

以下是使用各个adapter的训练时间，与使用完整模型finetune的训练时间的对比(每个epoch训练时间，单位为秒）。可见，adapter + 语言模型的联邦形式，可以极大地节省训练时间。

04

开源开放，大模型发展的必经之路

FATE v.1.11为联邦大模型初步版本，未来FATE开源社区还将针对联邦大模型的算法、效率、安全等方面进行持续优化，并持续推出后续版本，路线图如下：

未来，联邦大模型将有机会充分利用分散在各个组织的算力和数据，融合联邦学习和AIGC相关技术，实现异构数据分布式安全训练。我们相信这将为自然语言处理，语音识别，机器视觉等AI领域带来全新的技术范式。联邦大模型未来将有机会重塑金融、零售、工业等多个行业数字化形态。比如金融领域中智能客服、内容风控、金融资讯情感分析，文本意图识别，营销场景智能创意生成和优化等场景将会得到显著的效果提升。

取之于开源，用之于开源。FATE开源社区欢迎更多的用户和开发者加入。在获得项目发展成果的同时，以参加项目等方式回馈社区。形成良性循环，推动社区生态健康发展！

参考资料：

1. Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning.

https://arxiv.org/abs/2211.04325

欢迎加入FATE联邦学习官方交流群，添加FATE小助手微信号（FATEZS001）即可。

END

本文地址：http://keair.bhha.com.cn/quote/3589.html 康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关最新动态

推荐最新动态

点击排行