为了有效应对大数据引起的挑战,同时充分利用大数据带来的机遇,中国计算机学会于2012年10月成立“中国计算机学会大数据专家委员会”(CCF Expert Committee on Big Data)。光阴荏苒,转眼间10年已过,为总结过去,开拓未来,特邀请大专委委员撰写了纪念文稿,畅谈各自与大专委共同成长的历程、参与大专委的感受、对大专委的贡献或对大数据技术发展的感想。
大专委常务委员
CCF大数据专委常委和高性能专委委员,北航特聘教授,中国大数据技术大会程序主席,2017年中国大数据行业领军人物。目前为清华大学计算机系博士研究生,白海科技创始人兼CEO,有超过15年的分布式计算、超大集群、大数据分析、机器学习等经验。曾在联想研究院、百度、明略科技等工作。并拥有多篇大数据相关的专利和论文。多次在世界互联网大会、BDTC、CNCC、InfoQ等邀请为嘉宾分享大数据与人工智能的应用。
CCF(中国计算机学会)大数据专家委员会(大专委)已成立10周年。大专委成立的宗旨是探讨大数据的核心科学与技术问题,推动大数据学科方向的建设与发展,构建面向大数据产学研用的学术交流、技术合作与数据共享平台,并对相关政府部门提供战略性的意见与建议。
在过去的10年里,大专委在推动大数据领域的发展和创新方面取得了巨大的成就。
我非常荣幸于2015年跟梅宏院士、武永卫教授等老师一起加入了CCF大数据专委,共同与各界的专家学者共同探讨了大数据领域的核心科学与技术问题,分享最新的研究成果和产业应用案例。大专委汇聚了来自学术界和工业界的多元化专家,他们在大数据领域具备极强的知识广度和经验深度,在各类大数据问题的解决和探索中,给了我丰富启发。在这个交流碰撞过程中,我深深感受到了大专委的使命和价值,以及对我个人职业发展的重要意义。
作为大专委委员,我积极参与专委的各项活动,每年都参与BDTC(中国大数据技术大会),作为组织者帮助大会召集工业界演讲嘉宾;多次协助BDCI大赛的筹办,参与赛题的准备,并担任大赛评委。特别是后来被选举为大专委常委后,参与的工作更多元化了,组织了多种类型的论坛和专题报告,每次跟程老师、杜老师、窦老师、查老师等老师讨论沟通,使我学到了很多企业界难以学到的知识,收益颇丰。
参与大数据专家委员会的工作让我深刻体验到了大数据技术对社会发展的巨大潜力。加入大专委8年来,我经常与各位专委委员讨论大数据研究和应用的现状及未来方向相关的议题,这一领域问题的广度和复杂性持续激发着我们的探索欲,激励这我们不断深入研究。从机器学习和数据挖掘到数据可视化和云计算,大数据涵盖的主题和技术范围非常广泛。大数据领域正在迅速发展,并且一直在取得新的进步。我们在大专委共同见证了数据爆炸时代的到来,以及机器学习、深度学习、通用人工智能、大模型等前沿技术的快速发展。这些技术的应用正在改变着我们的生活方式、商业模式和社会治理方式。
我对大数据技术的未来发展感到无比兴奋,并且坚信它将持续推动社会的进步和创新。如今GPT4.0、LLaMA等基础大模型的出现,开启了大数据应用的新纪元。这些基础大模型具备了惊人的语言理解和生成能力,为各个领域的大数据应用带来了巨大的推动力。最典型的场景即对对话领域,大模型在知识问答、智能客服等领域展现了巨大潜力。模型通过学习大量的对话数据,能够生成自然流畅的回复并具备一定的语义理解能力。它们能够模拟人类对话,与用户进行交互,解答问题,提供服务。这对于改善用户体验、提升工作效率和实现智能化的客户服务至关重要。
然而,现有的通用模型往往无法满足特定领域的需求,因为不同领域之间的语言表达和信息结构差异较大,为获得良好的表现,需要利用具体领域数据对基础大模型进行微调。
企业在微调构建专属模型方面面临较多挑战。首先是技术和应用门槛方面,大模型微调的技术工程流程相对复杂,需要针对不同的垂直领域进行模型的选择、对数据进行预处理、训练监督微调、训练奖励模型和强化学习等步骤。这些步骤对于不同的任务和数据都需要进行精细的工程调整,需要耗费大量的时间和精力。其次,模型的可控性也面临挑战。越来越多企业追求微调大模型的“可控“,一方面要保证模型专属可控,可调节参数和模型结构,另一方面输出结果也需要可控,以确保内容准确、健康、正面。
为了加速大模型的落地应用、促进大数据的创新,我们推出了专属可控大模型应用加速解决方案IDP LM,致力于帮助企业解决降低大模型微调和应用的门槛,高效构建专属可控的大模型,加速大模型的应用和业务创新。
我可以期待在这个新纪元中,通过提供易用的专属大模型构建工具平台和优质的领域预训练模型,推动大模型在医疗、金融等典型领域的应用、演进和优化,为各个领域的大数据应用开辟更广阔的前景。
作为大专委委员,在为大数据广阔未来而激动的同时,我也深刻地意识到,大数据技术的应用也带来了诸多挑战,如利用效率的提升,数据安全的保护等。为了更好地推动大数据的高效、大规模利用,我们需要对大数据技术进行评估,识别它带来的潜在风险,并对风险进行预防和管理。通过不断地探索和实验,我们可以找到更好的应用方法,以提高大数据技术的效率和性能。另外为了满足数字化时代的需求,我们需要对数据的安全和隐私进行充分的保护。我们需要推动大数据学科的发展、构建一个产学研的共享平台,为数字新经济构建一个坚实的基础设施。
在全面数智化转型的时代,我坚信大专委接下来的10年,将是更加辉煌的10年。作为大数据领域的权威组织,大专委将继续发挥其引领和推动的作用,以适应快速变化的技术和应用需求。祝愿大专委再创辉煌、更上一层楼。
CCF大数据专家委员会部分工作安排
第十一届CCF大数据学术会议:2023年9月8日-10日,南京
CCF大数据专家委员会2023年度工作会议暨换届大会:2023年9月9日,南京
2023 BDTC专题论坛 | 数据驱动创新,治理释放效能:2023年9月,上海
2023 BDTC专题论坛 | 数字化时代与企业创新:2023年10月,上海