返回
在大规模语言预训练模型的前沿领域,清华团队取得了进展
111
2023-03-25

近日,清华大学计算机系研究团队与深圳国际研究生院团队合作,在大规模语言预训练模型前沿领域取得新进展,相关研究成果“面向大规模预训练语言模型的参数高效微调”于3月23日被《自然-机器智能》作为封面文章发表。

2018年以来,预训练语言模型(PLM)及其“预训练-微调”方法已成为自然语言处理(NLP)任务的主流范式,该范式先利用大规模无标注数据通过自监督学习预训练语言大模型,得到基础模型,再利用下游任务的有标注数据进行有监督学习微调模型参数,实现下游任务的适配。

越来越多实验表明,规模越大的模型不仅在已知任务上有着更好的表现,同时展现出完成更复杂的未知任务的强大泛化能力,近年出现的GPT-3、ChatGPT等均为大规模预训练模型的代表。

然而,现有对大规模预训练模型的全部参数进行微调实现任务适配的做法,会消耗大量的GPU计算资源和存储资源,严重限制大模型的应用场景。为了应对该挑战,参数高效微调方法逐渐受到关注。与全参数微调相比,参数高效微调方法冻结预训练模型99%以上的参数,仅利用少量下游任务数据微调少于1%模型规模的参数,作为模型插件实现大模型对下游任务的适配,达到媲美全参数微调的性能,并显著降低微调过程的计算和存储开销。

基础模型的“预训练-微调”范式与传统深度学习的对比 清华大学供图

对此,研究团队提出,参数高效微调方法的本质是在对“增量参数”进行调整,因此将此类方法命名为“增量微调”,并基于统一的分析框架对增量微调现有方法进行梳理总结,将现有方法分为三类:添加式、指定式和重参数化方法。为了指导后续的模型架构和算法设计,团队还进一步从参数优化和最优控制两个角度,提出了增量微调的理论框架,为探索和解释增量微调的内在机理提供了可行方案。

该研究工作选择了超过100个自然语言处理任务,对主流增量微调方法进行了全面细致的性能比较和分析,得出多项重要结论。

比如,基础模型随着参数规模的不断增大,在性能显著提高的同时,不同增量微调方法的差异急剧减少,最少仅需要优化万分之八的模型参数即可完成适配;不同增量微调方法可以进行并行或者串行的组合从而达到更优的性能,表明了分布在模型参数空间中的智能能力可以进行组合和泛化;增量微调方法具备良好的任务级别的迁移能力,完成特定任务的“能力”可以表示为轻量级参数化的形式,可以在不同基础模型和不同用户之间共享。

以上研究表明,增量微调是基础模型的重要特性,上述结论将加深对基础模型的认识,为其创新研究与应用提供重要支撑。

据悉,清华研究团队自2018年以来坚持开展语言大模型创新研究,相关工作在全球最大的开源社区GitHub上累计获得超过4000星标关注,曾获自然语言处理领域著名国际会议ACL 2022最佳系统演示论文奖等荣誉。研究团队认为,增量微调技术将是基础模型适配特定任务、场景和用户的重要范式,可更有效地激发以ChatGPT为代表的大规模预训练模型的性能。

论文链接:https://www.nature.com/articles/s42256-023-00626-4

0
0

111

xxxxxxxxx

首页
首页
发现
发现
免费获取资料
原价10元
限时特价:3元/篇
如有疑问请关注微信公众号ggq_bm后咨询客服。
付费下载:
在大规模语言预训练模型的前沿领域,清华团队取得了进展
限时特价:3元/篇原价10元
选择支付方式:
付款成功后即可下载。
如有疑问请关注微信公众号ggq_bm后咨询客服。

您还不是会员

选择会员套餐:

包月(30天)

19.99元

包季(90天)

49.99元

折合

16.66元/月

包月(365天)

99.99元

折合

8.33/月

全站10w+模板资源免费下载,价值99元2G学习干货
选择支付方式:
微信支付
支付宝支付
请确认支付是否已完成
已完成支付
未完成支付
订单查询

零比其

会员有效期至2022-5-23

恭喜您

已成功开通会员

尊享:

·全站资源免费下载

·赠送福利请关注公众号ggq_bm获取