找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 6|回复: 0

破解可塑性瓶颈,清华团队新作刷榜持续学习:可迁移任务关系指导训练

[复制链接]

0

主题

0

回帖

0

积分

管理员

积分
0
发表于 12 小时前 | 显示全部楼层 |阅读模式
   

清华团队用「任务关系」破解AI学完就忘的难题,提出的H-embedding guided hypernet先算新旧任务的亲疏关系,再让超网络按关系生成专属模型参数,低维小向量即插即用,在ImageNet-R等测试把遗忘率再降一成。

  

  

持续学习(Continual Learning,CL)是人工智能系统迈向长期智能的重要能力。其核心目标是让模型在任务序列中不断吸收新知识,同时维持甚至提升旧任务的表现。

  

然而,在主流深度学习框架下,模型在学习新任务时往往会显著遗忘旧知识,即「灾难性遗忘」(Catastrophic Forgetting),这是限制持续学习走向大规模实用的关键瓶颈。

  

现有CL方法大致可分为三类:基于数据回放的重放方法、基于参数约束的正则化方法,以及基于模型结构的动态扩展方法。尽管它们都在不同程度上缓解了遗忘,但一个根本问题始终被忽视:

  

大多数CL方法仍从「模型中心」视角出发,而缺乏对任务之间内在关系的建模和利用。

  

然而,任务关系直接决定了知识迁移的方向与效率:哪些任务之间协同度高,哪些任务之间冲突大,哪些旧任务对新任务有帮助,哪些新任务可能破坏已有能力——这些信息对于稳健的持续学习至关重要。

  

  

为解决这一长期存在的空白,清华大学研究提出了一种「任务关系中心」(task-relation-centric)的新型CL方案:H-embedding引导的超网络(Hypernetwork)持续学习框架。

  

  

论文链接:https://arxiv.org/pdf/2502.11609

  

其核心思想是:在每次学习新任务前,通过信息论度量构建可迁移性感知的任务嵌入H-embedding,并利用超网络根据嵌生成任务专属参数,从而显式地在CL过程中编码任务关系。

  
方法动机:任务关系应成为CL的显式指导信息

  

在典型CL设置中,模型只能在训练新任务之后,基于参数变化做「事后分析」,来判断任务之间的干扰和迁移。

  

这种模式天然存在三大问题:

  

1. 缺乏任务级先验,模型无法在训练开始前规划迁移路径

  

模型既不知道哪些旧任务对当前任务有帮助,也不知道哪些知识需要重点保护。

  

2. 正向和后向迁移难以被同时优化

  

传统方法常只能顾其一:强正则化减少遗忘,但削弱新任务学习能力;强学习新任务提升前向迁移,却导致显著遗忘。

  

3. 随着任务数量增长,干扰累积,使方法难以扩展

  

任务序列越长,模型「盲学」的代价越高。

  

因此,一个自然的问题是:

  

「如果持续学习能够从任务关系出发构建学习路径,而非单纯从模型参数出发,是否能同时提升前向与后向迁移能力?」

  

在此背景下,研究团队引入了「任务关系中心」的设计思路,将任务可迁移性转化为可学习的先验信息,并直接驱动参数生成与知识保护策略。

  
核心贡献

  
提出H-embedding:基于H-score的任务可迁移性嵌入

  

  

可迁移性和任务嵌入的图解关系

  

团队采用信息论指标H-score来表征从任一旧任务到当前任务的迁移价值。H-score 能反映源任务特征对目标任务的有效性,是一种在实际场景中可高效计算的可迁移性度量。

  

随后,通过层次分析法(AHP)对这些迁移性数值进行归一化,使其与嵌入空间中的距离度量保持一致,再通过距离一致性优化得到任务的低维H-embedding。

  

这种表示具备三个重要特性:

  


       
  • 先验可用:任务训练开始前即可获得

       
  • 低维紧凑:便于长期存储与快速调用

       
  • 与迁移性对齐:嵌入之间的距离反映任务间关系

      


  

这使得持续学习拥有了「可显式管理的任务关系结构」。

  
提出由H-embedding驱动的超网络参数生成框架

  

  

该框架使用超网络(Hypernetwork)根据任务嵌入,为每个任务生成其专属参数。更重要的是,模型内部引入了一个轻量级解码器,通过重构 H-embedding 的方式迫使超网络显式地吸收任务关系。

  

训练过程包含三类关键损失:

  


       
  • 任务损失:学习当前任务

       
  • 持续学习正则项:减轻对旧知识的覆盖

       
  • 嵌入引导损失:确保任务关系参与参数生成

      


  

  

这一设计使得模型能够:针对任务差异自动调节生成参数、在任务相关时进行正向迁移、在任务冲突时强化知识保护,从而在结构层面解决了 CL 的核心矛盾。

  
高可用性:可端到端训练,兼容多种参数高效微调技术

  

该框架具有极强的工程可落地性:

  


       
  • 每个任务仅需保存一个embedding(极低存储成本)

       
  • 支持CNN、ViT等主流架构

       
  • 可与LoRA等参数高效微调技术结合并部署在多种预训练模型上

      


  
实验结果:在多项CL基准上全面领先

  

研究团队在多个主流持续学习基准上进行了广泛评估,包括CIFAR-100、ImageNet-R和DomainNet,涵盖了不同模型架构(如ResNet、Vision Transformer)和学习设置(如全模型训练、参数高效微调)。主要结果如下:

  

  

结果显示:

  

1. FAA全面领先现有方法,在所有数据集上均取得更优的最终性能。

  

2. 强正向与后向迁移能力同时出现。DAA与FAA差值极小,表明新任务学习对旧任务几乎无干扰,同时能从旧任务中有效吸收知识。

  

3. 算法对任务数量增长具有更高鲁棒性。在5→10→20个任务的扩展实验中,该方法的性能增益持续放大,显示出很好的扩展性。并且在靠后的任务中,引入embedding guidance带来了显著的收敛加速。

  

4. 消融实验验证组件有效性。去除H-embedding引导或AHP归一化均会出现明显性能下降。

  
结论与展望

  

研究人员提出了一种「任务关系中心」的持续学习范式,通过在训练前引入信息论驱动的任务关系嵌入 H-embedding,使得模型能够:

  


       
  • 预测迁移性而非被动适应

       
  • 在学习过程中有意识地管理任务间的知识交互

       
  • 大幅减少遗忘、提升迁移效率

      


  

H-embedding引导的超网络框架在多个基准上取得领先表现,展示了任务关系建模在持续学习中的关键作用。

  

未来,任务结构感知的方法有望拓展至跨模态增量学习、大模型的长期任务适配、任务自组织(task discovery)与自动化学习顺序规划等更复杂场景。为构建更具扩展性、可生长的通用 AI 体系提供新的方向。

  
参考资料:

  

https://arxiv.org/pdf/2502.11609

  

https://yangli-feasibility.com/home/group.html

  

本文来自微信公众号“新智元”,作者:LRST,36氪经授权发布。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DE8G.CN ( 桂ICP备2024020718号-2 )

GMT+8, 2025-12-2 21:38 , Processed in 0.049162 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表