旷视科技孙剑团队首次披露AutoML相关成果,通过构建一个简化的超网络来解决训练过程中面对的主要挑战。在在ImageNet上的实验结果超过了谷歌、Facebook等AutoML技术的成绩。
旷视首次曝光自家AutoML技术。
今天,旷视科技首席科学家孙剑团队发布论文Single Path One-Shot Neural Architecture Search with Uniform Sampling,首次披露AutoML中的重要子领域神经结构搜索的最新成果——单路径One-Shot模型。
单路径One-Shot模型用来解决训练过程中面对的主要挑战,其核心思想是构建一个简化的超网络——单路径超网络(Single Path Supernet),这个网络按照均匀的路径采样方法进行训练,在ImageNet上的实验证明,这一方法在精度、内存消耗、训练时间、模型搜索的有效性及灵活性方面结果最优,超过了谷歌、Facebook等公司AutoML技术的成绩。
设计神经网络非常耗费时间,并且需要专业知识,几年前谷歌创建了AutoML的方法,通常使用强化学习或进化算法来设计新的神经网络架构,也证明神经网络可以设计神经网络。
论文的作者之一、旷视上海研究院负责人危夷晨表示,深度学习是非常通用的技术,但在实际落地时会面临在不同行业、不同场景、不同计算设备上寻找最优算法和工程实现的问题。自动神经网络搜索是用“计算换智能”的新范式,可以极大地加速我们的产品及解决方案在各行业的落地。
单路径One-Shot模型:模型搜索框架的新变体
深度学习终结了手工设计特征的时代,同时解决了权重优化问题。NAS(神经网络模型搜索)则旨在通过另一个方法——模型搜索(architecture search),终结人工设计架构。
早期的NAS方法使用嵌套式优化,从搜索空间采样出模型结构,接着从头训练其权重,缺点是对于大型数据集来讲计算量过大。新近的NAS方法则采用权重共享策略减少计算量。本文提出的超网络则包含所有子结构,只训练一次,所有子结构便可以直接从超网络获得其权重,无需从头训练。即使在大型数据集上,计算也十分高效。
大多数权重共享方法使用连续的搜索空间,将模型结构分布不断参数化。这些参数在超网络训练期间与网络权重进行联合优化。因此可以在优化时进行模型搜索,从分布中采样最优的架构。其公式化表示优雅而理论完备。但是存在两个问题:
第一,超网络的权重深度耦合。目前尚不清楚为什么特定结构的复用权重(inherited weights)依然有效。
第二,联合优化导致了模型参数和超网络权重的进一步耦合。梯度方法的贪婪天性不可避免地在结构分布和超网络权重中引入偏差。这很容易误导模型搜索。精细地微调超参数和优化过程被用于先前方法之中。
One-shot(一步法)是一种新范式。它定义了超网络,并以相似的方式做权重复用。但是并没有将模型结构分布参数化。模型搜索从超网络训练中解耦,并且解决步骤是独立的。因此,One-shot具有序列性。它结合了上述嵌套式和联合式优化方法的优点,因此灵活而高效。
尽管第二个问题已解决,现有One-shot并未很好地解决第一个问题。超网络的权重依然耦合。优化依然复杂,并包含敏感的超参数,导致在大型数据集上表现欠佳。
旷视提出方法的动机旨在吸收One-shot的优点,克服其缺点。One-shot成功的关键是使用复用权重的模型的精度可以用来预测从头训练模型的精度。因此,旷视研究院提出,超网络训练应是随机的。这样所有子结构的权重能够被同时且均匀地优化。
为减少超网络的权重耦合,旷视研究院提出一个单路径超网络,在每次迭代训练中只有单路径结构被激活。训练中不需要任何超参数来指导子结构的选择,采用均匀采样的方式,平等对待所有子结构。
本文方法简单而灵活,超网络训练中没有超参数。其简易性允许设计丰富的搜索空间,包括新设计通道单元和位宽单元。模型搜索过程十分高效,因为只需要基于超网络的权重进行前向计算。进化算法则用来轻松支持多种约束。
综合性消融实验及在大型数据集(ImageNet)上的实验证明了这一方法在精度、内存消耗、训练时间、模型搜索的有效性及灵活性方面都表现良好,达到了当前最优的结果。
方法详解
如上所述,耦合式模型搜索和权重优化是存在挑战和问题的。通过回顾发现,早期使用嵌套优化的 NAS 方法在于解决公式 (1) 和 (2) 的优化问题,这不禁引起思考,问题解耦和权重共享的优点是否可以兼得?
这一考虑诞生了所谓的 One-shot 。这些方法依然只训练一次超网络,并允许各结构共享其中的权重。
但是,超网络训练及模型搜索作为先后次序的两个步骤是解耦的。请注意,这不同于嵌套优化或联合优化。
首先,超网络权重被优化为:
相比公式 (4)
公式 (5) 已经不存在搜索空间的连续参数化,只有网络权重被优化。
其次,搜索部分被表示为:
公式 (6) 与公式 (1) 、 (2) 的最大区别是其权重是预先初始化的。评估仅需要推理。没有微调或者再训练。因此搜索非常有效。
通过借助进化算法,搜索同样非常灵活。像等式 (3)
对模型结构进行的约束可以精确地满足。并且一旦训练好一个超网络,可在同一超网络内基于不同约束(比如 100ms 和 200ms 延迟)重复搜索。这些特性是先前方法所缺失的,将使 One-Shot NAS 方法对实际任务更具吸引力。
但依然存在一个问题。在等式 (5) 中,超网络训练的图节点权重是耦合的,复用权重是否适用于任意子结构尚不清楚。
单路径超网络和均匀采样
按照基本原理重新出发,会使 One-Shot 范式更有效。在等式 (5) 中,模型搜索成功的关键在于,在验证集中,使用复用权重(没有额外的微调)的任意子结构的精度是高度可信的。正如等式 (1) 是理想情况,需要权重
近似最优权重
。近似的效果和训练损失函数
被最小化的程度成正比。这推导出一个原则:超网络权重
的优化应当与搜索空间中所有子结构的优化同时进行。这可表示为:
请注意,等式 (7) 是等式 (5) 的实现。在优化的每一步中,子结构是随机采样的,只有对应的权重被激活和更新。这不仅节省内存空间,而且高效。由此,超网络本身不再是一个有效的网络,而变成一个随机的网络。
为减少节点权重之间的协同适应,旷视研究院提出最大化简化搜索空间。它只包含单一路径架构,如图 1 所示。
图 1:单一路径超网络架构图
在每次训练时仅保留一个。不存在任何调优。训练在本文实验中收敛良好。
先验分布很重要。旷视研究员通过实验发现,均匀采样已经足够好。这并不让人惊讶。这是因为实际任务常常期望有多个模型结构,以满足不同的约束。图 2 表明,两个采样方法皆工作良好,均匀约束采样方法表现稍好,本文默认使用它。
图 2:不同采样策略的单路径超网络的进化模型搜索
2025-03-28 08:34
2025-03-28 08:31
2025-03-28 08:28
2025-03-28 08:27
2025-03-28 08:27
2025-03-28 08:26
2025-03-28 08:25
2025-03-28 08:24
2025-03-28 08:22