明星创业公司Thinking Machines,第二篇研究论文热乎出炉!
公司创始人、OpenAI前CTO Mira Murati依旧亲自站台,翁荔等一众大佬也纷纷转发支持:
论文主题为“Modular Manifolds”,通过让整个网络的不同层/模块在统一框架下进行约束和优化,来提升训练的稳定性和效率。
之所以进行这项研究,主要是为了解决神经网络训练中的一个基本挑战:
网络内部的张量(如权重、激活、梯度)若数值过大或过小,会引发不稳定、梯度爆炸/消失、训练效率低下等问题。
因此,论文唯一作者Jeremy Bernstein提出了一种新的优化思路——模块化流形(Modular Manifolds),不仅对单个权重张量施加约束,还能把整个网络视为组合的流形结构,从而统一设计学习率、约束方式与优化逻辑。
网友们的反应be like:
对神经网络训练有深刻的见解。
将权重更新限制在流形上可以带来稳定性和可解释性,好奇能否扩展到非常大的模型?
带着这些肯定和疑惑,咱们接着看这到底是一项怎样的研究——
从向量在球面上优化→提出模块化流形为什么需要流形约束?
原因正如开头所提到的,在训练大模型时,如果权重、激活值、梯度太大或太小,就会出现训练不稳定(溢出、消失、收敛速度慢等问题)。
之前为了解决这些问题,归一化方法逐渐成为“黄金标准”,包括激活归一化(如层归一化LayerNorm)、梯度归一化(优化器内部的规范化)等,但很少直接对权重矩阵本身进行归一化处理。
而作者认为,对权重矩阵进行归一化处理具有相当价值,其好处可能包括:
更容易把握优化过程中更新量的大小;能够避免权重的范数变得过大,也就是防止权重“爆炸”的问题;让研究员可以把调整超参数的精力,更多地放在那些对模型影响最大的张量上;让矩阵的条件数变小,这样矩阵的行为就会更加稳定和可预测;……一句话,给权重矩阵归一化,可以让模型训练更稳定、更容易调整、行为更可预测,并且对外界干扰更有抵抗力。
基于此,作者希望设计一个几何化框架,把神经网络的权重参数约束在特定的Stiefel流形上,从而在训练时能够联合优化器与这些约束。
其核心研究过程大致有以下几个步骤:
Step 1:提供一个基础示例
假设要训练的参数是一个向量W,并且强制它始终在单位球面上:
易速宝提示:文章来自网络,不代表本站观点。