宏泰配资翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

明星创业公司Thinking Machines，第二篇研究论文热乎出炉！

公司创始人、OpenAI前CTO Mira Murati依旧亲自站台，翁荔等一众大佬也纷纷转发支持：

论文主题为“Modular Manifolds”，通过让整个网络的不同层/模块在统一框架下进行约束和优化，来提升训练的稳定性和效率。

之所以进行这项研究，主要是为了解决神经网络训练中的一个基本挑战：

网络内部的张量（如权重、激活、梯度）若数值过大或过小，会引发不稳定、梯度爆炸/消失、训练效率低下等问题。

因此，论文唯一作者Jeremy Bernstein提出了一种新的优化思路——模块化流形（Modular Manifolds），不仅对单个权重张量施加约束，还能把整个网络视为组合的流形结构，从而统一设计学习率、约束方式与优化逻辑。

网友们的反应be like：

对神经网络训练有深刻的见解。

将权重更新限制在流形上可以带来稳定性和可解释性，好奇能否扩展到非常大的模型？

带着这些肯定和疑惑，咱们接着看这到底是一项怎样的研究——

从向量在球面上优化→提出模块化流形

为什么需要流形约束？

原因正如开头所提到的，在训练大模型时，如果权重、激活值、梯度太大或太小，就会出现训练不稳定（溢出、消失、收敛速度慢等问题）。

之前为了解决这些问题，归一化方法逐渐成为“黄金标准”，包括激活归一化（如层归一化LayerNorm）、梯度归一化（优化器内部的规范化）等，但很少直接对权重矩阵本身进行归一化处理。

而作者认为，对权重矩阵进行归一化处理具有相当价值，其好处可能包括：

更容易把握优化过程中更新量的大小；能够避免权重的范数变得过大，也就是防止权重“爆炸”的问题；让研究员可以把调整超参数的精力，更多地放在那些对模型影响最大的张量上；让矩阵的条件数变小，这样矩阵的行为就会更加稳定和可预测；……

一句话，给权重矩阵归一化，可以让模型训练更稳定、更容易调整、行为更可预测，并且对外界干扰更有抵抗力。

基于此，作者希望设计一个几何化框架，把神经网络的权重参数约束在特定的Stiefel流形上，从而在训练时能够联合优化器与这些约束。

其核心研究过程大致有以下几个步骤：

Step 1：提供一个基础示例

假设要训练的参数是一个向量W，并且强制它始终在单位球面上：

易速宝提示：文章来自网络，不代表本站观点。

吉期旺网卡塔尔挨下以军10发导弹后，特朗普沉默数小时，只回应了4个字!