原文标题:神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
原文作者:机器之心
冷月清谈:
-
传统的神经网络认知中,神经网络主要由线性层、非线性层(激活函数)、标准化层组成,其中标准化层被认为不具备非线性表达能力。
-
北京航空航天大学黄雷团队的论文指出,层标准化(LN)和其退化版本RMSNorm具有非线性表达能力。
摘要:
层标准化(LN)是一种广泛用于神经网络中的标准化技术。该研究从数学和理论上证明了LN的非线性表达能力。研究表明,即使神经网络中仅包含线性层和LN,在足够深的网络层数下,也能任意分类给定的样本和样本类别。该发现打破了此前认为LN不具有拟合能力的认知,为神经网络架构设计提供了新的思路。
此外,研究还提出了分组层标准化技术(LN-G)以加强LN的非线性,并在图像分类任务和Transformer网络中验证了LN-G的有效性。这些发现为深入理解神经网络的表达能力和设计更强大的神经网络架构奠定了理论基础。
怜星夜思:
2、分组层标准化技术(LN-G)是如何增强LN的非线性的?
3、该研究对神经网络架构设计有什么启示?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者均来自北京航空航天大学人工智能学院和复杂关键软件环境全国重点实验室黄雷副教授团队。一作倪云昊为研一学生,二作郭宇芯为大三学生,三作贾俊龙为研二学生,通讯作者为黄雷副教授(主页:https://huangleibuaa.github.io/)
然而,最近由北京航空航天大学人工智能学院黄雷老师团队发表在ICML2024上的论文《On the Nonlinearity of Layer Normalization》指出,层标准化(Layer Normlization,LN)以及其计算退化版本RMSNorm具有非线性表达能力,并详细讨论了LN的万能近似分类能力。
-
论文地址:https://arxiv.org/abs/2406.01255
为了进一步研究,作者将LN拆分为两个步骤:中心化(centering)和尺度缩放(scaling)。中心化从数学上是一个线性变换,因此LN的非线性主要存在于尺度缩放操作当中(文章中也称之为球面投影,是RMSNorm执行的操作)。作者以最为简单的线性不可分的异或数据为例,通过线性变换和球面投影将这四个点进行了正确分类。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com