欢迎访问:沃派博客 每天不定时发布IT文章相关资讯
当前位置:沃派博客-沃派网 > IT文章 > 正文

分析梯度下降的轨迹,更好地理解深度学习中的优化问题

12-23 IT文章

原标题:分析梯度下降的轨迹,更好地理解深度学习中的优化问题

雷锋网 AI 科技评论按:神经网络的优化本质上是一个非凸问题,而简单的基于梯度的算法在实践中似乎总是能够解决这类问题。这种现象是深度学习的核心支柱之一,而目前有许多理论科学家家正试图解开这个谜:为什么基于梯度的方法能够在深度学习的优化中行之有效。

一篇来自 offconvex.org 博客的文章对最近一些试图解决这个问题的工作进行了综述,并且在最后讨论了作者本人与 Sanjeev Arora,Noah Golowich 以及 Wei Hu 等人一起撰写的新论文()。在这篇论文中,他们针对深度线性神经网络中的梯度下降问题,提出了一种能够保证以线性速率收敛到全局最小值的方法。关于深度学习应用的论文多如牛毛,而关于基础工作原理的文章弥足珍贵。雷锋网 AI 科技评论全文编译如下。

函数图像曲面方法及其局限性

许多关于深度学习优化的论文都隐含着这样一种假设,即通过建立损失函数图像的曲面(landscape)的几何特性(特别是在临界点,也就是梯度开始消失的点),可以严谨地理解这种优化方法。例如,通过与凝聚态物理中的球形自旋玻璃模型进行类比,Choromanska 等人在 2015 年提出了一个现已在深度学习领域广为人知的观点:

函数曲面猜想(Landscape Conjecture):

在神经网络优化问题中,次优临界点的 Hessian(二阶导矩阵)的特征值很可能存在负数。换而言之,几乎没有糟糕的局部最小值(让梯度下降算法误认为局部最小值是全局最小值的点),而且几乎所有的鞍点都是严格的。

该猜想的对于各种包括浅层(2 层)模型在内的简单问题的损失函数图像的曲面的强形式已经得到了证明,这样的问题包括矩阵感知( )、矩阵补全( )、正交张量分解( )、相位反演( )以及带二次激活的神经网络( )等。目前已经有一些工作针对当函数曲面猜想成立时如何实现梯度下降收敛到全局最小值进行了一些研究。例如,Rong Ge( )、Ben Recht( )、Chi Jin 和 Michael Jordan( )等人的博客中有一些在这类工作方面非常棒的介绍文章。他们介绍了梯度下降可以如何通过逃离所有严格的鞍点来达到二阶局部最小值(Hessian 为正半定的临界点),以及当将我们对算法添加扰动时这个过程将如何起作用。请注意,在函数曲面猜想下,即当没有糟糕的局部最小值、也没有非严格鞍点时,二阶局部最小值也就是全局最小值。

分析梯度下降的轨迹,更好地理解深度学习中的优化问题

然而,出于很多原因,函数曲面方法(和函数曲面猜想)显然不能像这样被应用到深度(三层或更多层)的网络上。首先,深度网络通常会引入非严格鞍点(例如,在所有权重都为零的点,详情请参阅 Kawaguchi 等人在2016 发表的论文「Deep Learning without Poor Local Minima」: )。其次,函数曲面方法的观点很大程度上忽视了算法层面上的因素,而在实践中算法层面的因素对深度网络的收敛有很大的影响——比如初始化方法的类型( )或批量归一化( )。最后,正如我在之前的文章( )中谈到的,基于 Sanjeev Arora和 Elad Hazan( )的工作,为经典线性模型添加(冗余)线性层有时可以加速基于梯度的优化过程,这样做尽管会为之前的凸优化问题引入一定的非凸性,但是不会增强模型的表现能力。任何只依赖于临界点属性的函数曲面分析都难以解释这样的现象,因为通过这样的方法,没有什么比优化一个具有全局最小值的临界点的凸目标函数更简单的了。

另一种可能的解决方案?

函数曲面方法在分析深度学习中的优化问题时的局限性说明它可能忽略了太多重要的细节。也许,与其思考「函数曲面方法是否是一种优雅的方法?」不如把问题转向「由特定的初始化方法得到的特定优化器的轨迹有怎样的行为?」

分析梯度下降的轨迹,更好地理解深度学习中的优化问题

尽管基于轨迹的方法似乎比函数曲面分析更加复杂,但是这种方法已经取得了显著的进展。最近的一些论文(如 Brutzkus and Globerson 2017( );Li and Yuan 2017( )、Zhong et al. 2017( );Tian 2017( );Brutzkus et al. 2018(?id=rJ33wwxRb );Li et al. 2018( );Du et al. 2018( );Liao et al. 2018( ))已经采用了这种策略,成功地分析了不同类型的浅层模型。此外,基于轨迹的分析也正开始涉足函数曲面方法之外的领域,他们已经针对线性神经网络的情况,成功地实现了在任意深度下使用梯度下降方法收敛到全局最小值。

针对深度线性神经网络的基于轨迹的分析

版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/16255.html