6
\ begingroup美元

梯度下降作用于的方程均方误差,这是一个抛物线方程y = x ^ 2美元

我们常说梯度下降算法在神经网络中的权值调整可以达到局部极小值并陷入局部极小值。

抛物线方程的局部极小值是如何可能的?

\ endgroup美元
  • \ begingroup美元 如果我能理解crossposting好的,它问为什么愉快必威电竞的抛物线$y=x^2$有一个最小值。为了回答这个问题,我们必须理解多项式被引入到一个物理系统的模型中。一个典型的用例是一个抛向空中的球,它的行为类似于这个方程。球的轨迹有一个极值点,简化后的模型表现出相同的行为。 \ endgroup美元- - - - - - 曼努埃尔·罗德里格斯 四月二十三日19:45
5
\ begingroup美元

g (x) = x ^ 2美元确实是一条抛物线,因此只有一个最优值。

然而,$ {MSE} \文本(\ boldsymbol {x} \ boldsymbol {y}) = \ sum_i (y_i - f (x_i)) ^ 2美元,在那里$ \ boldsymbol {x} $是输入,$ \ boldsymbol {y} $相应的标签和功能$ f $是模型)。神经网络)不一定一个抛物线。一般来说,它只是一个抛物线$ f $是一个常数函数,和在一个元素上。

例如,假设$f(x_i) = c, \forall i$,在那里$ c \ \ mathbb {R} $。然后$ {MSE} \文本(\ boldsymbol {x} \ boldsymbol {y}) = \ sum_i (y_i - c) ^ 2美元只会改变一个变量的函数,$ \ boldsymbol {y} $,如in the case ofg (x) = x ^ 2美元,在那里g美元是一个一元函数,x美元。在这种情况下,(y_i - c) ^ 2美元将只是一个移位的版本(无论是向右或向左取决于的符号美元加元)美元y_i ^ 2美元,为了简单起见,我们忽略它美元加元。在这种情况下$ f $是常数函数吗$ {MSE} \文本(\ boldsymbol {x} \ boldsymbol {y}) = \ sum_i y_i ^ 2美元,它是抛物线的和美元y_i ^ 2美元,称为a抛物面。在这种情况下,抛物面对应$ {MSE} \文本(\ boldsymbol {x} \ boldsymbol {y}) = \ sum_i y_i ^ 2美元只有一个最优解,就像抛物线一样。而且,如果总和刚好大于1y_i美元,也就是说,$ {MSE} \文本(\ boldsymbol {x} \ boldsymbol {y}) = \ sum_i y_i ^ 2 = y ^ 2美元(美元$ \ boldsymbol {y} = y),则MSE成为抛物线。

在其他情况下,MSE可能不是抛物线,或者只有一个最优值。例如,假设f (x) = x ^ 2美元,y_i = 1美元(\给我美元),然后$h(x) = (1 - x^2)^2$看起来如下所示

在这里输入图像描述

哪个有两个最小值(和一个最大值):at$ x = 0美元$ x = 1美元。我们可以找到这个函数的两个极小值h美元使用微积分:$h'(x) = -4x(1 - x^2,当$ x = 0美元$ x = 1美元

在这种情况下,我们只考虑和的一项。如果我们考虑项的和的形式h美元,我们甚至可以有更多“复杂”的函数。

综上所述$ f $可以任意复杂,然后呢$ {MSE} \文本(\ boldsymbol {x} \ boldsymbol {y})美元的函数$ f $,也可以变得任意复杂并具有多个极小值。假设神经网络可以实现任意复杂的函数,则$ {MSE} \文本(\ boldsymbol {x} \ boldsymbol {y})美元很容易有多个最小值。此外,该函数$ f $(如。神经网络)在训练阶段发生变化,这可能会引入更多的复杂性,关于MSE可以有哪些功能,因此它可以有哪些(以及多少个)优化。

\ endgroup美元
  • \ begingroup美元 非常感谢约翰·多赛特他指出我之前的答案不完全正确。 \ endgroup美元- - - - - - nbro 4月30日11:25
  • \ begingroup美元 我在Andrew的课上读到,局部最优点通常不像有多个零导数点的山;相反,GD通常面对“鞍点”,一般来说,它们很容易处理。你对此有何看法? \ endgroup美元- - - - - - 卡兰国王 5月1日11点32分
2
\ begingroup美元

我的问题是,在抛物线方程中,斜率总是抛物线的情况下,局部极小值是如何可能的?

抛物线有一个最小值,没有单独的局部极小值。所以这是不可能的。

然而。。。

梯度下降作用于均方误差方程,这是一个抛物线方程y = x ^ 2美元

因为损失函数相对于直接输入是抛物线,并不意味着损失函数相对于间接引起误差的参数是抛物线。

事实上,它只对线性函数成立。当考虑线性回归时$\hat{y} = \sum_i w_i x_i + b$时,只有一个全局最小值(具有特定的值w_i美元或特定的向量$ \ mathbf {w} $,你的断言是正确的。

一旦加入非线性激活,就像在神经网络中那样,误差函数和模型参数之间的关系就会变得复杂得多。对于最后一层/输出层,您可以谨慎地选择一个损失函数,这样就可以将其抵消——您可以为logistic回归和softmax回归保留单个全局最小值。然而,一个或多个隐藏层,所有的赌注都取消了。

事实上,你可以很容易地证明一个具有隐含层的神经网络必须有多个固定点(不一定是局部极小值)。大纲的证明,必须有多个等价的解决方案,因为在全连通网络你可以重新组织节点的任何顺序,将重量移到比赛,这将是一个新的解决方案和完全相同的行为,包括相同的损失数据集。一个隐含层的神经网络n美元节点必须有美元$ n !绝对的最低限度。如果它们之间没有其它的固定点,它们就不可能存在。

有理论表明,在实际中发现的大多数驻点都不是局部极小值,而是鞍点。

作为一个例子,这是一个分析鞍点在一个简单的XOR近似

\ endgroup美元
    1
    \ begingroup美元

    我们知道,$ {MSE} \文本(\ boldsymbol {x_i}) = h (x_i) = \ sum_i (y_c - f (x_i)) ^ 2美元,在那里$ \ boldsymbol {x_i} $为输入值,y_c美元为误差为0的常数值,f (x_i)美元是神经网络的激活函数。

    考虑线性激活函数,其中$f(x_i) = x_i + c$,y_c = 1美元,那么我们将得到一个带有一个极小值的抛物线,它可以被微积分证明为:$h'(x_i) = 2x_i -2$,这意味着曲线只有一个极小值点x_i = 1美元

    现在考虑一个多元激活函数f (x_i) = x ^ 2美元,y_c = 1美元,然后$h(x_i) = (1 - x_i^2)^2$看起来如下所示

    在这里输入图像描述

    曲线$h(x_i) = (1 - x_i^2)^2$,将有两个极小值,我们可以用微积分证明:$h'(x_i) = -4x_i(1 - x_i^2,当x_i = 0美元x_i = 1美元

    综上所述,不同的复合激活函数会产生不同的多重极小值曲线

    \ endgroup美元

      你的答案

      点击“发表你的答案”,你就同意了我们的服务条款,隐私政策饼干的政策

      不是你要找的答案?浏览已标记的其他问题必威英雄联盟必威电竞问你自己的问题