1
$ \ begingroup $

我正在研究二进制分类的逻辑回归。

使用的损失函数是交叉熵。对于给定的输入$ x $如果我们的模型生成$ \ hat {y} $代替$ y $,损失是给出的$$ \ text {l} _ {\ text {ce}}(y,\ hat {y})= - [y \ log \ hat {y} +(1 - y)(\ log {1 - \ hat {Y}})] $$

假设有$ m $这样的训练示例,然后是整体总损失功能$ \ text {tl} _ {\ text {ce}} $是(谁)给的

$$ \ text {tl} _ {\ text {ce}} = \ dfrac {1} {m} \ sum \ limits_ {i = 1} ^ {m} \ text {l} _ {\ text {ce}}(y_i,\ hat {y_i})$$

据说,损失功能是凸的。也就是说,如果我在损耗值之间绘制的图形,则相应的权重,则曲线将被凸出。这来自教科书的材料没有对跨熵损失函数的凸性质进行任何解释。您可以从以下段落中观察。

对于Logistic回归,这(跨熵)损耗功能方便地凸起。凸起函数只有一个最小值;没有本地最小值才能陷入困境,因此从任何点开始的梯度下降都保证了最小。(相比之下,多层神经网络的损失是非凸,梯度下降可能会在局部最小值中被卡在神经网络训练中,并且从未找到全局最佳。)

他们是如何方便地得出结论的,损失功能是凸的?它通过绘制或其他一些手段吗?

$ \ endgroup $

    你的答案

    点击“发布答案”,您同意我们的同意服务条款隐私政策Cookie政策

    浏览其他标记的问题必威英雄联盟或者必威电竞问你自己的问题