1
$\begingroup$

我最近读了很多关于风格转换的文章,它的应用和影响。我知道格拉姆矩阵是什么。我可以给它编程。但有一件事一直让我感到困惑:VGG样式的丢失是如何将颜色信息融入样式的?

在报纸上"cnn的纹理合成, Gatys等人的研究表明,最小化随机白噪声图像的Gram矩阵和“目标纹理”之间的MSE可以产生该纹理的新实例,具有随机变化。我理解这肯定是可行的,因为格拉姆矩阵测量了VGG激活在通道间检测到的特征之间的相关性,而没有空间关系。因此,如果我们优化白噪声图像,使其具有相同的Gram矩阵,它将显示相同的统计数据,因此看起来像原始纹理的实例。

但是这和颜色有什么关系呢?当然,VGG可以学习一个均值过滤器,它的输出将是该过滤器内核上的平均颜色。毕竟,“颜色”只是另一个统计数字。但是,当把它与Gram loss结合使用时,这些信息不会丢失吗?因为它们都是相关的,因此彼此之间是“相对的”。

在写这个问题时,我开始这样想:也许特征相关性以某种形式表达了这些颜色约束,比如:“如果一个部分是红色的,那么它附近一定有一个绿色部分”(对于萝卜),或者“如果有一个圆边,那么它的一侧一定在阴影中(=较暗)”在石头纹理的情况下,这会将颜色与周围的统计数据(例如,边缘、其他颜色)联系起来,这是我能想到为什么这会起作用的唯一原因。

有人能证实或反驳这一点,并分享他们的想法吗?讨论快乐!

图像来源:Gatys等人,卷积神经网络纹理合成

图像来源:卷积神经网络纹理合成,Gatys等人。

\ endgroup美元
    0
    $\begingroup$

    我对这个话题的看法是:

    “毕竟,‘颜色’只是另一个统计数字。”,我认为这是这个问题的简单(和正确)答案。要更深入一点,你可以检查这个,这说明基于Gram矩阵最小化损失在数学上等价于最小化最大平均偏差在输入和目标分布之间. 这两种分布不可避免地包含有关颜色的信息,因此,虽然分离空间特征相当简单(您可以一次只显示一个像素而不是一幅图像),但分离颜色要复杂得多,因为这是每个点的固有特征。

    最后我想说的是,在进行风格转换时,主要的问题就是“风格”意味着一切。对于那些仅仅试图实现它本身的论文来说,这不是一个问题,例如,在头脑中没有一个真正的用例,但它在实际应用中成为基础。一个具体的例子就是超分辨率。许多论文试图通过风格转换、耦合低分辨率和高分辨率图像来实现。理想情况下,你想要转移的特征是增强的锐度和纹理注入来生成细节。问题是,伴随它们的总是有边特征,阻碍了结果图像的质量,其中噪声特定于目标域,还有颜色。

    \ endgroup美元

      你的答案

      点击“发布你的答案”,即表示你同意我们的服务条款隐私政策cookie策略

      不是你想要的答案?浏览其他带标签的问题必威英雄联盟必威电竞问你自己的问题