2
$ \ $请将BeginGroup

让我们假设,其中卷积层的内核仅需值0或1。为了捕获所有可能的模式中的输入极端的情况下$ C $渠道的数量,我们需要2美元^{C*K*H*K*W}$滤波器,在其中$(K_H,K_W)$是内核的形状。因此,要处理与3×3核3个输入通道的标准的RGB图像,我们需要我们的层到输出$ 2 ^ {27} $通道。我是否正确地得出结论,根据这一点,64到1024的过滤器标准的层只能赶上(也许)有用的模式一小部分?

| 改善这个问题 | |
$ \ $端基
  • $ \ $请将BeginGroup 什么是假设极端情况下的点?难道仅仅是询问或者你有,你被限制只使用0和1滤波器实际必威电竞工作的缘故? $ \ $端基-bit_scientist 1月2日3:50
  • 1
    $ \ $请将BeginGroup @也许我应该用“边缘”或“最不复杂”这个词来代替“极端”。一个内核可以接受的值越多,功率基数就越高,捕获所有模式所需的滤波器就越多。所以我想说,具有连续内核的层至少应该比具有二进制内核的层使用更多的过滤器。当我读到wide_resnet时,我想到了这个问题,wide_resnet通过增加图层中的过滤器数量来改进结果。 $ \ $端基-卡西亚 1月2日在7:06

2个回答2

0
$ \ $请将BeginGroup

$ N = C * K_w * K_h $。然后,你应该只需要$ N $过滤器。不$ 2 ^ N $保留所有的信息。如果你只是使用单位矩阵的行作为您的过滤器比你卷积也只是做一个精确副本所以它肯定不会扔掉的信息。在另一方面,会有一个最大池操作。为了简化问题,让我们假设我们有3个通道和1 1的内核。然后让我们假设它仅仅是一个盘旋,随后全球最大池。另外,让我们用你的假设,它的所有二进制。如果你有$ M $滤波器则最终输出将是$ M $维无论你有多少个输入点都有。所以很明显的信息被丢弃在那里。但是,这并不是一件坏事。丢弃无关的信息会让我们更接近我们功能需要手头的问题。在图像的特定部分没有被发现,得到的最大池对应丢弃在功能部分。

| 提高这个答案 | |
$ \ $端基
  • $ \ $请将BeginGroup 保持信息是不是在这里的目标。该层应该添加新信息的有关在输入数据之间的关系。要查找使用二进制内核只有两个RGB像素之间的所有可能的关系,我们需要$ 2 ^ {2 * 3} = 64 $的过滤器。删除一些信息的可能无法在高级别功能工作后层的问题,但第一层需要找到一个内核,基本上适合所有的情况下,因为这个内核找到的每一个切片一些有用的模式图片。 $ \ $端基-卡西亚 1月2日23:56
  • $ \ $请将BeginGroup 如果你把仅有6的过滤器和卷积的输出插头插入密集MLP那么它应该能够接近假如你有足够的神经元数据的任何功能。但是,如果你第一次把它通过maxpooling如正常进行则有64个过滤器将让你在maxpooling的输出提取所有可能的功能。但是,你仍然这样做最大池丢失的信息。因此,使用64个过滤器将与maxpooling将让你接近任何功能,但只只要你不关心在输入重复 $ \ $端基-jgleoj23 1月3日在1:44
  • $ \ $请将BeginGroup 我对你谈论失去了一点点。那你为什么还指使用最大池?目前的趋势是从使用它搬走,并跨入回旋更换。我从来没有见过它在一个回旋层的前面使用。我想很难理解你试图向我解释什么,但它仍然是躲避我。 $ \ $端基-卡西亚 1月3日11时30分
  • $ \ $请将BeginGroup 我是说,你说的是真的,在我们使用最大池的情况下。当然,2^29远远超出了我们的需要,也超出了我们近期的使用范围。 $ \ $端基-jgleoj23 1月4日在0:17
0
$ \ $请将BeginGroup

但从数学角度为是你的计算,你是正确的。为了赶上所有的模式,你需要很多的过滤器,但是这是一个的整体思路训练进来。CNNs培训的主要目的是从数十亿个可能的模式中找到一些好的模式。

因此,您的问题的直接答案是:64到1024个过滤器的标准层只能捕获(可能)有用模式的一小部分,是的,但这是假设的没有培训正在发生。如果您进行了与给定的模型给出的数据训练,然后64到1024的过滤器可能已经提取了很多有用的模式,也许比需要的。

| 提高这个答案 | |
$ \ $端基

    你的答案

    点击“发表你的答案”,你同意我们的服务条款隐私政策Cookie政策

    不是你要找的答案?浏览其他问题标签必威英雄联盟必威电竞问你自己的问题