回答

1

大概你指的是Ronneberger等人发布的U-Net架构的scientific paper。图中显示了这些数字。

U-Net architecture

的解释是一个比特隐藏在工段中,纸的“3.培训”:

由于未填充卷积,输出图像是小于输入由不变的边框宽度。

这意味着在每次卷积过程中,图像的一部分被“裁剪”,因为卷积将在坐标中开始,从而与图层的输入图像/输入斑点完全重叠。在3x3卷积的情况下,这总是每边一个像素。有关内核/卷积的更多视觉解释,请参阅here输出较小,因为由于裁剪发生在无垫圈卷积过程中(图像的内部)部分会得到结果。

这不是该体系结构的一般特征,而是(无衬垫)卷积所固有的东西,可以通过填充来避免。可能最常见的策略是在图像边界处进行镜像,以便每个卷积可以从图像的边缘开始(并且在核心重叠的地方看到镜像像素)。然后输入大小可以保留,完整的图像将被分割。