1
u-net的输入图像大小为572 * 572,但输出掩码大小为388 * 388。图像如何被一个更小的遮罩遮盖?为什么可以使用较小的遮罩掩盖图像?
u-net的输入图像大小为572 * 572,但输出掩码大小为388 * 388。图像如何被一个更小的遮罩遮盖?为什么可以使用较小的遮罩掩盖图像?
大概你指的是Ronneberger等人发布的U-Net架构的scientific paper。图中显示了这些数字。
的解释是一个比特隐藏在工段中,纸的“3.培训”:
由于未填充卷积,输出图像是小于输入由不变的边框宽度。
这意味着在每次卷积过程中,图像的一部分被“裁剪”,因为卷积将在坐标中开始,从而与图层的输入图像/输入斑点完全重叠。在3x3卷积的情况下,这总是每边一个像素。有关内核/卷积的更多视觉解释,请参阅here。 输出较小,因为由于裁剪发生在无垫圈卷积过程中(图像的内部)部分会得到结果。
这不是该体系结构的一般特征,而是(无衬垫)卷积所固有的东西,可以通过填充来避免。可能最常见的策略是在图像边界处进行镜像,以便每个卷积可以从图像的边缘开始(并且在核心重叠的地方看到镜像像素)。然后输入大小可以保留,完整的图像将被分割。