比方說:x = torch.arange(16, dtype=torch.float).reshape(1, 1, 4, 4)二維卷積層是:layer = torch.nn.Conv2d(in_channels=1, out_channels=1, kernel_size=2, stride=2)layer.weight.data[:] = 1.layer.bias.data[:] = 0.通常,將x傳遞給圖層將給出:>>layer(x) tensor([[[[10., 18.], [42., 50.]]]], grad_fn=<MkldnnConvolutionBackward>)考慮到有 4 個掩模過濾器,如何在每一步中掩模內核?例如下圖表示4個過濾器(白色:True,黑色:False)輸出應該是:tensor([[[[5., 15.],
[30., 40.]]]], grad_fn=<MkldnnConvolutionBackward>)PS:所有掩模都是通過二維輸入數組中缺失的像素獲得的。所以上面的4個掩碼實際上是一個與輸入形狀相同的矩陣。
1 回答

慕桂英546537
TA貢獻1848條經驗 獲得超10個贊
我找到了解決方案。
在將輸入和掩碼提供給 Conv2d 方法之前,在輸入和掩碼之間進行按元素相乘就足夠了。(掩碼輸入比掩碼內核本身容易得多?。。?/p>
mask = torch.tensor([[[1, 1, 1, 0]], [[1, 0, 1, 1]], [[1, 1, 0, 1]], [[0, 1, 1, 1]]], dtype=torch.float, requires_grad=False).reshape(1, 1, 4, 4)
>>layer(torch.mul(x, mask))
tensor([[[[5., 15.],
? ? ? ? ? [30., 40.]]]], grad_fn=<MkldnnConvolutionBackward>)