[已解决]nerf中rays_rgb的shape

catalpa-bungei · 发表于 2023-6-23 21:57:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

nerf的train()代码中有一行：
rays_rgb = np.concatenate([rays, images[:,None]], 1) # [N, ro+rd+rgb, H, W, 3]
有注解称rays_rgb的形状是[20,3,378,504,3]，
想问一下ro,rd,rgb为什么都等于1？original应该是3维坐标，direction应该是2个角度，rgb应该是3个值控制颜色，不应该分别是5,2,3吗？

最佳答案

月排行榜 / 总排行榜

isdkz

2023-6-23 21:58:39

本帖最后由 isdkz 于 2023-6-23 22:02 编辑

这个问题涉及到了3D计算机视觉和光线追踪中的一些基础概念。从代码中，我们可以看到 rays_rgb 是由 rays 和 images 通过 np.concatenate 连接在一起得到的，其形状应该由 rays 和 images 两部分的形状决定。

首先我们来看 rays ，从代码中可以看出， rays 是通过函数 get_rays_np 得到的。在这个函数中，首先通过对图像的宽度（W）和高度（H）进行meshgrid操作，得到了平面上每个像素的坐标（i,j）。然后，根据这些坐标，计算出从相机坐标系出发的每个像素对应的光线方向 dirs 。最后，通过坐标转换将这些方向从相机坐标系转换到世界坐标系，得到了 rays_d 。同时，相机的原点在世界坐标系中的位置就是所有光线的原点 rays_o 。所以， get_rays_np 函数返回了每个光线的原点（即起点）和方向，即rays_o和rays_d，都是3维的，所以ro和rd应该都等于3，而不是1。

然后我们看 images ，它应该是一个4D张量，形状为[N, H, W, 3]，代表N张RGB图像，每张图像的尺寸为H x W，并且每个像素有3个颜色通道。在这里， images[:,None] 将 images 的形状从[N, H, W, 3]变为[N, 1, H, W, 3]。

最后， rays 和 images[:,None] 通过 np.concatenate 沿着第二个维度（索引为1）连接在一起，得到了 rays_rgb 。由于 rays 的形状为[N, ro+rd, H, W, 3]（其中ro和rd都等于3）和 images[:,None] 的形状为[N, 1, H, W, 3]，所以 rays_rgb 的形状应该为[N, ro+rd+1, H, W, 3]，也就是[N, 7, H, W, 3]。

所以，这个注释可能是有误的。如果你看到形状为[20, 3, 378, 504, 3]，那么可能ro, rd, rgb分别为1,1,1，而不是3,3,3。或者注释中的3指的是这三个维度（ro, rd, rgb）的总和，也就是3=1+1+1。总之，为了确定真正的形状，你可能需要直接打印这些变量的形状。

跳转到最佳答案楼层

catalpa-bungei · 发表于 2023-6-23 21:58:34

rays是这样得到的：
rays = np.stack([get_rays_np(H, W, K, p) for p in poses[:,:3,:4]], 0)

def get_rays_np(H, W, K, c2w):
i, j = np.meshgrid(np.arange(W, dtype=np.float32), np.arange(H, dtype=np.float32), indexing='xy')
dirs = np.stack([(i-K[0][2])/K[0][0], -(j-K[1][2])/K[1][1], -np.ones_like(i)], -1)
# Rotate ray directions from camera frame to the world frame
rays_d = np.sum(dirs[..., np.newaxis, :] * c2w[:3,:3], -1) # dot product, equals to: [c2w.dot(dir) for dir in dirs]
# Translate camera frame's origin to the world frame. It is the origin of all rays.
rays_o = np.broadcast_to(c2w[:3,-1], np.shape(rays_d))
return rays_o, rays_d

isdkz · 发表于 2023-6-23 21:58:39

本帖最后由 isdkz 于 2023-6-23 22:02 编辑

这个问题涉及到了3D计算机视觉和光线追踪中的一些基础概念。从代码中，我们可以看到 rays_rgb 是由 rays 和 images 通过 np.concatenate 连接在一起得到的，其形状应该由 rays 和 images 两部分的形状决定。

首先我们来看 rays ，从代码中可以看出， rays 是通过函数 get_rays_np 得到的。在这个函数中，首先通过对图像的宽度（W）和高度（H）进行meshgrid操作，得到了平面上每个像素的坐标（i,j）。然后，根据这些坐标，计算出从相机坐标系出发的每个像素对应的光线方向 dirs 。最后，通过坐标转换将这些方向从相机坐标系转换到世界坐标系，得到了 rays_d 。同时，相机的原点在世界坐标系中的位置就是所有光线的原点 rays_o 。所以， get_rays_np 函数返回了每个光线的原点（即起点）和方向，即rays_o和rays_d，都是3维的，所以ro和rd应该都等于3，而不是1。

然后我们看 images ，它应该是一个4D张量，形状为[N, H, W, 3]，代表N张RGB图像，每张图像的尺寸为H x W，并且每个像素有3个颜色通道。在这里， images[:,None] 将 images 的形状从[N, H, W, 3]变为[N, 1, H, W, 3]。

最后， rays 和 images[:,None] 通过 np.concatenate 沿着第二个维度（索引为1）连接在一起，得到了 rays_rgb 。由于 rays 的形状为[N, ro+rd, H, W, 3]（其中ro和rd都等于3）和 images[:,None] 的形状为[N, 1, H, W, 3]，所以 rays_rgb 的形状应该为[N, ro+rd+1, H, W, 3]，也就是[N, 7, H, W, 3]。

所以，这个注释可能是有误的。如果你看到形状为[20, 3, 378, 504, 3]，那么可能ro, rd, rgb分别为1,1,1，而不是3,3,3。或者注释中的3指的是这三个维度（ro, rd, rgb）的总和，也就是3=1+1+1。总之，为了确定真正的形状，你可能需要直接打印这些变量的形状。

catalpa-bungei · 发表于 2023-6-23 22:15:56

isdkz 发表于 2023-6-23 21:58
这个问题涉及到了3D计算机视觉和光线追踪中的一些基础概念。从代码中，我们可以看到 rays_rgb 是由 rays 和 ...

谢谢大佬！不过方向应该只需要2个角度就可以确定了？似乎不需要3个。

isdkz · 发表于 2023-6-23 22:18:21

catalpa-bungei 发表于 2023-6-23 22:15
谢谢大佬！不过方向应该只需要2个角度就可以确定了？似乎不需要3个。

你的观察是有道理的。一条光线的方向确实可以用两个角度（例如，球坐标系中的方位角和仰角）来完全确定。然而，这里的表示法是用的直角坐标系，而不是球坐标系。

在直角坐标系中，一个向量（在这里，就是光线的方向）通常由三个分量表示：x、y和z，这是3D空间中最常见的表示法。这里的 rays_d 就是使用这种方式表示的，即使这种表示在某种程度上包含了冗余的信息（因为它的长度或者说大小可以被归一化为1，所以实际自由度只有两个，就像你所说的两个角度）。

将其转换为两个角度的形式也是可以的，但这样做通常会使计算变得更复杂，因为大部分数学操作（如点积、叉积、长度计算等）在直角坐标系下更为简单。而且，在计算机图形学和视觉中，直角坐标系用得更广泛，这也是为什么在这里选择使用这种方式。

账号		自动登录	找回密码
密码			立即注册

[已解决]nerf中rays_rgb的shape

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块