基于多尺度特征融合的NeRF三维重建方法-AET-电子技术应用

基于多尺度特征融合的NeRF三维重建方法

电子技术应用

陈德锋1，2，3，胡军国1，刘正丰1，2，3，朱超1

1.浙江农林大学数学与计算机科学学院；2.国家林草局林业感知技术与智能装备重点实验室；3.临安市农业信息中心实践基地

摘要： 三维重建在计算机视觉与人工智能、医学影像、建筑与城市规划等领域中至关重要。针对传统手工建模效率低下的问题，提出一种基于神经辐射场的多尺度融合和注意力机制的方法。该方法引入了多尺度特征模块，并结合图卷积网络增强了网络对空间结构的理解，从而精确捕捉局部与全局的几何关系。多尺度特征模块能够在不同层次上提取信息，改善细节重建的准确性和全面性，进而提升整体重建质量。此外，为了进一步提高模型的鲁棒性与精度，通过引入特征金字塔网络，确保网络在不同尺度下均能有效捕捉重要信息，尤其是在复杂场景中能够避免细节丢失。结合SE注意力机制，模型能够自适应地对图像中的关键区域进行聚焦，增强重要特征的表现，提升了在复杂环境下的重建效果。实验结果表明，该方法在自建建筑物数据集上的结构相似性、峰值信噪比和感知损失分别为0.784、25.42、0.183，较NeRF模型分别提升了4.39%、3.29%、15.84%，能够更好地处理复杂的重建任务，为各类应用领域中的三维重建提供了一个新思路。

关键词： 三维重建图卷积网络特征金字塔 NeRF SE

中图分类号：TP391.4 文献标志码：A DOI: 10.16157/j.issn.0258-7998.256786
中文引用格式： 陈德锋，胡军国，刘正丰，等. 基于多尺度特征融合的NeRF三维重建方法[J]. 电子技术应用，2026，52(4)：89-95.
英文引用格式： Chen Defeng，Hu Junguo，Liu Zhengfeng，et al. NeRF-based 3D reconstruction with multi-scale feature fusion[J]. Application of Electronic Technique，2026，52(4)：89-95.

NeRF-based 3D reconstruction with multi-scale feature fusion

Chen Defeng1，2，3，Hu Junguo1，Liu Zhengfeng1，2，3，Zhu Chao1

1.College of Mathematics and Computer Science， Zhejiang A & F University；2.Key Laboratory of Forestry Perception Technology and Intelligent Equipment of the State Forestry and Grassland Administration；3.Lin'an Agricultural Information Center Practice Base

Abstract： 3D reconstruction plays a critical role in various fields, including computer vision and artificial intelligence, medical imaging, architecture, and urban planning. To address the inefficiency of traditional manual modeling methods, this paper proposes a method based on Neural Radiance Fields(NeRF) that incorporates multi-scale fusion and attention mechanisms. The approach introduces a multi-scale feature module combined with graph convolutional networks to enhance the network's understanding of spatial structures, allowing for more accurate capture of both local and global geometric relationships. The multi-scale feature module extracts information at different levels, improving the accuracy and comprehensiveness of detail reconstruction, which in turn enhances overall reconstruction quality.Additionally, to further improve the model's robustness and precision, a feature pyramid network is introduced to ensure the network can effectively capture important information across different scales, particularly in complex scenes where details might otherwise be lost. The integration of the Squeeze-and-Excitation attention mechanism allows the model to adaptively focus on key regions in the image, enhancing the representation of important features and improving reconstruction performance in challenging environments.Experimental results demonstrate that the proposed method outperforms the NeRF model on a self-built building dataset, achieving SSIM, PSNR and LPIPS of 0.784, 25.42 and 0.183, respectively. These metrics show improvements of 4.39%, 3.29% and 15.84% over the NeRF model, indicating better handling of complex reconstruction tasks. This method provides a new approach for 3D reconstruction in various application domains.

Key words : 3D reconstruction；graph convolutional network；feature pyramid network；NeRF；SE attention

引言

多视角三维重建[1]是计算机视觉和计算机图形学中的一个重要领域，旨在从多个视角的图像中恢复三维场景的几何和纹理信息。传统的三维重建方法依赖于几何学和光学原理，通过多视角立体（Multi-View Stereo, MVS）技术[2]、结构光[3]、激光扫描[4]等方法来进行场景重建。MVS方法通过对多张图像的特征提取、匹配和视差计算，从而生成稠密的三维点云。这类方法在早期取得了显著的成功，但由于其依赖于精确的相机标定、视角的丰富性及表面的纹理信息，在复杂场景或缺乏纹理的表面（如光滑的物体或阴影区域）中表现较差，且计算复杂度较高。

随着深度学习的快速发展，卷积神经网络[5]（Convolutional Neural Networks, CNN）开始被广泛应用于三维重建领域，极大地推动了多视角三维重建技术的发展。YAO Y等人的MVSNet[6-7]作为一种里程碑式的工作，提出了一种基于深度学习的框架，通过体素体积匹配（volumetric matching）[8]技术显著提高了重建的精度和效率。MVSNet通过端到端的卷积神经网络进行特征学习和视差计算，克服了传统方法在特征提取和匹配上的限制，能够有效处理更多样化的场景和输入数据。尽管MVSNet在精度上取得了突破，但其在处理大场景时仍然面临计算资源的挑战。随后，同样是YAO Y等人提出了R-MVSNet[9]，在MVSNet的基础上，改进了网络的正则化过程，并引入了更高效的计算策略，显著减少了GPU的计算负担，使得处理大规模场景和高分辨率图像变得更加高效。在R-MVSNet的成功基础上，GU X等人进一步提出了CasMVSNet[10]，这是一种针对复杂场景和高分辨率图像优化的多视角立体重建方法。CasMVSNet通过引入条件自适应模块，能够动态调整网络的计算资源，以适应不同复杂度的场景，从而有效提高了深度估计的准确性和效率。与此同时，MILDENHALL B等人提出的神经辐射场（Neural Radiance Field, NeRF）[11]技术带来了革命性的变化。NeRF通过学习场景的隐式表示，结合体积渲染技术，能够生成高质量的合成图像，处理光照变化和视角变换。GARBIN S J等人提出FastNeRF[12]，通过层次化体积采样、网络压缩和并行计算等技术，大幅提升了NeRF渲染速度。CHEN A等[13]结合了多视角立体技术与神经辐射场模型，提出了MVSNeRF，该方法通过利用多个视角的图像信息，增强了神经辐射场在复杂场景下的表现，优化了深度估计和视图合成的过程。YU A等[14]提出了PlenOctrees，该方法结合了神经网络和八叉树数据结构，通过将神经辐射场的表示转化为稀疏体积表示，显著加快了三维场景的渲染过程，同时保留了高质量的图像生成能力。

本文提出了一种端到端的基于注意力机制与神经辐射场的多视角三维重建网络。针对神经网络在复杂场景中常出现的特征错误匹配问题，本文在特征提取部分引入了SE（Squeeze-and-Excitation）注意力机制[15]，以增强网络在特征学习中的自适应能力。通过使用SE模块，网络能够动态地调整不同特征通道的权重，从而更加关注图像中重要的几何和纹理信息，尤其是在弱纹理或表面光滑的区域，有效地提升了细节恢复的准确性。为了解决大规模场景中的多尺度特征提取和融合问题，本文还引入了特征金字塔网络（Feature Pyramid Network，FPN）[16]。FPN通过多尺度特征融合的方式，帮助网络在不同层次上提取场景的全局和局部信息。该模块能够有效捕捉到细节层次的变化，同时保证全局结构的稳定性，使得网络在处理复杂和高分辨率图像时，能够更好地平衡精度与计算效率。此外，为了进一步增强网络对场景结构的建模能力，本文还引入了图卷积网络（Graph Convolutional Network, GCN）[17]，通过对图像中的空间结构进行建模，使网络能够更好地理解和推理场景的几何关系，尤其是在复杂的几何形状和物体交互部分。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000007044

作者信息：

陈德锋1，2，3，胡军国1，刘正丰1，2，3，朱超1

（1.浙江农林大学数学与计算机科学学院，浙江杭州 311300；

2.国家林草局林业感知技术与智能装备重点实验室，浙江杭州 311300；

3.临安市农业信息中心实践基地，浙江杭州 311300）

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容