DeepPRIME XD3：第四代 AI 降噪和去马赛克技术

Petr Bambousek

厄瓜多尔，栗胸冠蜂鸟

OM System OM-1 Mark II

150-400mm f/4.5

ISO 8000 - 1/800 - f/4.5 - 150mm

DxO PureRAW - DxO PhotoLab

DxO PureRAW⁶ 全新推出面向拜耳传感器的 DeepPRIME XD3，这是 DxO 最新一代基于深度学习的 RAW 图像处理引擎。单一神经网络现可同时执行三项任务——降噪、去马赛克以及色差校正——呈现比前代更加精细的图像细节。
这项技术建立在三大核心基础之上：
一是全新的多任务架构将色差校正纳入网络处理范畴；
二是通过大量研究优化得到的卷积网络结构；
三是显著改进的训练流程，有效缩小了合成训练数据与真实 RAW 图像之间的差距。

核心优势

更出色的图像质量：色彩重建更纯净，细节更丰富，伪影更少——尤其在高频纹理与边缘区域表现更为明显；对于未配备光学低通滤镜的较新传感器效果尤为突出。
处理速度不变：尽管网络能力大幅提升，DeepPRIME XD3 在消费级硬件上的处理速度与 DeepPRIME XD2s 相当。
广泛的兼容性：DeepPRIME XD3 融合了我们在 RAW 图像处理领域的所有最新进展，并现已支持所有类型的传感器。

六年磨一剑

RAW 转换——即将相机传感器上由噪点干扰的单色采样马赛克还原为完整彩色照片的过程——二十多年来一直是 DxO 专长的核心所在。 2020 年，DxO 推出了 DeepPRIME，这是首个在单次处理流程中同时完成降噪与去马赛克的商用神经网络技术。

此后，我们不断努力将画质推向新的高度。正是深度学习与这种整体式处理方法，使我们最终得以支持 X-Trans 传感器——这种传感器应用于 Fujifilm 的部分相机型号，而此前我们的传统降噪算法一直无法支持。 2022年，我们推出了“XD”（eXtra Detail，额外细节）系列——作为
DeepPRIME 引擎的更高阶版本，旨在追求尽可能卓越的图像质量。当然，这也意味着更高的计算负载，需要强大的 GPU 支持，或者足够的耐心。

2020 — DxO PhotoLab⁴
DeepPRIME。在单一深度神经网络中同时完成降噪和去马赛克（仅支持拜耳传感器）。

2022 — DxO PureRAW ²
DeepPRIME 扩展支持 X-Trans 传感器。

2022 — DxO PhotoLab⁶
DeepPRIME XD（"eXtra Detail"，额外细节）。采用更强大的网络架构与感知损失函数，以鼓励更精细的细节还原（仅支持拜耳传感器）。

2023 — DxO PureRAW ³
DeepPRIME XD 扩展支持 X-Trans 传感器。

2024 — DxO PureRAW ⁴
DeepPRIME XD2。引入对抗性判别器损失（Adversarial Discriminator Loss），实现更自然的渲染效果（仅限拜耳传感器）。

2024 — DxO PhotoLab⁸
DeepPRIME XD2s。针对特定相机机身改进噪点校准。

2025 — DxO PureRAW ⁵
DeepPRIME 3。三项联合处理任务：降噪、去马赛克和色差校正（支持拜耳和 X-Trans 传感器）。

2025 — DxO PhotoLab⁹
DeepPRIME XD3。更强大的网络架构与两阶段训练（仅支持 X-Trans 传感器）。

2026 — DxO PureRAW ⁶
DeepPRIME XD3 扩展支持拜耳传感器。

在 DeepPRIME XD3 的开发过程中，首先聚焦 X-Trans 传感器是一个顺理成章的选择：与拜耳传感器用户已经在使用的 DeepPRIME XD2s 相比，X-Trans 版本的 DeepPRIME XD 更为老旧，也更容易被新一代技术超越。但这也让拜耳传感器用户的情况一度变得略显复杂。在大多数图像上，DeepPRIME XD2s 仍然能够提供最高的画质；然而在某些受色差影响的低 ISO 图像上，DeepPRIME 3 反而可能带来更好的结果。 DeepPRIME XD3 对拜耳传感器的支持，终于让我们回到了自 2023 年以来久违的简洁选择：无论您使用哪款相机，都可以在两种 RAW 转换神经网络之间进行选择——一种在处理速度与图像质量之间取得平衡，另一种则专注于追求极致的图像质量。

RAW 图像复原的挑战

由 CMOS 传感器拍摄的每一张数字图像，在任何软件处理之前都已经包含三种基本缺陷：

色彩马赛克：传感器并不会在每个像素位置记录完整的色彩信息。相反，一层由微型彩色滤镜组成的阵列，使每个感光单元只能记录红、绿或蓝三种颜色中的一种。因此，在每个像素位置重建缺失的另外两种颜色值，便是去马赛克的任务。在数字摄影中常见的滤镜阵列主要有两种：拜耳（约占所有数码相机的 95%）以及 X-Trans（约占其余 5%）。

传感器噪点：每个感光单元接收到的光子数量都具有随机性，由此产生的散粒噪声是光本身不可避免的物理特性，而电子读取噪点又会进一步加剧这一问题。在高 ISO 感光度下，噪点甚至可能完全掩盖细微细节。

色差：大多数镜头无法将所有波长的光精确聚焦到同一点，从而在红、绿、蓝通道之间出现微小的横向位移。这种偏移会在高反差边缘处表现为可见的彩色边缘。

传统的 RAW 处理通常将这三类问题分别处理：去马赛克算法负责插值重建缺失的色彩，独立的降噪模块抑制噪点，而第三个模块则用于校正色差。各个模块彼此独立运行，无法感知其他步骤的处理结果；同时，每一步都可能引入新的伪影，从而增加后续处理的复杂度。自 2020 年推出 DeepPRIME 以来，DxO 的思路始终是通过单一神经网络联合解决多个问题。在 DeepPRIME XD3 中，这一原则如今已扩展至同时处理上述三种缺陷。

三种缺陷，一个网络

将降噪、去马赛克与色差校正联合校正处理，其根本原因在于这三者之间存在着内在的相互依赖关系。

试想一下，当这些任务被分开处理时会发生什么? 对 RAW 图像进行降噪，需要一定程度理解马赛克排列与真实场景结构之间的关系——本质上相当于在处理过程中进行一次隐式的去马赛克。反过来，对含有噪点的图像进行去马赛克，则需要能够透过噪点辨识结构——本质上是一种隐式的降噪——因为区分真实边缘与噪点波动，对于正确的色彩插值至关重要。而当图像受到色差影响时进行去马赛克，其问题几乎等同于色差校正本身：如果红、绿、蓝三个通道在空间位置上存在横向偏移，那么要在每个像素位置重建正确的颜色，就必须在某种程度上“设想”当这些通道重新对齐后图像应当呈现的样子。

如果将这三项任务分别交由三个独立的网络处理——即使这些网络已经针对前一阶段产生的伪影进行训练——整体上仍会需要更多的参数和更高的计算量，因为每个网络都必须在内部重复实现其他网络的一部分“智能”。其结果要么是在相同画质下需要更长的处理时间，要么是在相同处理速度下只能获得更低的画质。

相比之下，单一网络可以在三项任务之间共享内部表征。它在学习如何为去马赛克检测边缘时所提取的特征，同时也能帮助区分真实信号与噪点，并识别各色通道之间的横向色度偏移。

合成训练数据

神经网络的表现很大程度上取决于其训练数据的质量。对于 DeepPRIME XD3 而言，训练数据的质量与真实度与网络架构本身同等重要。

训练数据难题

当 DxO 于 2018 年开始 DeepPRIME 研究时，一个根本性问题随之出现：如何获取监督式神经网络所需的训练样本——即退化输入图像与其对应的理想原始图像这一成对数据？

所有方案都曾被认真考虑过。最直观的方法似乎是拍摄成对的真实照片——同一场景的一张低 ISO 干净图像，与一张高 ISO 噪点图像进行配对。但实践证明这一方法并不现实：两次曝光很难做到完全对齐，移动主体会带来不一致，而且这种流程还必须针对 DxO 所支持的每一款相机机型和每一个 ISO 感光度重复进行。另一种“噪点到噪点”（noise-to-noise）方法用连拍序列代替干净的参考图像也同样面临类似的扩展性瓶颈。而传统的人工标注——大多数监督学习的基础——在这里更是无法实现：没有任何人能够仅凭一幅充满噪点、且每个像素只有单一颜色通道的马赛克图像，为数十亿个像素给出正确的全彩图像与无噪点输出。

这就只剩下一种可行方案：合成训练数据。其思路是从高质量、干净的原始照片出发，模拟真实相机传感器在拍摄过程中产生的各种缺陷。这样，每个训练样本便由一对图像构成：一张经过合成退化处理的图像，以及作为真值参考的原始完美图像。从理论上看，这是目前最具可扩展性的解决方案。 DxO 已支持 600 多款相机机身，每款机型大约对应 20 个 ISO 设置，仅这一项就带来了 12,000 多种可能配置。而这仅仅是噪点方面：色差还会受到镜头、光圈、变焦设置和对焦距离的影响。如果我们想要为每一种“相机 - ISO - 镜头”的组合都拍摄真实图像配对，配置数量将迅速膨胀到数百万级。相比之下，合成数据生成可以利用同一批真实参考图像覆盖所有这些情况。

分布差异

合成数据面临的主要挑战，是所谓的“分布差异”：即用于训练的模拟图像，与神经网络在实际应用中所处理的真实 RAW 文件之间在统计特性上的差异。

一种简单的模拟方法——例如轻微偏移色彩通道以模拟色差、移除三种颜色中的两种来模拟拜耳传感器的马赛克结构，然后添加高斯白噪点——足以生成本文白皮书中的示意图。但这远不足以训练一个神经网络。如果网络只在这种理想化的数据上进行训练，它或许能够很好地处理来自同一模拟过程的合成图像——甚至包括训练过程中从未见过的图像——但在面对真实相机拍摄的 RAW 文件时，表现却会失效。

真实的 RAW 图像在许多方面都不同于这种简单的模拟：

噪点并非纯粹的高斯白噪点：光子散粒噪声确实是白噪点，并且与信号强度相关，这是由光的物理特性所决定的。然而，真实的传感器数据通常是光子噪点与电子噪点的混合。其中的电子噪点——读取噪点、暗电流、条纹噪点——可能表现出空间相关性、非高斯分布尾部以及固定模式噪点，并且会随着不同传感器设计而有所差异。

色差在画面各处的表现并不相同：横向色移并不均匀——其大小和方向从图像中心到边角各不相同，取决于每支特定镜头的光学特性。

“RAW”文件并非真正的 RAW：在数据写入存储卡之前，相机会对信号执行一系列机内处理步骤，从而改变原始信号，例如：黑电平校正、固定模式噪点消除、静态坏点修复以及对焦像素插值。有些厂商甚至会更进一步，对所谓的 RAW 数据应用不可逆压缩，甚至进行一定程度的降噪处理。

传感器行为随使用条件而变化。 噪点特性会随传感器温度、快门模式（机械快门与电子快门）及其他工作条件的不同而发生变化。而这些特性不仅因厂商不同而有所差异，也会随着相机代际更新而改变。与此同时，厂商通常不会公开其机内处理流程的细节。因此，我们只能通过细致的观察与分析来推断这些处理机制。

弥合差距

自 2018 年以来，DxO 一直动用一切可用资源来尽量缩小这种分布差异：包括二十余年的图像信号处理经验，以及尤为关键、在业内独一无二的专有校准数据库。对于每一款受支持的相机机身、每一档 ISO 设置，DxO 实验室都拍摄并分析了校准图像——包括拍摄内容和暗场帧——以全面表征噪点的完整统计特征：不仅是标准差，还包括其分布形态、机内处理引入的空间相关性，以及这些特性在传感器不同区域和不同工作条件下的变化。这一数据库最初是为 DxO 的传统降噪算法而建立，但事实证明，它也成为了训练神经网络的宝贵基础。

有时，一些相机仍会暴露出现有模拟模型尚未覆盖的情况。一个近期的案例充分说明了这一挑战：Fujifilm 第四代和第五代 X-Trans 传感器相较于前三代发生了某些变化。尽管我们进行了大量尝试，DeepPRIME XD2 的训练流程始终未能在这些传感器上取得令人满意的效果，这也是 DeepPRIME XD2 与 XD2s 最终仅支持拜耳传感器的原因。

在 DeepPRIME XD3 的开发中，对这些传感器实现完善支持被列为首要任务。历经数月的深入研究，团队逐一剖析了新一代 X-Trans 传感器与前代之间的差异，并系统性地调整训练数据的合成方式，直至将分布差异缩小到足以让网络在这些相机拍摄的真实图像上实现良好泛化。

寻找最佳网络架构

新增第三项任务并提升去马赛克质量的要求，需要更强大的网络架构。团队首先进行了广泛探索：既测试了当今在深度学习多个领域占据主导地位的 Transformer 架构，也评估了多种卷积神经网络（CNN）设计。对于这一特定任务——从噪点干扰且信息不完整的数据中恢复细微的局部图像细节——CNN 依然表现得更为高效。其固有的局部偏置特性聚焦于小范围空间邻域，天然有助于在不凭空生成不存在结构的情况下平滑噪点。而 Transformer 由于擅长建模长距离依赖关系，反而更容易让噪点被保留下来，而不是被抑制。对于降噪任务而言，CNN 对局部规律性的这种偏好并非局限，反而正是其优势所在。

DeepPRIME XD3 的一个早期原型已经达到了预期的画质表现，但其运行速度却比 DeepPRIME XD2s 慢三倍——对于需要处理数千张图像的生产工具而言，这太慢了。因此，团队面临的挑战是：在相同计算预算下，设计出同样智能、却更高效的网络架构。为此，团队探索了多种方案，包括不同的卷积模块设计、以可分离卷积替代前几代所使用的完整 3D 卷积、测试不同的激活函数，以及调整 U-Net 各个尺度层级之间的计算资源分配。

每种候选架构都会在 Nvidia H100 GPU 上训练约三周。整个过程中共评估了约 50 种配置，仅用于架构探索的 H100 GPU 累计计算时间约达三年。

整个过程执行了两轮：第一次针对 X-Trans 传感器，第二次针对拜耳传感器。这也是为什么拜耳版本直到现在才随
DxO PureRAW ⁶ 发布，而 X-Trans 版本早在六个月前就已在 DxO PhotoLab⁹ 中推出。<4>
最终得到的是一个参数规模远超 DeepPRIME XD2s 的网络架构，但通过合理设计，使其在消费级硬件上的推理时间基本保持不变。更多的权重、更强的智能，却不会显著增加处理时间。

重新思考“再加噪”

将近二十年前，DxO 的研究人员发现了一个至今依然成立的规律：要让降噪算法仅去除部分噪点，难度极大。无论是早期的小波（wavelet）与非局部均值（non-local means）滤波器，还是如今的神经网络降噪方法，当被要求完全去除噪点时往往表现最佳；试图只去除一部分噪点，反而更容易产生伪影。降噪算法越先进，在这一过程中保留下来的细节也就越多，但即便是最优秀的降噪算法，也难免会在去除噪点的同时抹去部分细微结构。

为了避免完全降噪后图像呈现出的“塑料感”，我们的研究团队设计了一种简单而有效的技术：先让降噪算法彻底完成工作，然后将被去除的噪点中的一小部分重新添加回图像中。重新引入部分原始噪点而非合成白噪点有一个关键优势——它同时也恢复了在处理过程中丢失的部分精细细节。首款采用这一技术的产品是 DxO OpticsPro 5，发布于 2008 年。尽管 DeepPRIME XD3 的能力已远超当时的降噪与去马赛克算法，但这一原理至今依然同样有效。
在 DxO PureRAW ⁶ 中，我们重新设计了噪点重新引入与镜头校正之间的处理方式，特别是针对暗角校正与畸变校正。 现在，这两项校正都在将残余噪点重新加入图像之前完成，从而使我们能够分别处理主要图像信号与噪点成分。

暗角：RAW 图像中的噪点水平与信号水平之间存在非线性关系。对于暗角较明显的镜头，画面边缘区域的信噪比会显著下降。当我们提升边缘亮度以获得均匀亮度的图像时，噪点也会随之被放大，从而在视觉上比画面中心更加明显。解决方案是利用噪点模型——信号水平与噪点水平之间的已知关系——推导出一个校正系数，使噪点在整个画面中保持均匀，并在重新添加噪点之前将该系数应用于噪点部分。

畸变：畸变校正需要对像素网格进行几何插值。当对白噪点执行插值时，会产生两种不良效果：一是会在噪点中引入伪结构，二是会导致噪点水平出现周期性变化。在插值坐标恰好落在实际像素位置时，噪点原样保留；而在落于像素之间的位置时，噪点被平滑处理，其强度也随之降低。在
DxO PureRAW ⁶ 中，我们通过对噪点分量单独应用一种专门的插值算法来解决这一问题，从而确保在完成畸变校正后，噪点水平依然保持均匀。
这两种效果在高 ISO 设置下尤为明显，因为此时残余噪点——即使只占原始噪点的一小部分——依然清晰可见。

这一改进后的再加噪处理流程同时适用于 DeepPRIME 3 和 DeepPRIME XD3。 这很好地体现了我们对细节的重视：我们的目标不仅仅是打造世界上最优秀的降噪技术，而是构建世界上最出色的 RAW 转换引擎。

效果表现

上述所有技术进步带来的实际效果，取决于图像内容和拍摄参数。与被 DeepPRIME XD3 取代、用于 X-Trans 传感器的 DeepPRIME XD 相比，新引擎通常能呈现更干净、更自然的效果。与 DeepPRIME 3 相比，它几乎总能产出更纯净且细节更丰富的图像，并且在所有 ISO 感光度下都表现出色。与 DeepPRIME XD2s 的差异则更为细微：DeepPRIME XD3 的优势在具有精细纹理的图像、高素质镜头、无光学低通滤镜的传感器，以及存在色差的镜头上表现最为突出。其中，去马赛克和色差校正的改进在低 ISO 下最为明显，而细节保留的提升则在中高 ISO 设置下最为显著。

PureRAW 新产品