DeepPRIME XD3：第 4 世代の
AI デノイジング／デモザイキング

Petr Bambousek

チャムネフチオハチドリ、エクアドル

OM System OM-1 Mark II

150-400mm f/4.5

ISO 8000 - 1/800 - f/4.5 - 150mm

DxO PureRAW - DxO PhotoLab

DxO PureRAW⁶ に、ベイヤーセンサー向け DeepPRIME XD3 が登場。RAW 画像処理を支える DxO のディープラーニングエンジンが、最新世代へと進化しました。単一のニューラルネットワークが、ノイズ除去、デモザイキング、色収差補正の 3つのタスクを同時に処理し、前世代を超える、さらに微細なディテールを実現します。

このテクノロジーは、3つの柱で支えられています。色収差補正をネットワークの処理対象に加えた新しいマルチタスク定式化、広範な研究を通じて発見された最適化済みの畳み込みアーキテクチャ、合成トレーニングデータと実際の RAW 画像とのギャップを埋める大幅に改良されたトレーニングパイプラインです。

主なメリット

さらなる画質の向上：さらにクリーンな色の再現、より詳細なディテールと同時に、アーチファクトの低減を実現。特に高周波テクスチャやエッジの再現性に優れ、アンチエイリアシングフィルタを搭載しない最新センサーで、顕著な効果を発揮します。
同等の処理速度：大幅に強化されたネットワークでありながら、DeepPRIME XD3 は、一般的なハードウェアで DeepPRIME XD2s と同等の速度で動作します。
幅広い互換性：DeepPRIME XD3 は RAW 画像処理における最新の技術革新をすべて統合し、あらゆるセンサータイプに対応します。

6年にわたる進化の軌跡

RAW 変換とは、カメラセンサーが捉えたノイズを含む単色サンプルのモザイクをフルカラーの写真へと変換する処理です。DxO は 20年以上にわたり、この領域の最前線で専門性を磨き続けてきました。 2020年、DxO はノイズ除去とデモザイキングを単一パスで同時に実施する、世界初の商用ニューラルネットワーク DeepPRIME を発表しました。

それ以来、DxO は、品質のさらなる向上を絶え間なく追求してきました。ディープラーニングとこの包括的アプローチにより、富士フイルムのカメララインナップの一部に採用されている X-Trans センサーにも、ついに対応するようになりました。これらのセンサーは、従来のデノイザーではサポートされていませんでした。 2022年には「XD」（eXtreme Detail）ファミリーを導入しました。これは、DeepPRIME エンジン開発において二段階目にあたり、最高レベルの画質を追求する一方で、大きく負荷がかかる演算処理を伴うため、高性能な GPU か、非常に長い処理時間が求められます。

2020年：DxO PhotoLab⁴
DeepPRIME。単一のディープニューラルネットワークによるノイズ除去とデモザイキングの同時処理（ベイヤーセンサーのみ）。

2022年：DxO PureRAW ²
DeepPRIME が X-Trans センサーに対応。

2022年：DxO PhotoLab⁶
DeepPRIME XD（「eXtreme Detail」）。より高性能なアーキテクチャと知覚損失関数の採用により、さらに微細なディテールを実現（ベイヤーセンサーのみ）。

2023年：DxO PureRAW ³
DeepPRIME XD が X-Trans センサーに対応。

2024年：DxO PureRAW ⁴
DeepPRIME XD2。敵対的識別損失により、より自然なレンダリングを実現（ベイヤーセンサーのみ）。

2024年：DxO PhotoLab⁸
DeepPRIME XD2s。特定のカメラ機種に対するノイズキャリブレーションの改善。

2025年：DxO PureRAW ⁵
DeepPRIME 3。ノイズ除去、デモザイキング、色収差補正の 3 つのタスクを同時処理（ベイヤーおよび X-Trans）。

2025年：DxO PhotoLab⁹
DeepPRIME XD3。より高性能なアーキテクチャと 2 段階トレーニングの採用（X-Trans のみ）。

2026年：DxO PureRAW ⁶
DeepPRIME XD3 がベイヤーセンサーに対応。

DeepPRIME XD3 の開発にあたり、まず X-Trans から着手したのは自然な判断でした。DeepPRIME XD X-Trans バージョンは、ベイヤーユーザーがすでに利用していた DeepPRIME XD2s よりも世代が古く、その性能を超えやすかったからです。しかしその結果、DeepPRIME XD2s にとっては、やや複雑な状況が発生しました。ほとんどの画像では DeepPRIME XD2s が最高の品質を実現していましたが、色収差の影響を受けた低 ISO 画像では、DeepPRIME 3 のほうがむしろ良い結果を出す場合がありました。ベイヤーセンサー向け DeepPRIME XD3 のリリースにより、2023年当時のシンプルな状況に戻ります。お使いのカメラを問わず、2つの RAW 変換ネットワーク（速度と画質のバランスを重視するもの、最高の画質を実現するもの）から選択できるようになります。

RAW 画像復元の課題

CMOS センサーが捉えるすべてのデジタル画像には、ソフトウェアがピクセルを処理する前の段階で、3つの根本的な欠陥が含まれています。

カラーモザイク：センサーは、各ピクセルでフルカラーを取得するわけではありません。微小なカラーフィルターのグリッドにより、各受光素子は 3色（赤・緑・青）のうち 1色しか記録できません。すべてのピクセルで欠落している 2 色を復元する処理が、デモザイキングです。デジタル写真で広く使われているフィルタパターンは、2種類あります。全デジタルカメラの約 95% が採用するベイヤーと、残り約 5% に搭載される X-Trans です。

センサーノイズ：各受光素子が、ランダムな数のフォトンを捕捉します。ショットノイズは、光そのものに内在する避けられない性質であり、電子的なリードノイズによりさらに増幅されます。高 ISO 感度では、ノイズにより微細なディテールが完全に失われてしまうこともあります。

色収差：ほとんどのレンズは、すべての波長の光をまったく同じ点に結像させるわけではありません。その結果、赤・緑・青チャネル間にわずかな横方向のずれが生じ、高コントラストのエッジに沿ってカラーフリンジとして現れます。

従来の RAW 処理では、これら 3つの問題を独立して扱います。デモザイキングアルゴリズムが欠落色を補間し、別のデノイザーがノイズを抑制し、別のモジュールが色収差を補正します。各モジュールは、互いの判断を把握することなく独立して動作し、各モジュールが固有のアーティファクトを生成して、次の段階の処理が複雑になる可能性があります。DxO のアプローチは、2020年の DeepPRIME 登場以来、一貫して複数の問題を単一のニューラルネットワーク内で同時に解決するというものです。 DeepPRIME XD3 により、その原則がついに 3つの欠陥すべてに適用されるようになります。

3つの欠陥、1つのネットワーク

ノイズ除去、デモザイキング、色収差補正を同時に解決すべき理由は、根本的な相互依存性にあります。

これらのタスクを分離した場合に、何が起こるか考えてみましょう。 RAW 画像のノイズ除去には、モザイクパターンが実際のシーンとどのように対応しているかを理解する必要があります。つまり、暗黙的なデモザイキングをリアルタイムで行うことが求められます。逆に、ノイズの多い画像をデモザイキングするには、ノイズを通して構造を見抜く能力、つまり暗黙的なノイズ除去が求められます。なぜなら、本来のエッジとノイズの揺らぎを区別することが、正確な色補間に不可欠だからです。さらに、色収差の影響を受けた画像のデモザイキングは、その色収差を補正するのとほぼ同じ問題です。赤・緑・青チャネルが互いに横方向にずれている場合、各ピクセルで正しい色を再構築するには、チャネルが揃っている状態の画像を推定する必要があるからです。

これら 3つのタスクを 3つの別々のネットワークに分割した場合、前段階で生成されたアーチファクトに対応するよう学習させたとしても、各ネットワークが他のネットワークのインテリジェンスの一部を内部で再現する必要があるため、全体としてより多くの負荷と演算が必要になります。その結果、同等の品質を得るには処理時間が長くなり、同等の速度を求めれば品質が低下することになります。

一方、単一のネットワークであれば、3 つのタスクすべてで内部再現を共有できます。デモザイキングのためにエッジ検出を学習した機能は、シグナルとノイズの識別や、横方向のクロマティックシフトの検出にも活用されます。

合成トレーニングデータ

ニューラルネットワークの性能は、学習データの質に左右されます。 DeepPRIME XD3 では、トレーニングデータの品質と現実性が、ネットワークアーキテクチャそのものと同等に重要になります。

トレーニングデータの課題

2018年に DxO で DeepPRIME の研究が始まったとき、根本的な問いがありました。教師ありニューラルネットワークに必要なトレーニング例、つまり劣化した入力画像と対応する完璧なオリジナルのペアを、どのように取得するかという問題です。

あらゆる選択肢が検討されました。実際の写真のペア（クリーンな低 ISO 画像とノイズの多い高 ISO 画像を同じシーンで撮影）は自然に思えましたが、実用的ではありませんでした。2つの露光は完全には一致せず、動く被写体は一貫性がなくなり、さらに DxO がサポートするすべてのカメラ機種と ISO 感度の組み合わせごとに繰り返す必要があるからです。クリーンなリファレンスの代わりにバースト撮影シーケンスを使用するノイズ・トゥ・ノイズのアプローチは、同様のスケーリング上の制約を抱えています。そして従来のラベリング（教師あり学習の基本手法）も、ここでは不可能です。ノイズを含む単一チャネルのピクセル値のモザイクを見て、人間が数十億ピクセルに対してノイズのない正しいフルカラーの出力を提示することはできません。

残されたのは、合成データ生成でした。自然な高品質の写真を出発点とし、実際のカメラセンサーが導入する欠陥をシミュレーションする手法です。つまり各トレーニングサンプルは、合成的に劣化させた画像と、正解データとなるオリジナルの高画質のペアで構成されます。理論上、これは最も拡張性がある方法です。DxO は 600種以上のカメラ機種をサポートしており、それぞれ約 20 の ISO 設定があるため、12,000通り以上の組み合わせが可能です。しかもこの数字はノイズだけを考慮したものです。色収差はレンズ、絞り、ズーム設定、フォーカス距離によっても変化します。すべてのカメラ、ISO、レンズの組み合わせに対して実際の画像のペアを撮影しようとすれば、構成数は数百万規模に膨れ上がります。合成データ生成であれば、同一の正解画像プールから、そのすべてをカバーできます。

分布ギャップ

合成データの課題は、分布ギャップと呼ばれる現象です。シミュレーションされたトレーニング画像と、ネットワークが実際に処理することになる本物の RAW ファイルの間の統計的な差異を指します。

このホワイトペーパーの上記の図を生成するには、単純なシミュレーション、つまり色収差を模倣するためにカラーチャネルをわずかにずらし、ベイヤーモザイクを再現するために 3色のうち 2色を除去し、さらにホワイトガウスノイズを加えるだけの処理で十分です。しかし、ニューラルネットワークの学習には不十分です。このような理想化されたデータで学習したネットワークは、同じシミュレーションから生成された合成画像（学習時に見たことのない画像も含む）に対しては優れた性能を発揮しますが、実際のカメラで撮影された本物の RAW ファイルでは機能しません。

実際の RAW 画像は、単純なシミュレーションとは無数の点で異なります。

ノイズは、純粋なホワイトガウスではない：フォトンショットノイズは確かに白でシグナル依存性があります。これは光の物理法則によって保証されています。しかし実際のセンサーデータは、光子ノイズと電子ノイズが混在しています。電子ノイズ（リードノイズ、暗電流、バンディング）は空間的な相関を持ち、非ガウス分布の裾や、センサー設計ごとに異なる固定パターンを示すことがあります。

色収差は、画面全体で均一ではない：横方向のカラーシフトは一様ではなく、各レンズ固有の光学特性に従って、画像中心から隅にかけて、大きさと方向が変化します。

「RAW」ファイルは、真の RAW ではない：データがメモリカードに書き込まれる前に、カメラは一連のカメラ内処理（ブラックレベル補正、固定パターンノイズ減算、静的欠陥ピクセル補正、フォーカスピクセル補間など）を適用し、シグナルを変更します。メーカーによっては、RAW データとして記録するものに対して、非可逆圧縮やノイズ除去まで適用する場合もあります。

センサーの動作は、使用状況によって変化する： ノイズ特性は、センサーの温度、シャッター方式（メカニカル／電子）、その他の動作条件によって変わる可能性があります。こうした特性は、メーカーごとに異なるだけでなく、同じメーカーでも世代によって大きく変わります。メーカーは内部処理を公開していないため、注意深い観察に基づいて、その処理内容を推測する必要があります。

ギャップを埋める

2018年以来、DxO はこの分布ギャップを最小化するために、20年以上にわたる画像信号処理の専門知識、そして非常に重要な、業界に類のない独自のキャリブレーションデータベースなど、あらゆるリソースを活用してきました。 DxO のラボでは、サポートするすべてのカメラ機種について、各 ISO 設定ごとにキャリブレーション画像（撮影コンテンツとダークフレームの両方）を撮影・分析し、ノイズの標準偏差だけでなく、その完全な統計プロファイル（分布、カメラ内処理に起因する空間的相関、さらにセンサー上の位置や動作条件によるこれらの特性の変化）を把握しています。このデータベースは、もともと DxO の従来のノイズ除去アルゴリズム向けに構築されたものでしたが、ニューラルネットワークのトレーニングにおいても、かけがえのない基盤となりました。

しかし、既存のシミュレーションではカバーしきれないギャップが、一部のカメラで明らかになることもあります。その課題は、最近の例で端的に示されています。富士フイルムの第 4 世代・第 5 世代 X-Trans センサーで、最初の 3 世代と比べて何かが変化していたのです。徹底して取り組んだにもかかわらず、DeepPRIME XD2 のトレーニングパイプラインではこれらのセンサーに対して満足のいく結果を得ることができなかったため、DeepPRIME XD2 および XD2s は、ベイヤーセンサー専用としてリリースされました。

DeepPRIME XD3 では、これらのセンサーへの適切な対応が最優先課題でした。数か月にわたる調査を通じて、開発チームは新世代 X-Trans センサーが前世代とどのように異なるかを解明し、ネットワークがこれらのカメラの実画像に対して十分に汎化できるように分布ギャップが小さくなるまで、トレーニングデータの合成プロセスを体系的に調整し続けました。

最適なアーキテクチャの探索

3つ目のタスクの追加とデモザイキング品質の向上には、より高性能なネットワークが必要でした。チームはまず、幅広い調査に着手しました。現在多くのディープラーニング分野で主流となっている Transformer アーキテクチャに加え、複数の畳み込みニューラルネットワーク（CNN）設計をテストしました。この特定のタスク、つまりノイズが多く不完全なデータから微細な局所的画像ディテールを復元する処理においては、CNN のほうが効果的であることが実証されました。 CNN に内在する局所バイアス（小さな空間的近傍に焦点を当てる特性）は、存在しない構造をハルシネーションすることなく、自然にノイズの平滑化を促します。長距離依存関係をモデル化する Transformer は、ノイズを抑制するよりも、通過させてしまう傾向がありました。ノイズ除去においては、CNN の局所的な規則性へのバイアスは制約ではなく、むしろ利点です。

DeepPRIME XD3 の初期プロトタイプは目標の品質を達成しましたが、処理速度が DeepPRIME XD2s の 3倍も遅く、数千枚の画像を扱う実用ツールとしては処理速度が遅すぎる状態でした。そこで課題となったのは、同等の計算予算に収めながら、同じだけのインテリジェンスを発揮できるアーキテクチャを見つけることでした。開発チームは、さまざまな畳み込みブロック設計、以前の世代で使用していたフル 3D 畳み込みに代わる分離可能畳み込み、異なる活性化関数、そして U-Net の各スケールに割り当てる演算量の配分を検討しました。

各候補アーキテクチャは、NVIDIA H100 GPU で、約 3週間トレーニングされました。合計約 50 の構成が検証され、アーキテクチャの調査だけで累計約 3年分の H100 GPU 時間が費やされました。

この全プロセスが、まず X-Trans、次にベイヤー向けに 2回実施されました。ベイヤーバージョンが DxO PureRAW ⁶ で今になってようやく搭載される一方、X-Trans バージョンが 6ヵ月前に DxO PhotoLab⁹ で先行リリースされていたのは、主にこのためです。

その結果、DeepPRIME XD2s よりもパラメータ数が大幅に多いものの、一般的なハードウェアでの推論時間をほぼ同等に抑えるネットワークが誕生しました。インテリジェンスが向上し、より多くの負荷がかかるものの、処理速度に大きな影響はありません。

リノイジング、再考

約 20年前、DxO の研究者たちは、今日でも変わらない事実を発見しました。ノイズ除去機能にノイズの一部だけを除去させるのは、非常に困難だということです。デノイザーは、初期のウェーブレットフィルタやノンローカルミーンフィルタから最新のニューラルネットワークにいたるまで、すべてのノイズを除去するよう指示された場合に、最も優れた性能を発揮します。部分的な除去を試みると、アーチファクトが発生しがちです。優れたノイズ除去機能ほど、ノイズ除去の過程でより多くのディテールを保持しますが、最高のノイズ除去機能でさえ、ノイズと一緒に一部の微細な構造が失われることは避けられません。

完全にノイズ除去された画像に生じる「プラスチック」のような質感を避けるため、DxO の研究者は、シンプルかつ効果的な手法を考案しました。ノイズ除去機能に徹底的にノイズ除去を行わせた後、除去されたノイズのごく一部を画像に戻すのです。合成ホワイトノイズではなく、オリジナルのノイズの一部を再導入することには、決定的な利点があります。処理の過程で失われた微細なディテールの一部も同時に復元されるということです。この手法は、2008年リリースの DxO OpticsPro 5 に初めて搭載されました。DeepPRIME XD3 は、当時のノイズ除去・デモザイキングアルゴリズムとは比較にならないほど高性能で、この原則は今も変わらず有効です。

DxO PureRAW ⁶ では、このノイズ再導入が、レンズ補正、具体的にはヴィネット補正とディストーション補正と相互作用する方法を見直しました。両方の補正が、残留ノイズを画像に戻す前に適用されるようになり、メイン信号とノイズ成分を別々に扱うことが可能になりました。

ヴィネット：RAW 画像におけるノイズレベルは、非線形のシグナルレベルにより変わります。ヴィネットが強いレンズでは、隅の S/N 比（信号対雑音比）が大幅に低下します。均一な明るさの画像を得るために隅を増幅すると、ノイズも同時に増幅され、中央部よりも明らかにノイズが目立ってしまいます。解決策は、ノイズモデル（シグナルレベルとノイズレベルの既知の関係）を用いてフレーム全体でノイズが均一になる補正ファクターを導出し、ノイズを戻す前にこのファクターを適用することです。

ディストーション：ディストーション補正には、ピクセルグリッドの幾何学的補間が必要です。ホワイトノイズに対して補間を適用すると、ノイズに偽の構造が生成され、ノイズレベルが周期的に変動する、という 2 つの望ましくない影響が生じます。補間座標が実ピクセルと一致する位置ではノイズがそのまま保持されますが、ピクセル間に位置する場合は、ノイズが平滑化されてレベルが低下します。 DxO PureRAW ⁶ では、ノイズコンポーネントに対して専用の補間アルゴリズムを個別に適用することでこの問題に対処し、ディストーション補正後もノイズレベルが均一に保たれるようにしています。

これらの効果は、残留ノイズがオリジナルの一部に過ぎないものの明確に知覚できる、高 ISO 設定で最も顕著に現れます。

この改善されたリノイジングパイプラインは、DeepPRIME 3 とDeepPRIME XD3 の両方に適用されます。 これは、DxO がどれほどディテールにこだわっているかを示す、好例です。DxO の目標は「単に」世界最高のノイズ除去を生み出すことではなく、世界最高の RAW 変換エンジンを構築することなのです。

結果

これらの進化による実際の効果は、画像の内容や撮影パラメータによって異なります。 X-Trans センサーにおいて DeepPRIME XD3 に置き換わる DeepPRIME XD と比較すると、新エンジンは、全般的によりクリーンで自然な結果を生み出します。 DeepPRIME 3 との比較では、ほとんどの場合、あらゆる ISO 感度で、よりクリーンでさらに精密な画像を実現します。 DeepPRIME XD2s との違いは、より微細です。DeepPRIME XD3 は、繊細なテクスチャの画像、シャープなレンズ、光学アンチエイリアシングフィルタを搭載しないセンサー、色収差を示すレンズの組み合わせで、最もメリットがあります。デモザイキングと色収差補正の改善は、低 ISO で、ディテール保持力の向上は、中〜高 ISO 設定で最も顕著に現れます。

PureRAW 新製品

DeepPRIME XD3：第 4 世代のAI デノイジング／デモザイキング