DeepPRIME XD3 : la quatrième génération de notre technologie de débruitage et de dématriçage par IA

Petr Bambousek

Colibris brillants à poitrine rousse, Équateur

OM System OM-1 Mark II

150-400 mm f/4,5

ISO 8000 – 1/800 – f/4,5 – 150 mm

DxO PureRAW – DxO PhotoLab

DxO PureRAW⁶ intègre DeepPRIME XD3, la toute dernière génération du moteur de traitement RAW par deep learning de DxO, maintenant compatible avec les capteurs Bayer. Désormais, le débruitage, le dématriçage et la correction des aberrations chromatiques sont réalisés en simultané par un seul réseau neuronal, avec à la clé des images encore plus détaillées qu’avec la génération précédente.

Cette technologie repose sur trois grands axes : une nouvelle formulation multitâche qui utilise le réseau neuronal pour corriger les aberrations chromatiques, une architecture convolutive optimisée, fruit de recherches approfondies, et un pipeline d’entraînement considérablement amélioré qui réduit l’écart entre les données d’entraînement synthétiques et les images RAW réelles.

Principaux avantages

Une qualité d’image supérieure. Les couleurs sont reconstruites de façon plus propre, les détails sont plus fins et le rendu comporte moins d’artefacts, en particulier sur les textures à haute fréquence et les contours, tout spécialement avec les capteurs récents dépourvus de filtre optique anti-aliasing.
Une vitesse de traitement inchangée. Malgré son réseau nettement plus performant, DeepPRIME XD3 est aussi rapide que DeepPRIME XD2s sur le matériel grand public.
Une grande compatibilité. DeepPRIME XD3 bénéficie de toutes nos avancées récentes dans le traitement des images RAW et gère maintenant tous les types de capteurs.

Six années de recherche

La conversion RAW, le processus qui transforme la mosaïque d’échantillons monochromes et bruités d’un capteur en une photographie couleur, est depuis plus de vingt ans au cœur de l’expertise de DxO. Dès 2020, DxO a introduit DeepPRIME, le premier réseau neuronal disponible sur le marché capable d'effectuer simultanément le débruitage et le dématriçage en une seule opération.

Depuis, nous n’avons pas cessé de repousser les limites de qualité. Le deep learning et cette approche globale nous ont également permis de rendre notre algorithme compatible avec les capteurs X-Trans, qui équipent une partie de la gamme d’appareils photo de Fujifilm. Nos algorithmes de débruitage classiques n’avaient jamais été en mesure de traiter leurs images. En 2022, nous avons lancé la gamme « XD » (eXtreme Detail), la deuxième génération de moteurs DeepPRIME visant la meilleure qualité d’image possible, au prix de calculs nettement plus lourds et exigeant un GPU puissant… ou une bonne dose de patience !

2020 — DxO PhotoLab⁴
DeepPRIME. Débruitage et dématriçage simultanés dans un unique réseau neuronal profond (capteurs Bayer uniquement).

2022 — DxO PureRAW ²
DeepPRIME fonctionne aussi avec les capteurs X-Trans.

2022 — DxO PhotoLab⁶
DeepPRIME XD (« eXtreme Detail »). Architecture plus puissante et fonction de perte perceptuelle, favorisant un rendu plus détaillé (capteurs Bayer uniquement).

2023 — DxO PureRAW ³
DeepPRIME XD fonctionne aussi avec les capteurs X-Trans.

2024 — DxO PureRAW ⁴
DeepPRIME XD2. Perte de discriminateur antagoniste, pour un rendu plus naturel (Bayer uniquement).

2024 — DxO PhotoLab⁸
DeepPRIME XD2s. Amélioration du calibrage du bruit pour certains boîtiers.

2025 — DxO PureRAW ⁵
DeepPRIME 3. Trois tâches simultanées : débruitage, dématriçage et correction des aberrations chromatiques (Bayer et X-Trans).

2025 — DxO PhotoLab⁹
DeepPRIME XD3. Architecture plus puissante et entraînement en deux phases (X-Trans uniquement).

2026 — DxO PureRAW ⁶
DeepPRIME XD3 fonctionne aussi avec les capteurs Bayer.

C’est tout naturellement que nous avons choisi de privilégier les capteurs X-Trans lors du développement de DeepPRIME XD3 : la version X-Trans de DeepPRIME XD était plus ancienne et plus facile à dépasser que DeepPRIME XD2s, dont les utilisateurs de capteurs Bayer bénéficiaient déjà. Cela a toutefois entraîné une situation quelque peu complexe pour ces derniers. Pour la plupart des images, DeepPRIME XD2s offrait la meilleure qualité, mais avec certaines images prises à bas ISO et présentant des aberrations chromatiques, DeepPRIME 3 pouvait en pratique donner de meilleurs résultats. Avec l’arrivée de DeepPRIME XD3 pour les capteurs Bayer, nous retrouvons la simplicité d’avant 2023 : quel que soit votre boîtier, vous avez le choix entre deux réseaux de conversion RAW. L’un d’entre eux offre le meilleur équilibre entre vitesse et qualité d’image, tandis que l’autre vise l’excellence absolue en matière de qualité d’image.

La reconstitution des images RAW : un vrai challenge

Les images numériques capturées par les capteurs CMOS présentent trois défauts fondamentaux, qui sont tous introduits avant même que notre logiciel puisse traiter les pixels :

Mosaïque de couleurs. Le capteur ne capture pas entièrement la couleur de chaque pixel. Une grille de minuscules filtres colorés ne laisse chaque photosite enregistrer qu’une seule des trois couleurs (rouge, vert ou bleu). Le dématriçage consiste justement à reconstituer les deux valeurs de couleur manquantes pour chaque pixel.Deux types de filtres sont couramment utilisés en photographie numérique : Bayer, présent sur environ 95 % des appareils photo numériques, et X-Trans, utilisé sur les 5 % restants.

Bruit du capteur. Chaque photosite collecte un nombre aléatoire de photons. Le bruit photonique qui en résulte est une propriété inévitable de la lumière elle-même, et un bruit de lecture électronique vient s’y ajouter. À haute sensibilité ISO, le bruit peut masquer entièrement les détails fins.

Aberrations chromatiques. La plupart des objectifs ne concentrent pas toutes les longueurs d’onde de la lumière exactement au même point. Cela génère de légers décalages latéraux entre les canaux rouge, vert et bleu, visibles sous la forme de franges colorées le long des contours à fort contraste.

Le traitement RAW traditionnel aborde ces trois problèmes de manière indépendante : un algorithme de dématriçage interpole les couleurs manquantes, un débruiteur distinct supprime le bruit et un troisième module corrige les aberrations chromatiques. Chaque module travaille de façon isolée, sans connaître les décisions des autres, et chacun peut introduire ses propres artefacts, ce qui complique l’étape suivante. Depuis le lancement de DeepPRIME en 2020, l’approche de DxO a toujours consisté à résoudre simultanément plusieurs problèmes avec un seul réseau neuronal. Avec DeepPRIME XD3, ce principe s’étend désormais aux trois défauts évoqués ci-dessus.

Trois défauts, un seul réseau

Mais pourquoi vouloir procéder simultanément au débruitage, au dématriçage et à la correction des aberrations chromatiques ? Tout simplement parce que ces trois défauts sont interdépendants.

Voyons ce qui se passe lorsque ces tâches sont séparées. Pour débruiter une image RAW, il faut comprendre la relation entre la mosaïque et la scène sous-jacente, et réaliser en quelque sorte un dématriçage implicite à la volée. Inversement, pour dématricer une image bruitée, il faut pouvoir discerner la structure à travers le bruit (une sorte de débruitage implicite, donc), car il est indispensable de distinguer un contour réel d’une fluctuation liée au bruit, pour interpoler correctement les couleurs. Et dématricer une image présentant des aberrations chromatiques revient presque à corriger ces aberrations : si les canaux rouge, vert et bleu sont latéralement décalés les uns par rapport aux autres, reconstruire la couleur exacte à chaque pixel exige d’imaginer à quoi ressemblerait l’image si les canaux étaient alignés.

Répartir ces trois tâches entre trois réseaux distincts, quand bien même ils sont entraînés pour gérer les artefacts produits à l’étape précédente, exige globalement plus de ressources et plus de calculs, car chaque réseau doit reproduire en interne une partie de l’intelligence des autres. Au final, le temps de traitement est plus long à qualité équivalente, ou la qualité est inférieure à vitesse équivalente.

En revanche, un réseau unique peut partager ses représentations internes entre les trois tâches. Les caractéristiques qu’il identifie pour détecter les contours lors du dématriçage l’aident aussi à distinguer le signal du bruit et à repérer les décalages chromatiques latéraux.

Des données d’entraînement synthétiques

La qualité d’un réseau neuronal dépend des données utilisées pour l’entraîner. Pour DeepPRIME XD3, la qualité et le réalisme des données d’entraînement comptent tout autant que l’architecture du réseau.

Le problème des données d’entraînement

Lorsque les recherches sur DeepPRIME ont débuté chez DxO en 2018, une question fondamentale s’est posée : comment obtenir les exemples nécessaires à l’entraînement d’un réseau neuronal supervisé, c’est-à-dire des paires d’images comprenant une image d'entrée dégradée et son original intact correspondant ?

Nous avons exploré toutes les pistes. Nous avons envisagé de réaliser des paires de photos réelles : une prise de vue propre à bas ISO accompagnée d’une version bruitée à haut ISO de la même scène. Cette approche semblait logique, mais elle s’est révélée impossible en pratique : les deux expositions ne concordaient jamais parfaitement, les sujets en mouvement généraient des incohérences, et l’opération devrait être répétée pour tous les boîtiers et toutes les sensibilités ISO gérés par DxO. L’approche « noise-to-noise », qui substitue des séquences en rafale aux références propres, souffre des mêmes limitations dès qu’il s’agit de reproduire le principe à grande échelle. Quant à la méthode classique d’annotation, grand principe de la plupart des apprentissages supervisés, elle est tout simplement impossible ici : aucun être humain ne peut regarder une mosaïque bruitée de valeurs de pixels monochromes et proposer la sortie correcte, en couleur et sans bruit, pour des milliards de pixels.

Restait donc la génération de données synthétiques : partir de photos impeccables de haute qualité et simuler les défauts qu’introduirait un vrai capteur d’appareil photo. Chaque exemple d’entraînement forme ainsi une paire : une image dégradée de façon synthétique et la version originale impeccable servant de référence, ce qu’on appelle une « vérité terrain » dans le domaine du deep learning. Sur le papier, c’est de loin la solution qui offre les meilleures possibilités de traitement à grande échelle. DxO gère plus de 600 appareils photo couvrant chacun une vingtaine de réglages ISO, soit plus de 12 000 configurations possibles. Et ce chiffre ne concerne que le bruit ! Les aberrations chromatiques dépendent de l’objectif, de l’ouverture, de la focale utilisée et de la distance de mise au point. Si nous voulions capturer des paires d’images réelles pour chaque combinaison boîtier/ISO/objectif, les configurations se compteraient en millions. La génération par synthèse permet de couvrir toutes les combinaisons à partir du même corpus d’images de vérité terrain.

L’écart de distribution

Le problème des données synthétiques, c’est un phénomène qu’on appelle « écart de distribution » : la différence statistique entre les images d’entraînement simulées et les fichiers RAW réels que le réseau rencontrera en production.

Une simulation simpliste, consistant à décaler légèrement les canaux de couleur pour imiter les aberrations chromatiques, à retirer deux valeurs de couleur sur trois pour simuler la mosaïque Bayer, puis à ajouter du bruit blanc gaussien, a suffi pour générer les illustrations ci-dessus utilisées dans ce livre blanc. Pour entraîner un réseau neuronal, cela ne suffit cependant pas. Un réseau entraîné sur des données aussi « idéalisées » fonctionnerait bien sur des images synthétiques issues de la même simulation, y compris avec des images jamais vues pendant l’entraînement, mais ne parviendrait pas à bien traiter de véritables fichiers RAW provenant de vrais appareils photo.

À plusieurs niveaux, les images RAW réelles diffèrent d’une simulation simpliste :

Le bruit n’est pas uniquement un bruit blanc gaussien. Le bruit photonique est effectivement blanc et dépend du signal, conformément aux lois physiques de la lumière. Cependant, les données réelles d’un capteur contiennent à la fois du bruit photonique et du bruit électronique. Le bruit électronique (bruit de lecture, courant d’obscurité, banding) peut présenter des corrélations spatiales, des queues non gaussiennes et des motifs fixes qui varient d’une architecture de capteur à l’autre.

Les aberrations chromatiques varient sur toute la surface de l’image. Les décalages chromatiques latéraux ne sont pas uniformes : ils varient en amplitude et en direction, du centre de l’image vers les angles, selon les propriétés optiques de chaque objectif.

Les fichiers RAW ne sont pas totalement bruts. Avant d’écrire des données sur la carte mémoire, l’appareil photo applique une série de traitements internes qui altèrent le signal : correction du niveau de noir, soustraction du bruit à motif fixe, correction des pixels défectueux statiques et interpolation des pixels de mise au point. Certains fabricants vont encore plus loin et appliquent une compression avec perte voire un débruitage tout en continuant à présenter ces données comme des données brutes (RAW, en anglais).

Le comportement du capteur dépend de l’utilisation. Les caractéristiques du bruit peuvent varier en fonction de la température du capteur, du mode d’obturation (mécanique ou électronique) et d’autres conditions de fonctionnement. Tous ces paramètres diffèrent selon les fabricants et selon les générations de boîtiers. Les fabricants ne donnent pas d’informations sur les traitements effectués en interne. Nous devons donc déduire leur fonctionnement en observant attentivement le résultat.

Réduire l’écart de distribution

Depuis 2018, DxO exploite tous les moyens à sa disposition pour réduire l’écart de distribution, notamment deux décennies d’expertise dans le traitement des signaux d’imagerie et surtout une base de données de calibrage propriétaire, sans équivalent dans l’industrie de la photo. Pour chaque boîtier compatible et chaque réglage ISO, le laboratoire de DxO a enregistré et analysé des images de calibrage, aussi bien des contenus photographiques que des images noires, pour caractériser non seulement l’écart-type du bruit, mais aussi l’ensemble de son profil statistique : sa distribution, les éventuelles corrélations spatiales introduites par les traitements embarqués du boîtier, et la manière dont ces propriétés varient sur la surface du capteur et en fonction des conditions d’utilisation. Cette base de données, initialement conçue pour les algorithmes de débruitage classiques de DxO, s’est révélée un atout inestimable pour l’entraînement des réseaux neuronaux.

Certains boîtiers révèlent cependant des lacunes que les simulations existantes ne couvrent pas. Un exemple récent illustre bien le problème : avec les capteurs Fujifilm X-Trans de 4e et 5e générations, quelque chose a changé par rapport aux trois premières générations. Malgré des efforts considérables, notre pipeline d’entraînement DeepPRIME XD2 n’est jamais parvenu à donner des résultats satisfaisants pour ces capteurs, et c’est pour cette raison que DeepPRIME XD2 et XD2s ont été lancés uniquement pour les capteurs Bayer.

Pour DeepPRIME XD3, nous tenions à assurer une comptabilité optimale avec ces capteurs. Lors d’une analyse qui a duré plusieurs mois, l’équipe a disséqué les différences entre les capteurs X-Trans récents et leurs prédécesseurs, puis a ajusté systématiquement la synthèse des données d’entraînement jusqu'à ce que l'écart de distribution soit suffisamment réduit pour permettre au réseau de bien généraliser aux images réelles issues de ces caméras.

Trouver la meilleure architecture

Puisque nous voulions ajouter une troisième tâche et obtenir une meilleure qualité de dématriçage, il nous fallait un réseau plus puissant. L’équipe a commencé par étudier toutes les possibilités. Des architectures de type Transformeur, qui dominent aujourd’hui de nombreux domaines du deep learning, ont été testées aux côtés de nombreuses architectures de réseaux neuronaux convolutifs (CNN). Pour cette tâche précise (récupérer des détails précis sur des zones très localisées à partir de données bruitées et incomplètes), ces derniers se sont révélés plus efficaces. Leur biais local intrinsèque, qui concentre l’analyse sur de petits voisinages spatiaux, favorise naturellement le lissage du bruit sans pour autant halluciner des structures inexistantes. Les transformeurs, qui modélisent les dépendances à longue portée, avaient plutôt tendance à laisser passer le bruit au lieu de le supprimer. Pour un débruiteur, le biais des réseaux neuronaux convolutifs, qui privilégient la régularité locale, est un plus un atout qu’une limitation.

Un premier prototype de DeepPRIME XD3 a permis d’atteindre la qualité visée, mais il était trois fois plus lent que DeepPRIME XD2s, et donc beaucoup trop lent pour un outil de production qui a vocation à être utilisé sur des milliers d’images. La difficulté a alors consisté à trouver une architecture aussi intelligente, mais pas plus consommatrice en puissance de calcul. L’équipe a exploré différentes approches utilisant des blocs convolutifs, des convolutions séparables à la place des convolutions 3D complètes des générations précédentes, différentes fonctions d’activation et différentes allocations de puissance de calcul entre les échelles du réseau U-Net.

Chaque architecture candidate a été entraînée pendant environ trois semaines sur un GPU Nvidia H100. Au total, quelque 50 configurations ont été évaluées, ce qui représente environ trois années cumulées de calcul sur le GPU H100, consacrées exclusivement à l’analyse des différentes architectures.

Tout ce processus a été réalisé deux fois : d’abord pour X-Trans, puis pour Bayer. Voilà la raison principale qui explique pourquoi la version Bayer n’arrive que maintenant dans DxO PureRAW ⁶, alors que la version X-Trans était déjà disponible six mois avant dans DxO PhotoLab⁹.

Au final, le réseau comporte nettement plus de paramètres que DeepPRIME XD2s. Ils sont agencés de manière à maintenir un temps d’inférence identique ou presque sur du matériel grand public. Plus de poids et plus d’intelligence, mais sans ralentissement significatif.

Une nouvelle approche du rebruitage

Il y a près de vingt ans, les chercheurs de DxO ont fait une observation qui reste valable aujourd’hui : un débruiteur a beaucoup de mal à ne supprimer qu’une partie du bruit. Les débruiteurs, aussi bien les filtres à ondelette ou à moyenne non locale que les réseaux neuronaux modernes, donnent généralement de meilleurs résultats lorsqu’on leur demande de supprimer intégralement le bruit. Les tentatives de suppression partielle génèrent souvent des artefacts. Plus le débruiteur est performant, plus il préserve de détails, mais même les meilleurs débruiteurs effacent inévitablement une partie des structures fines en même temps que le bruit.

Pour éviter l’aspect « plastique » des images débruitées intégralement, nos chercheurs ont mis au point une technique simple mais efficace, qui consiste à laisser le débruiteur faire son travail intégralement, puis à réinjecter une petite fraction du bruit supprimé dans l’image. Réintroduire une partie du bruit d’origine au lieu de bruit blanc synthétique a un avantage majeur : l’opération réintroduit aussi une partie des détails fins perdus lors du traitement. C’est DxO OpticsPro 5, sorti en 2008, qui a intégré cette technique en premier. Même si DeepPRIME XD3 est infiniment plus puissant que les algorithmes de débruitage et de dématriçage datant de cette époque, le principe reste plus pertinent que jamais.

Pour DxO PureRAW ⁶, nous avons retravaillé les interactions entre cette réintroduction du bruit et nos corrections optiques, en particulier pour le vignetage et la correction de la distorsion. Les deux corrections sont désormais appliquées avant la réinjection du bruit résiduel dans l’image, ce qui nous permet de traiter différemment le signal principal et le bruit.

Vignetage. Le niveau de bruit présent dans les images RAW dépend du niveau du signal, de manière non linéaire. Avec un objectif présentant un vignetage prononcé, le rapport signal/bruit diminue significativement dans les angles. Si on amplifie les angles pour obtenir une image uniformément lumineuse, on amplifie aussi le bruit, qui devient visiblement plus marqué qu’au centre. La solution consiste à utiliser le modèle de bruit (la relation connue entre niveau de signal et niveau de bruit) pour dériver un facteur de correction produisant un bruit homogène sur toute l’image, puis à appliquer ce facteur au bruit avant de le réinjecter.

Distorsion. La correction de la distorsion nécessite une interpolation géométrique de la grille de pixels. Appliquée au bruit blanc, l’interpolation introduit deux effets indésirables : elle crée des structures parasites dans le bruit et provoque des variations périodiques de son niveau. Aux endroits où la coordonnée interpolée coïncide avec un pixel réel, le bruit est conservé tel quel. En revanche, aux endroits situés entre deux pixels, le bruit est lissé et son niveau chute. Dans DxO PureRAW ⁶, nous avons résolu ce problème en appliquant séparément un algorithme d’interpolation spécialisé à la composante de bruit, pour garantir un niveau de bruit uniforme après correction de la distorsion.

Ces deux effets sont les plus visibles à hauts ISO, lorsque le bruit résiduel (quand bien même il ne représente qu’une fraction du bruit d’origine) reste nettement perceptible.

Ce pipeline de rebruitage amélioré s’applique à DeepPRIME 3 comme à DeepPRIME XD3. Il témoigne encore une fois du soin que nous portons aux détails : notre ambition n’est pas « seulement » de concevoir le meilleur débruiteur au monde, mais aussi le meilleur moteur de conversion RAW.

Les résultats

En pratique, l’impact de ces avancées dépend du contenu de l’image et des paramètres de prise de vue. Par rapport à DeepPRIME XD, remplacé par DeepPRIME XD3 pour les capteurs X-Trans, le nouveau moteur produit généralement des résultats plus propres et plus naturels. Par rapport à DeepPRIME 3, il délivre presque systématiquement des images à la fois plus propres et plus détaillées, quelle que soit la sensibilité ISO. La différence avec DeepPRIME XD2s est plus subtile : DeepPRIME XD3 offre un résultat visiblement meilleur sur les images présentant des textures fines, prises avec des objectifs à haute résolution, des capteurs dépourvus de filtre optique anti-aliasing et des objectifs sujets aux aberrations chromatiques. Les améliorations sur le dématriçage et la correction des aberrations chromatiques sont plus visibles à bas ISO, tandis que les améliorations sur la préservation des détails sont particulièrement visibles sur les images prises avec une sensibilité ISO moyenne ou élevée.

New product Nouveau produit PureRAW