16 avril 2026

La donnée synthétique : comment l’IA s’entraîne sur des données qu’elle a elle-même inventées

Fig. 1 — L’IA au carrefour de la génération de données, de la vision et du machine learning

Imaginez que vous apprenez à reconnaître des chats sans jamais n’en avoir vu un seul en vrai — uniquement en étudiant des milliers de dessins, de sculptures et d’illustrations. Aussi étrange que cela paraisse, c’est exactement ce que font aujourd’hui certains parmi les modèles d’intelligence artificielle les plus performants : ils s’entraînent sur des données qu’ils n’ont, en un sens, jamais « vécues ». C’est le principe de la donnée synthétique, et cette approche est en train de changer profondément la manière dont on développe des systèmes de vision par ordinateur.

Le problème : des données réelles rares, chères, ou impossibles à collecter

Tout modèle de deep learning a besoin de données — beaucoup de données. Et surtout, de données annotées : chaque image doit être étiquetée, chaque objet encadré, chaque anomalie signalée. Dans un domaine comme la détection industrielle de défauts ou la surveillance aérienne, collecter ces données relève parfois du défi insurmontable.

Prenons un exemple concret. Dans le cadre d’un projet d’innovation inscrit dans le programme Système de Combat Aérien du Futur, notre objectif était de pouvoir améliorer des modèles de détection de véhicules à partir d’images infrarouges (IR) capturées par drone. Le problème ? Les caméras IR coûtent cher, les campagnes de vol sont logistiquement complexes, et certains scénarios — fumée dense, dissimulation thermique, véhicules en mouvement dans le brouillard — sont quasiment impossibles à filmer en conditions réelles de manière reproductible.

La réponse : générer artificiellement les données manquantes, de façon si réaliste que le modèle ne voit pas la différence.

Trois grandes familles de méthodes

Il existe aujourd’hui plusieurs approches pour générer des données synthétiques. Chacune a ses forces, ses faiblesses, et ses cas d’usage de prédilection.

Les GANs (Generative Adversarial Networks)

Introduits en 2014 par Ian Goodfellow, les GANs reposent sur un principe de compétition : deux réseaux de neurones s’affrontent en permanence. Le premier — le générateur — tente de créer des images fausses aussi convaincantes que possible. Le second — le discriminateur — joue le rôle du contrôleur qualité et essaie de détecter les faux. Au fil de l’entraînement, le générateur devient de plus en plus habile, et le discriminateur de plus en plus exigeant.

Plusieurs variantes ont été développées pour des usages spécifiques : des GANs de transfert de domaine (par exemple, convertir des images RGB en infrarouge avoir de correspondance), ThermalGAN pour la génération ciblée de signatures thermiques réalistes, ou encore StyleGAN pour le contrôle fin du style et de la structure latente des images générées.

Les modèles de diffusion

Plus récents, les modèles de diffusion (comme Stable Diffusion ou DALL-E) fonctionnent sur un principe radicalement différent : ils apprennent à « débruiter » progressivement une image aléatoire pour en faire émerger quelque chose de cohérent, guidé par un prompt textuel ou une image de référence. Ils représentent aujourd’hui l’état de l’art en termes de qualité et de contrôlabilité. Des mécanismes de contrôle comme ControlNet permettent en outre une génération guidée et structurée — en conditionnant le modèle sur des cartes de profondeur, des masques de segmentation ou des bounding boxes — ouvrant la voie à des données synthétiques précisément calibrées pour des tâches de détection.

Le rendu 3D synthétique

La troisième famille s’appuie sur des moteurs de rendu 3D (Blender, Unreal Engine, Unity). L’idée : modéliser les objets d’intérêt en 3D avec leurs matériaux physiques, puis les placer dans des scènes virtuelles avec des éclairages, des fonds et des angles de vue variés. Cette méthode offre un contrôle total sur les paramètres de la scène et produit des annotations parfaites et automatiques.

Une tendance émergente consiste enfin à combiner ces familles : des architectures hybrides associant GANs, modèles de diffusion et transformers permettent de tirer parti des forces de chacun pour des cas d’usage toujours plus exigeants.

Un exemple réel : générer des images infrarouges pour la détection de véhicules

Fig. 2 — Campagne d’acquisition avec un drone équipe d’un capteur optronique

pour la catpure d’images IR et RGB en conditions réelles

Dans le cadre de ce projet, nous avons combiné plusieurs de ces approches. Des campagnes de vol ont été organisées avec un drone équipé d’une caméra IR pour capturer des images réelles dans des conditions variées : véhicules rapprochés ou dispersés, avec ou sans signature thermique, benne relevée ou non. Ces données réelles ont ensuite été complétées par des données synthétiques générées par StyleGAN et des approches hybrides.

Fig. 3 — Image infrarouge capturée depuis le drone en conditions réelles : les véhicules apparaissent en niveaux de gris selon leur signature thermique. Les points blanc brillant correspondent à des sources de chaleur (moteurs allumés).

Les limites à connaître

La donnée synthétique n’est pas une solution miracle. Le principal défi reste ce qu’on appelle le « domain gap » : l’écart de réalisme entre les données générées et les données réelles. D’autres limites existent : la création d’assets 3D de qualité peut être coûteuse, les GANs peuvent souffrir de mode collapse, et les modèles de diffusion peuvent « halluciner » des détails irréalistes.

La donnée synthétique ne remplace pas la donnée réelle. Elle la complète, l’amplifie, et lui permet de couvrir des territoires qu’elle ne pourrait jamais explorer seule.

Et demain ?

L’essor des modèles de fondation et des techniques de fine-tuning léger ouvre des perspectives fascinantes : il devient possible d’adapter des générateurs d’images pré-entraînés sur des milliards d’images à des domaines très spécifiques avec quelques centaines d’exemples seulement. La barrière à l’entrée pour générer des données synthétiques de qualité n’a jamais été aussi basse.

Chez Aquila Data Enabler, nous explorons ces approches au service de cas d’usage industriels concrets — détection d’équipements de sécurité, inspection de structures, vision infrarouge — avec la conviction que la donnée synthétique n’est pas une curiosité de laboratoire, mais un levier opérationnel réel, accessible dès aujourd’hui.

Par Équipe R&D — Aquila Data Enabler

[1] Goodfellow, I. et al. (2014). Generative Adversarial Nets. NeurIPS.

[2] Zhu, J.-Y. et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV.

[3] Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS.

Aleksandar Gostojic

VOIR TOUS LES ARTICLES