12 février 2021

Télédétection spatiale et aérienne : cas d’usages

Retrouvez toutes nos autres videos sur notre chaîne YouTube.

Cette dernière partie dresse un état de l’art cette fois-ci sur l’extraction d’information des images pour servir un objectif fixé. Un intérêt particulier est porté sur la cartographie de l’occupation des sols, notion qui sera développée dans la suite.

Pour lire la première partie de l’article, cliquez ici

Pour lire la deuxième partie de l’article, cliquez ici

Cartographie mono-temporelle d’occupation des sols (OCS) :

Cette cartographie consiste à classifier la surface terrestre imagée par un capteur selon une nomenclature donnée. Chaque pixel se voit assigner un label disponible dans cette nomenclature. On peut ainsi dresser à un instant t l’état des lieux en termes environnemental ou urbain, ou bien, avec l’offre de satellites disponibles, on peut, au travers de millésimes différents sur un territoire par exemple, suivre l’évolution du paysage qu’on y observe (déforestation, artificialisation des sols, surfaces enneigées, …). Les études suivantes utilisent des données satellites mais aussi des images acquises par avion. Il existe plusieurs datasets disponibles pour l’évaluation de modèles en recherche :

Les jeux de données Potsdam et Vaihingen sont fournis par l’ISPRS (https://www2.isprs.org/commissions/comm2/wg4/benchmark/semantic-labeling/) et sont constitués de mosaïques d’images acquises par avion sur chacune des deux villes. Les données sont submétriques (respectivement 5 cm et 9 cm) dans les bandes RGB-IR, et on dispose également de l’information altimétrique en chaque point par le biais d’un Modèle Numérique de Surface (MNS) construit par photogrammétrie à partir des images aériennes, offrant ainsi une cohérence temporelle parfaite entre les deux modalités.
OpenStreetMap (OSM) est utilisé à plusieurs reprises, dans des domaines au-delà de l’OCS également. Cette base de données géographiques a vocation à être nourrie de manière collaborative : en des termes statistiques, OSM présente une importante précision (les objets répertoriés sont généralement corrects), mais un faible rappel étant donné que c’est sur la base du volontariat qu’un objet géographique est saisi (manque d’exhaustivité).
Les bases de données géographiques nationales gérées par les établissements publics tels que l’Institut Géographique National en France, l’Ordnance Survey en Angleterre. Leur constitution est généralement manuelle (opérateurs sur terrain) et exhaustive sur les thématiques ciblées (bâti, réseau routier, hydrologique, parcelles agricoles, forestières), bien que rarement complètement à jour pour des raisons évidentes d’effort à fournir pour relever l’ensemble des objets sur un territoire à l’échelle nationale. Ces bases de données, à l’image d’OSM, sont vectorielles et donc une réflexion sur l’adéquation de leur précision spatiale par rapport à la résolution des images utilisées doit être menée en amont (si les bâtis sont localisés à 1 m près dans la base de données, alors des images SPOT à 1.5 m peuvent être envisagées pour traiter ce type d’objet par exemple). La classification d’images telles que présentée précédemment ne peut pas être utilisée sur des images satellites de moyenne résolution type Landsat 8 car ces images contiennent une variabilité de paysages trop importante : par exemple, chaque image Landsat couvre une zone géographique de 185 km x 180 km. Pour pallier ce problème, Sharma et al. [1], par un CNN patch-based pensé pour ce type d’image et de résolution, classifie des petits blocs de pixels 5×5 au sein des images Landsat. Ce dimensionnement est choisi pour (i) permettre une analyse spatiale locale, (ii) assure une homogénéité spectrale dans le voisinage du pixel central. Les patchs d’apprentissage sont générés de manière à garantir le critère de pureté relative que 60% au moins des pixels ont le label du pixel central (et par conséquent, le label du patch lui-même).
Les architectures de segmentation sémantique constituent la majeure partie des travaux aujourd’hui en cartographie d’OCS, par leur capacité à attribuer à chacun des pixels d’une image le label correspondant, offrant une résolution spatiale similaire à celle de l’image satellite. Ces architectures sont particulièrement adaptées aux capteurs à très haute résolution (1,5 m et moins) imageant des paysages avec une variation paysagère importante, et pour des scènes urbaines, côtières ou toute thématique nécessitant une analyse spatiale fine du territoire étudié (réseau routier, hydrologique, haies). Pour préserver la résolution spatiale, beaucoup de travaux reposent sur des architectures encodeur-décodeur dotées de couches fully convolutional [2] qui sont la clé pour préserver l’information spatiale contenu dans les images et les features appris par le modèle au fil des couches convolutives :

La partie encodeur a pour objectif d’extraire les caractéristiques les plus pertinentes de l’image pour discriminer chaque classe en chaque pixel (apprentissage de l’espace latent). Les features produits sont spatialement très peu résolus dus au couches de max-pooling successives
La partie décodeur est chargée de ré-échantillonner progressivement les features jusqu’à l’obtention d’une carte segmentée et sémantisée à la résolution de l’image d’origine.

Marmanis et al. [3] propose une approche ensembliste : une même architecture (VGG16 sous format encodeur-décodeur) est ré-entraînée trois fois à partir de trois pré-entraînements différents sur trois datasets (PASCAL VOC, ImageNet, Places), sur le jeu de données Vaihingen de l’ISPRS. Les méthodes ensemblistes (approche bayésienne) sont connues pour être robustes en évitant un apprentissage trop déterministe de la part d’un seul modèle. L’auteur montre en effet des performances accrues en agrégeant les probabilités issues de chaque modèle plutôt que de n’utiliser qu’un modèle pour effectuer la prédiction finale. Par ailleurs, l’architecture utilise les deux modalités disponibles dans ce dataset, MNS et images, ce qui s’avère être souvent décisif pour discriminer certaines classes d’OCS (l’altitude est un critère très efficace pour distinguer le bâti des routes par exemple). MNS et images sont analysés par deux branches différentes dans le CNN pour caractériser le milieu étudié d’un point de vue purement altimétrique et d’un point de vue purement radiométrique dans un premier temps. Ces deux types de caractéristiques sont ensuite rassemblées dans un tronc commun du CNN pour extraire des features mêlant l’information jointe de ces deux modalités.

Dans une seconde étude [4], l’auteur adresse le problème de contours souvent flous ou difficiles à localiser précisément dans les tâches de segmentation d’images, en utilisant au préalable un détecteur de contours [5]. La sortie de ce détecteur est concaténée à l’image de départ, et est ensuite soumise au modèle de segmentation. Comme dans son papier précédent, l’emploi de plusieurs modèles est réalisé, avec une interaction différente des contours détectés selon le modèle (réinjection de cette image de contours à des stades plus ou moins avancés du modèle selon sa nature). L’ajout de cette image de contours améliore la délimitation des objets au moment de la segmentation finale.

Chen et al. [6] adopte une approche différente pour avoir une segmentation à la résolution de l’image initiale. D’une part, le mécanisme « atrous » [7] modifie les couches de convolutions traditionnelles en augmentant la taille des filtres pour prendre en compte un contexte spatial élargi (ce procédé est d’ailleurs également appelé convolutions dilatées) sans pour autant accroître le nombre de paramètres (filtres ne considérant qu’une partie des pixels qu’il couvrent pour calculer les features successifs). La résolution initiale est restaurée par l’usage de « shuffling operator » qui réordonne les features de l’avant-dernière couche de convolution de manière à obtenir une image à la résolution souhaitée en fin d’architecture.

La possibilité d’utiliser plusieurs modalités (MNS, radar, optique) en imagerie satellite est unique en analyse d’image, et constitue l’une des forces de ce type d’image. Malgré tout, de nombreux travaux reposent sur la disponibilité systématique de ces modalités : les CNNs sont construits pour un format de données d’entrée bien précis, MNS + image optique par exemple. Ienco et al. [8] confronte le problème suivant : d’une part l’imagerie satellite Sentinel-2 dans le domaine du visible ou proche visible est sujet à l’occlusion de plusieurs portions d’image par la présence de nuage, et d’autre part les images Sentinel-1 permettent une acquisition active (émet son propre train d’onde) dans le spectre d’ondes radios, insensible généralement à la présence de nuage. Un capteur actif émet son propre signal, et mesure le temps mis par le signal émis pour revenir après avoir été rétrodiffusé par la surface qu’il a rencontrée. Les capteurs radar peuvent donc imager à tout instant (même la nuit), ne mesurant pas la réflectance du rayonnement solaire à l’instar des capteurs optiques. Les auteurs entraînent deux modèles : le premier (teacher) intègre l’information radar et optique au travers d’un CNN à deux branches (une pour chaque modalité) et optimise une entropie croisée, le second (student) n’est nourri que de l’information radar et utilise un MLP mais est guidé par le modèle teacher par le biais de deux fonctions de coûts en plus de l’entropie croisée. La première minimise la différence entre les features issus du premier CNN et ceux du MLP pour rendre l’espace latent du MLP similaire à celui du CNN. La deuxième fonction est une distance Kullback-Leibler entre les distributions issues des deux modèles après softmax. Cela permet, lors de l’inférence, de produire des cartes uniquement à partir de données Sentinel-1 sur des paysages potentiellement ennuagés.

La disponibilité de suffisamment de données annotées n’est pas toujours assurée. Le processus semi-supervisé mis en place par Zhang et al. [9] met en jeu une architecture type U-Net avec un jeu de données labellisées et un jeu de données non labellisées. Lorsqu’un échantillon labellisé est présenté, une entropie croisée fait office de fonction à optimiser. Les images non labellisées subissent deux séries de transformations indépendantes, produisant deux images filles modifiées d’une même scène : une fonction de régularisation (consistency) tend à minimiser la différence entre les sorties du réseau pour ces deux images filles, ce qui accroît la capacité du modèle à faire face à des données différentes de celles qui étaient labellisées. L’étape cruciale est donc la perturbation de données dans le processus semi-supervisé : l’auteur indique d’ailleurs qu’une piste à explorer est celle des Generative Adversarial Networks (GANs) pour créer des jeux d’échantillons à partir des images non labellisées.

Le Bris et al. [10] abordent le sujet de la cartographie historique par l’utilisation d’un CNN à deux branches pour classifier des données images historiques sur la France, disponibles depuis la seconde moitié du XXème siècle. Les deux branches utilisent respectivement le canal panchromatique (souvent unique lors des acquisitions anciennes) et le MNS, calculé par photogrammétrie à partir des images elles-mêmes, ou une version proche du MNS. Un modèle plus classique, fusionnant image et MNS au départ est également testé. Les deux modèles fonctionnent sur le modèle U-Net, avec un nombre de couches plus petits pour limiter le sur-apprentissage. Des skip-connections permettent de guider la phase de ré-échantillonnage dans la partie décodeur en fournissant l’information spatiale fine issue des couches successives de l’encodeur. Les auteurs utilisent une fonction de coût pondérée, les classes étant sujettes à une grande disparité dans leur représentation (bâti vs végétation par exemple). L’apprentissage a été mené sur deux années, 1981 et 2001, à partir d’une base de données géographiques récentes, puis nettoyée manuellement ou non. Les résultats sont effectivement meilleurs lorsque les données d’apprentissage sont cohérentes temporellement avec les images.

Analyse de séries temporelles :

La capacité de revisite des satellites offre la possibilité d’étudier des phénomènes naturels ou anthropiques au cours du temps. S’il peu s’agir de cartographie d’OCS, nous le séparons du paragraphe précédent pour des raisons méthodologiques, les modèles mettant en jeu d’autres concepts de ceux présentés jusqu’ici.
Une série temporelle d’images correspond à la même zone géographique imagée à différentes époques. Pour des parcelles agricoles, cela implique un changement de la radiométrie au cours du temps, même si généralement la culture en présence ne change pas. On dispose donc, pour une même parcelle, de plusieurs images avec le même label. Plutôt que de traiter indépendamment chacune de ces images, Rußwurm et al. [11] adaptent les Recurrent Neural Networks (RNNs) pour les séries temporelles Sentinel-2, souvent utilisés en traitement naturel du langage (NLP), et plus précisément un réseau de type Long Short-Term Memory (LSTM) pour encoder l’information spectrale observée au cours du temps sur une même parcelle. Les pixels d’une même parcelle ne sont donc plus indépendants au cours du temps, mais forment un seul et même échantillon d’apprentissage. Le LSTM utilisé par les auteurs extrait l’information phénologique (mise en évidence des variations périodiques propres à chaque culture) contenue dans les séries temporelles, renforçant sensiblement la possibilité de caractériser et classifier chaque classe de culture. Les séries d’images Sentinel-2 sont formatées sous forme de séquences temporelles dont la dimension est un paramètre, et soumises au LSTM. Ces séquences correspondent à des voisinages spatiaux de dimensions 3×3. Pour ne pas privilégier l’information la plus récente, un LSTM jumeau (mêmes paramètres), reprend chaque séquence et inverse l’ordre des images. Les sorties respectives de ces deux LSTMs sont concaténées en un vecteur intégrant l’information phénologique, puis une couche de convolution permet d’attribuer à chaque pixel décrit dans cette séquence un label. Les auteurs utilisent des images Sentinel-2 sans pré-traitements, pour démontrer la capacité de leur modèle à attribuer le bon label à une séquence d’images qui peut présenter des nuages ou des perturbations atmosphériques parmi certaines d’entre elles. Ces effets sont donc considérés comme du bruit dans les observations.
La nature séquentielle des RNN induit de long temps de calcul et empêche la parallélisation de l‘apprentissage par batch (d’autant plus si la taille de la séquence est importante). L’apparition du modèle Transformer en NLP a permis d’adresser cette limitation importante liée à des modèles séquentiels, ce qu’adaptent Garnot et al. [12] en dérivant le mécanisme d’attention mis en jeu pour extraire l’information temporelle contenue dans les séries d’images Sentinel-2 dans le but de classifier des parcelles agricoles. Les auteurs optent pour une approche objet, un objet correspondant à une parcelle, qui permet une caractérisation spatiale de ceux-ci par le biais d’un nombre fixe de pixels qu’ils contiennent. Deux MLPs ont pour rôle d’extraire ces caractéristiques depuis ce jeu de pixels pour chaque parcelle. La position et l’ordonnancement des pixels importent donc peu puisque la description et la labellisation est à l’échelle de la parcelle. Cette approche objet est motivée par la nature des images satellites Sentinel-2 qui sont à moyenne résolution, et donc offrant une information de texture moindre par rapport à des images très haute résolution. L’étude montre donc que les CNNs ne sont pas la seule réponse possible pour la classification de ce type d’images.

L’indice de végétation (NDVI) est un indicateur fort de présence de végétation dont on dispose en combinant les canaux rouge et infrarouge des images issues de capteurs optiques. Malheureusement, comme évoqué précédemment, les capteurs optiques comme Sentinel-2 sont sujets à des taux d’ennuagement plus ou moins forts selon la région étudiée. Garioud et al. [13] travaillent sur l’extraction, à partir des images radar Sentinel-1, de cet indicateur par un RNN. Cette étude porte sur la reconstruction de ce NDVI sur les parcelles agricoles du Sud-Est de la France (près de 24 000) : les valeurs cibles sont calculées pour chaque parcelle à partir des images Sentinel-2 si celle-ci n’est pas couverte par un nuage. Une très bonne corrélation entre le NDVI calculé à partir des images Sentinel-1 et celui à partir des données Sentinel-2 est obtenue. Les auteurs s’efforcent par ailleurs de dégager les caractéristiques les plus importantes parmi toutes celles incluses pour obtenir une telle corrélation (ablation study), ce qui s’apparente à une sélection d’attributs.

Après une introduction de plusieurs notions en télédétection, l’état de l’art présenté au travers des deux dernières parties met en évidence l’adéquation des méthodes d’apprentissage profond en matière de pré-traitements et d’exploitation d’images satellites et/ou aériennes. Bien qu’un certain nombre d’applications ont été couvertes, ces images sont utilisés dans beaucoup d’autres domaines : surveillance territoriale et militaire, identification d’anomalies sur des parcelles agricoles (cultures malades, en manque d’eau), estimation de biomasse en milieu forestier, transfert de style visuel cartographique…

Tristan Postadjian

Références :

[1] Sharma, A., Liu, X., Yang, X., & Shi, D. (2017). A patch-based convolutional neural network for remote sensing image classification. Neural Networks, 95, 19-28.

[2] Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3431-3440).

[3] Marmanis, D., Wegner, J. D., Galliani, S., Schindler, K., Datcu, M., & Stilla, U. (2016). Semantic segmentation of aerial images with an ensemble of CNNS. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, 3, 473-480.

[4] Marmanis, D., Schindler, K., Wegner, J. D., Galliani, S., Datcu, M., & Stilla, U. (2018). Classification with an edge: Improving semantic image segmentation with boundary detection. ISPRS Journal of Photogrammetry and Remote Sensing, 135, 158-172.

[5] Xie, S., & Tu, Z. (2015). Holistically-nested edge detection. In Proceedings of the IEEE international conference on computer vision (pp. 1395-1403).

[6] Chen, K., Weinmann, M., Gao, X., Yan, M., Hinz, S., Jutzi, B., & Weinmann, M. (2018). Residual shuffling convolutional neural networks for deep semantic image segmentation using multi-modal data. ISPRS Annals of Photogrammetry, Remote Sensing & Spatial Information Sciences, 4(2).

[7] Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2017). Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE transactions on pattern analysis and machine intelligence, 40(4), 834-848.

[8] Ienco, D., Gbodjo, Y. J. E., Gaetano, R., & Interdonato, R. (2020). Generalized Knowledge Distillation for multi-sensor remote sensing classification: an application to land cover mapping. ISPRS Annals of Photogrammetry, Remote Sensing & Spatial Information Sciences, 5(2).

[9] Zhang, B., Zhang, Y., Li, Y., Wan, Y., & Wen, F. (2020). Semi-Supervised Semantic Segmentation Network via Learning Consistency for Remote Sensing Land-Cover Classification. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2, 609-615.

[10] Le Bris, A., Giordano, S., & Mallet, C. (2020). CNN semantic segmentation to retrieve past land cover out of historical orthoimages and DSM: first experiments. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2, pp-1013.

[11] Rußwurm, M., & Körner, M. (2018). Multi-temporal land cover classification with sequential recurrent encoders. ISPRS International Journal of Geo-Information, 7(4), 129.

[12] Garnot, V. S. F., Landrieu, L., Giordano, S., & Chehata, N. (2020). Satellite Image Time Series Classification with Pixel-Set Encoders and Temporal Self-Attention. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12325-12334).

[13] Garioud, A., Valero, S., Giordano, S., & Mallet, C. (2020). On the joint exploitation of optical and SAR satellite imagery for grassland monitoring. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 43, 591-598.