Algorithmes d'estimation de probabilité défaillance utilisant des méta-modèles multi-fidélité, dans un contexte d'hydrodynamique fluviale
Stage | Modélisation du climat et de son changement global | Applied mathematics, Assimilation de donnees et optimisation, Calcul haute performance, Environnement, Incertitude
Niveau requis : Master 2
Date de début : 5 février 2024
Durée de la mission : 6 mois
Date limite des candidatures : 30 novembre 2023
Gratification : 650 euros/mois
La quantification d’incertitudes de systèmes modélisés par des solveurs coûteux en temps de calcul est une tâche difficile. L’analyse de fiabilité consiste à estimer la probabilité de défaillance d’un système en tenant compte de différentes sources d’incertitude, c’est à dire, estimer une probabilité pour des événements rares. Dans le cadre du stage, on s’intéresse à la probabilité de dépassement d’une digue de protection d’une plaine d’inondation, étant donné des incertitudes inhérentes à la description du frottement dans le lit de la rivière et dans la plaine ainsi qu’à la description de la condition limite amont prescrite par un débit d’apport constant. On propose ici d’estimer la probabilité de défaillance à l’aide de méta-modèles par processus gaussiens enrichis par active learning, avec une approche multi-fidélité, c’est à dire en s’appuyant sur une hiérarchie de modèles de fidélités différentes.
Ce sujet s’inscrit dans la thématique plus large de construction de métamodèle pour des modèles complexes et de l’obtention de garantie sur ces métamodèles, thématiques en lien avec DATA-IA.
Pour obtenir une estimation précise de la probabilité de défaillance, le nombre de simulations du modèle haute fidélité F peut devenir très important, rendant cette estimation inabordable compte tenu du coût de calcul de F(.). Par exemple, pour estimer une probabilité de l’ordre de 10^{-2} avec COV_Pf=0.1, 10^4 échantillons sont nécessaires. Dans ce contexte, d’autres méthodes telles que l’Importance Sampling (IS) ou le Subset Simulation (SS), ont été développées afin de diminuer le budget de calcul et de réduire la variance de l’estimateur tout en fournissant une estimation précise de P_f. Malgré ces techniques alternatives d’échantillonnage, le coût de calcul associé à l’analyse de la fiabilité pour des codes couteux reste associé à un budget de calcul conséquent que l’on souhaite réduire tout en conservant une bonne précision sur l’estimation de la défaillance. En effet dans la plupart des systèmes complexes, le budget de calcul ne permet l’évaluation que de quelques dizaines ou centaines de simulations.
Dans le but d’effectuer des analyses de fiabilité avec un budget de calcul limité, on souhaite remplacer le code haute fidélité par un méta-modèle, pour ensuite pouvoir utiliser notre estimateur . Une approche classique dans la littérature consiste à construire un méta-modèle par processus Gaussien (GP) , puis à enrichir ce méta-modèle au cours de l’analyse de fiabilité, autour du point de l’espace des entrées susceptible de mener à la défaillance. Cette construction permet d’affiner le surrogate uniquement dans les zones d’intérêt vis à vis de l’estimation de la probabilité de défaillance. Un tel processus est appelé « active learning ».
Suivant ce principe, plusieurs méthodes d’active learning pour l’analyse de fiabilité à l’aide de GP ont été développées dans la littérature . Dans le contexte de systèmes complexes, obtenir un méta-modèle précis nécessite un grand nombre d’appels au code haute fidélité, entraînant un coût de calcul conséquent. Il s’avère pertinent de faire appel à des solveurs de fidélités intermédiaires et inférieures, par conséquent moins précis, mais aussi moins coûteux. Un moyen de réduire les coûts de l’analyse de fiabilité et de garantir une estimation précise des probabilités consiste ainsi à utiliser des modèles de substitution multi-fidélité exploitant les informations de différents niveaux de fidélité. On investigue ici la construction du méta-modèle multi-fidélité, et son enrichissement par ajout de donnée, en un point qu’il convient d’identifier, issue d’une simulation réalisée avec un niveau de fidélité qu’il convient aussi de déterminer.
La méthode la plus largement utilisée pour construire des modèles multi-fidélité par GP est l’Auto-Regressive Model (AR1) , adapté lorsque les différentes fidélités ont une relation linéaire entre elles. D'autres modèles multi-fidélité permettent d'exprimer d’autres relations entre sources d’information. Par exemple, le Linear Model of Coregionalization (LMC) définit un GP multi-output dans lequel chaque sortie représente une fidélité (adaptée en cas de relation linéaire entre les niveaux de fidélité), et le Non-linear Auto-Régressive Multi-fidelity Gaussian Process (NARGP) est une extension de l’AR1 (adapté en cas de relations non linéaires entre les niveaux de fidélité).
Récemment, différentes techniques d’analyse de fiabilité basées sur l’AR1 ont été proposées dans la littérature. Ces méthodes utilisent des critères d’enrichissement permettant de sélectionner des nouveaux points de calcul à ajouter au plan d’expériences pour améliorer la prédiction du GP multi-fidélité dans les zones d’intérêt. Ce choix du nouveau point et de la source d’information pour l’évaluer est réalisé en une seule étape (par exemple, avec le critère mfEGRA ) ou en deux étapes (avec le critère CLF par exemple). L’efficacité de la stratégie d’active learning en combinant ces différentes méthodes multi-fidélité et critères d’enrichissement a été comparée sur divers cas tests de complexités variées dans le cadre de la thèse de Romain Espoeys (ONERA, CERFACS, cite Chap Livre RA). En conclusion de ce benchmark, plusieurs recommandations sur le choix d’une combinaison modèle/critère ont été formulées.
Le stage propose d’appliquer ces techniques d’active learning en multi-fidélité à un cas test d’hydrodynamique fluviale, en considérant l’état de défaillance comme le dépassement d’une digue en plaine.
Dans les travaux décrits précédemment, une première illustration a été proposée pour l’équation de Manning appliquée à un canal rectangulaire à pente constante, en considérant comme source d’incertitude la pente (altitude du fond amont et aval), l’apport amont et le frottement. La défaillance se produit lorsque l’élévation de la surface libre excède la hauteur de la digue sur le tronçon. Les différentes méthodes évoquées précédemment ont été évaluées pour 2 niveaux de fidélité, la basse fidélité provenant de l’introduction d’une erreur modèle dans le calcul de la hauteur d’eau. Il apparaît que pour cette configuration de test, la méthode NARGP qui permet de prendre en compte les non linéarités entre les niveaux de fidélité donne de meilleurs résultats qu’AR1 ou LMC, et ce quelque soit le critère d’enrichissement choisi.
Ce travail doit être étendu à un cas hydrodynamique plus complexe que l’actuel, bien qu’idéalisé, en élaborant les aspects suivants :
– On utilisera avec le code de calcul Saint-Venant Telemac qui résout les équations hydrodynamiques en 2D pour des écoulements stationnaires ou instationnaires, en prenant en compte une description fine de la géométrie de la rivière, sur un maillage triangulaire non structuré.
– On supposera que les incertitudes proviennent de la description des frottements dans le lit de la rivière et dans la plaine d’inondation ainsi que du débit d’apport. On suppose que les frottements sont décrits par zones uniformes par des scalaires. On supposera que le débit d’apport est constant et que l’on simule donc un régime permanent qui établit, au bout d’un temps correspondant au temps de transfert du réseau, une hauteur d’eau constante (mais pas uniforme) dans la rivière et les plaines d’inondation.
– On supposera alors que l’incertitude est décrite par des variables aléatoires scalaires dont on spécifiera les pdfs. L’extension de l’espace scalaire des entrées incertaines à des variables incertaines fonctionnelles est envisageable, notamment via la perturbation du champ de bathymétrie/topographie. La génération de géométrie perturbée peut se faire de manière paramétrique plus ou moins simples, permettant une réduction de l’espace incertain via des méthodes type décomposition en modes propres ou Karhuren Loeve. On précise que ces perturbations doivent préserver le maillage pour les aspects multi-fidélité évoqués ci dessous.
– On supposera que la quantité d’interêt est le champ 2D de hauteur d’eau décrit sur le maillage. La définition du critère de défaillance reste à établir. On peut par exemple considérer le dépassement de la digue en un point, ou considérer le max de la hauteur le long de l’ouvrage. La description du réseau d’infrastructure (une digue ou plusieurs digues) conditionnera aussi la définition du critère de défaillance. La prise en compte d’une sortie fonctionnelle constitue une évolution notable par rapport au travail réalisé à ce jour. La construction du méta modèle pour le champ de hauteur d’eau pourra s’inspirer des travaux de recherche réalisés au CERFACS, en collaboration avec le LISN et EDF, proposant la construction d’un mélange d’experts de type polynomes du chaos avec une étape de réduction de dimension et classification.
– On supposera que les niveaux de fidélité se distinguent par la résolution spatiale du maillage, en préservant une imbrication des grilles telle que tout point du maillage grossier existe dans le maillage fin. Il conviendra d’évaluer la relation entre les niveaux de fidélité définis en fonction du maillage et éventuellement introduire une définition alternative du niveau de fidélité.
Il est à noter qu’au delà de ce cas idéalisé, il est envisagé d’utiliser un cas test de référence réel sur la Garonne Marmandaise. Ce cas réel est celui utilisé dans les travaux commun CERFACS/LISN/EDF pour la construction d’un métamodèle de la carte de hauteur d’eau.
Lieu du stage et date de démarrage:
– Stage de recherche de M2 (6 mois) au CERFACS, en collaboration avec le LISN et l’ONERA.
– Etablissement en charge de la gestion des fonds : LISN
– Noms et contacts des gestionnaires administriatifs et financiers du projet : TBC
– Date de démarrage souhaitée : A partir de Février 2024 ou plus tard. A discuter entre les co-proposants et le(la) candidat(e) si besoin.