Cerfacs Entrez dans le monde de la haute performance...

Thèse en mathématiques appliquées / calcul haute performance / géosciences

 

Niveau requis : Master 2 ou équivalent
Date de début : 1 octobre 2020
Durée de la mission : 3 years
Rémunération : 2135€ brut mensuel


Sujet de thèse : Ensembles multi-fidèles pour l'assimilation de données variationnelle ensembliste haute performance pour les modèles du système terrestre
Contacts scientifiques : Paul Mycek (mycek@cerfacs.fr) et Ehouarn Simon (ehouarn.simon@toulouse-inp.fr)
Postuler en ligne : https://bit.ly/3dK7lOG


Contexte scientifique :
Le développement des supercalculateurs au cours des dernières décennies a entraîné des progrès considérables dans la prévision des modèles du système terrestre. Par exemple, les centres opérationnels de prévision océanique sont maintenant capables d’exécuter des configurations globales des océans terrestres avec une résolution de 1/12° (environ 9-10 km), de permettre la représentation de la dynamique à méso-échelle, et de viser une résolution de 1/36° (environ 3 km) pour la prochaine génération de leurs modèles. De même, la très haute résolution utilisée par les centres de prévisions météorologiques a conduit au développement de modèles non-hydrostatiques. Si l’augmentation de la résolution des modèles conduit à une meilleure représentation des phénomènes non linéaires complexes, elle entraîne également une augmentation significative des coûts de calcul. Les méthodes d’assimilation de données combinent les informations hétérogènes et incertaines fournies par les modèles et les observations pour estimer l’état et/ou certains paramètres d’un système.
L’incertitude dans ces deux sources d’information est modélisée par des matrices de covariance des erreurs : erreurs d’ébauche, d’observation et modèle. Malgré leur impact fondamental sur les estimations de l’état du système, elles restent mal connues dans les problèmes qui surviennent en océanographie ou en météorologie.
Les approches modernes d’estimation de la matrice de covariances d’erreur d’ébauche se basent sur la disponibilité d’un ensemble d’états du système obtenu depuis des intégrations numériques de modèles. Ces ensembles, conçus pour échantillonner la fonction de densité de probabilité de l’erreur d’ébauche, fournissent ainsi des informations utiles pour la spécification de celle-ci. Pour le cas des systèmes opérationnels de prévision, la taille des ensembles reste néanmoins très petite en raison de leurs coûts informatiques élevés. Par conséquent, il est nécessaire de réduire ces coûts, tout en permettant de fournir des informations utiles à l’estimation de cette matrice.

Dans cette thèse, nous nous intéresserons aux approches Monte Carlo multi-niveaux (MLMC) dans le but de tirer parti de l’utilisation d’ensembles de simulations de différentes fidélités. L’idée sous-jacente est de tirer parti des différents niveaux de résolution numérique de manière à ce que de nombreuses évaluations (peu coûteuses) du modèle numérique soient effectuées aux niveaux les plus grossiers tandis que peu de calculs sont nécessaires aux niveaux les plus fins (et les plus coûteux). Il est ainsi espéré une réduction du coût de calcul global. Le cœur de ces méthodes repose sur un mécanisme de correction, basé sur une somme télescopique des contributions des résolutions provenant de niveaux successifs, et peut être considéré comme une technique de réduction de la variance à plusieurs niveaux. En termes d’erreur quadratique moyenne, de nombreuses évaluations sur les grilles grossières contribuent à réduire l’erreur d’échantillonnage, tandis que les évaluations sur la grille fine (moins nombreuses) contribuent à réduire l’erreur de discrétisation.


Missions :
L’objectif de cette thèse est le développement de stratégies MLMC afin de réduire les coûts de calcul associés à l’estimation de la matrice de covariance d’erreur d’ébauche pour les méthodes ensemblistes variationnelles en assimilation de données. Ceci conduira également à l’étude des méthodes multigrilles et MLMC, dans l’optique de développer un cadre unifié pour la discrétisation spatio-temporelle du problème d’assimilation de données. D’un point de vue expérimental, les algorithmes proposés seront évalués sur des modèles représentatifs simplifiés (par ex. équation de Burgers), puis sur des systèmes plus complexes, tels que le modèle quasi-géostrophique, présents dans le système de prédiction OOPS, développé au centre européen pour les prévisions météorologiques à moyen terme (CEPMMT).


Activités :
Le plan de travail de la thèse se découpe en les trois axes suivants :

  • Axe 1 : estimation de la matrice de covariance d’erreur d’ébauche depuis des ensembles multi-fidèles.
    Cet axe porte sur les stratégies de génération d’ensembles depuis des simulations de fidélités multiples, dans l’optique de réduire les coûts de calculs associés à l’estimation de la matrice de covariance d’erreur d’ébauche, ou de certains de ses paramètres. Ceci inclue notamment le développement de stratégies de localisation de la matrice de covariance adaptées au cadre MLMC, tant d’un point de vue théorique que pratique.
  • Axe 2 : Estimation d’état par assimilation de données variationnelle ensembliste multi-niveaux.
    Cet axe consiste à formuler des algorithmes multi-niveaux pour l’assimilation de données variationnelle ensembliste. Deux stratégies complémentaires seront envisagées : les approches MLMC et multigrille. Ceci conduira naturellement à deriver des conditions de consistance entre les ensembles associés aux différents niveaux dans le but de garantir la convergence du processus d’estimation sur la grille originelle. Les expériences numériques pourront être réalisées via le système OOPS, proposant déjà un algorithme de type 4DEnVar.
  • Axe 3 : Expériences numériques sur des cas tests idéalisés en océanographie et/ou chime atmosphérique de complexité croissante.
    Cet axe visera à évaluer les performances des algorithmes proposés sur des systèmes plus complexes et de grande dimension, relatifs aux sciences du climat.

Contexte de travail :
Cette thèse se déroule dans le cadre du projet MFDA, dont le financement a été obtenu via l’appel à projets 80 Prime 2020 du CNRS. Le/la doctorant(e) travaillera au CECI (Cerfacs) lors de la première année, puis à l’IRIT (site ENSEEIHT) lors de la seconde année, avant de retourner au Cerfacs pour finaliser la thèse (expériences numériques dans des systèmes géophysiques) en dernière année. La direction de thèse sera assurée par S. Gratton (Toulouse INP, IRIT) et A. Weaver (Cerfacs). Le doctorant(e) sera également co-encadré par les membres du projet (S. Gürol, P. Mycek, E. Simon)


Informations complémentaires :

Des informations complémentaires et la procédure pour postuler sont disponibles sur le portail du CNRS : https://bit.ly/3dK7lOG