Cerfacs Entrez dans le monde de la haute performance...

Vers des modèles de fondation pour la mécanique des fluides numérique : un premier regard avec les écoulements en proche paroi

   |   |  , ,


Date de début : 1 octobre 2024
Durée de la mission : 36 months

Le CERFACS est un organisme de recherche scientifique et de formation, spécialisé dans la physique informatique. Il favorise les synergies entre les mathématiciens appliqués, les physiciens experts et les informaticiens, qui collaborent pour approfondir la compréhension de questions complexes allant de la physique de la terre aux systèmes d’ingénierie qui dépendent des écoulements turbulents. Pour plus d’informations sur le CERFACS, voir https://www.cerfacs.fr.

Ce travail sera effectué au sein de l’équipe Algo-COOP (https://cerfacs.fr/coop/), qui apporte un soutien crucial à la mission du CERFACS en améliorant les méthodes de calcul, en développant des algorithmes parallèles innovants et des techniques d’assimilation de données, et en mettant l’intelligence artificielle (IA) au service de la science.

Contexte

L’IA a connu des développements rapides et des réalisations impressionnantes dans les années 2010, dans divers domaines tels que le traitement du langage naturel (en anglais, Natural Language Processing, ou NLP), la reconnaissance et la synthèse vocales, la vision par ordinateur et la synthèse d’images, et bien d’autres encore. Les applications comparables dans l’ingénierie et la conception restent cependant minimes. Cela peut s’expliquer par plusieurs facteurs, par exemple la disponibilité préalable de méthodes numériques précises et robustes, l’attente d’une robustesse et d’une fiabilité comparables, ou le manque d’ensembles de données diversifiées de haute qualité.

Dans le domaine du NLP, un changement de paradigme s’est amorcé au cours de cette décennie avec l’émergence de ce que l’on appelle les « modèles de base » [1]. Ceux-ci exploitent des ensembles de données à grande échelle avec des techniques d’apprentissage auto-supervisé et transmettent des caractéristiques génériques qui peuvent être transférées à diverses tâches après une étape potentielle de réglage fin. Cela a conduit aux transformateurs génératifs pré-entraînés (en anglais, Generative Pre-trained Transformers, ou GPT) et au ChatGPT, qui ont sans doute propulsé l’IA à un niveau de notoriété encore plus élevé qu’au cours de la décennie précédente. Une tendance similaire a été observée dans le domaine de la vision avec les Vision Transformers (ViT), et sur les données multimodales avec des travaux récents (CLIP, DALL-E, FLAMINGO). Cette tendance a commencé à avoir un impact sur les domaines scientifiques, en particulier les sciences de la terre, pour les problèmes météorologiques et climatiques. Le récent article ClimaX [2] et les travaux connexes [3, 4] montrent des résultats prometteurs pour le pré-entraînement d’un modèle de base pour le temps et le climat qui peut être efficacement adapté à des tâches générales liées à l’atmosphère terrestre. La clé de l’approche est d’exploiter des simulations riches et hétérogènes pour entraîner le modèle de base, d’inclure des transformateurs de type vision pour différents sous-ensembles de variables atmosphériques, et de concevoir une tâche globale de prétexte dédiée à la prévision d’un ensemble arbitraire de variables d’entrée à un moment arbitraire dans l’avenir.

Objectifs

L’objectif de cette thèse est d’appliquer l’approche générale d’apprentissage auto-supervisé et les architectures profondes de [2] à une base de données précédemment agrégée au CERFACS [5, 6] de multiples simulations de mécanique des fluides numérique (en anglais, Computational Fluid Dynamics, ou CFD). Les propriétés statistiques et de généralisation de ces algorithmes seront évaluées (par exemple, les capacités d’inpainting des modèles de fondation appris dans les différentes tâches CFD). Plus précisément, l’objectif sera de produire et d’évaluer des écoulements près de la paroi et à l’entrée. Il doit s’agir d’écoulements instables, avec une grande ressemblance avec une turbulence réaliste, et sans perturbations significatives à l’interface avec l’écoulement résolu.

Le candidat cherchera ensuite à améliorer cette base en utilisant de nouveaux modèles profonds, en se concentrant sur la nature des données CFD et sur la manière dont elles diffèrent des données climatiques. Notamment, l’utilisation de contextes spatiaux croissants sera explorée, par le biais de différents encodages de données (cadres sans maillage comme PINNs/Opérateurs neuronaux, réseaux de graphes, interpolation vers les voxels). Selon les dernières évolutions de la littérature et des logiciels libres disponibles, l’intégration du contexte temporel en utilisant par exemple des méthodes autorégressives sera également étudiée [7]. Dans tous les cas, une évaluation minutieuse de la qualité des générations et de leur utilisation potentielle dans le contexte de la substitution de flux près de la paroi et de la génération de flux d’entrée sera effectuée.

Ce travail sera effectué dans des environnements HPC. Tout d’abord, l’entraînement à partir d’un ensemble de données hétérogènes de simulations CFD pose d’importants problèmes de données qui devront être résolus par le candidat. Deuxièmement, les modèles entraînés résultants seront évalués directement dans l’un des solveurs HPC phares du CERFACS, [AVBP] (https://cerfacs.fr/en/computational-fluid-dynamics-softwares/). En s’appuyant sur des travaux antérieurs, et notamment sur la bibliothèque de couplage de solveurs AI-Physics [PhyDLL] (https://phydll.readthedocs.io/), le candidat mettra en place des cas de validation pour la simulation hybride, où le solveur et le réseau entraîné travaillent ensemble pour produire la solution variable dans le temps. Cette stratégie doit s’adapter aussi bien qu’AVBP lui-même, sur des architectures massivement parallèles composées d’un mélange de CPU et de GPU.

Le projet de thèse devrait durer 36 mois, à partir d’octobre 2024.

Profil

Actuellement en dernière année de Master, spécialisé en physique numérique ou dans un domaine connexe, vous avez une certaine expérience en Machine Learning (ML), ou un goût prononcé pour ces technologies et l’envie d’en apprendre davantage. Alternativement, vous avez une spécialisation en informatique et en ML, et vous êtes intéressé par les applications de modélisation physique. Ce poste requiert une lecture active de la littérature scientifique dans le domaine et un apprentissage rapide. Dans l’environnement d’un laboratoire de recherche, l’initiative, l’autonomie, la créativité et la pensée synthétique sont très appréciées. Une expérience avec des solveurs CFD, des bibliothèques d’apprentissage profond, ou un langage de traitement de données (Python, R, Matlab) est un plus.

Cette thèse se déroule dans le cadre du projet ANR PHLUSIM, en cotutelle entre le CERFACS et La Sorbonne.

Contacts

Merci d’envoyer votre CV, ainsi qu’un court résumé de vos motivations et des raisons pour lesquelles ce poste vous intéresse, aux adresses électroniques suivantes :

– Luciano Drozda (drozda@cerfacs.fr)

– Nicolas Odier  (odier@cerfacs.fr)

Bibliographie

[1] Bommasani, R., & Liang, P. (2021). Reflections on foundation models. _Stanford Institute for Human-Centered AI_.

[2] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K. Gupta, and Aditya Grover. “ClimaX: A foundation model for weather and climate”. In: (2023). eprint: arXiv:2301.10343.

[3] Jaideep Pathak et al. FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators. 2022. eprint: arXiv:2202.11214.

[4] Remi Lam et al. GraphCast: Learning skillful medium-range global weather forecasting. 2022. eprint: arXiv:2212.12794.

[5] Dupuy, D., Odier, N., & Lapeyre, C. (2023). Data-driven wall modeling for turbulent separated flows. Journal of Computational Physics, 487, 112173. doi:10.1016/j.jcp.2023.112173

[6] Dupuy, D., Odier, N., Lapeyre, C., & Papadogiannis, D. (2023). Modeling the wall shear stress in large-eddy simulation using graph neural networks. Data-Centric Engineering, 4, e7. doi:10.1017/dce.2023.2

[7] Kohl, G., Chen, L. W., & Thuerey, N. (2023). Turbulent Flow Simulation using Autoregressive Conditional Diffusion Models. arXiv preprint arXiv:2309.01745.