Thèse Théorie et Algorithmes en Apprentissage Statistique pour le Contrôle des Incertitudes en Astrophysique - Applications à la Découverte d'Exoplanètes avec Plato et d'Astéroïdes Binaires avec G H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Côte d'Azur École doctorale : SFA - Sciences Fondamentales et Appliquées Laboratoire de recherche : Laboratoire J.L. LAGRANGE Direction de la thèse : David MARY ORCID 0000000290475768 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-04-24T23:59:59 Comme dans d'autres domaines, l'utilisation de techniques apparentées à l' « IA » au sens large est en croissance exponentielle en Sciences de l'Univers. Dans la communauté de la recherche en statistiques et en « IA », les thématiques de la prédiction conforme [Vovk et al, 2005, Balasubramanian ethnic al., 2014] et des tests multiples [Roquain 2015, Efron et al, 2016] sont des domaines très actifs. Ces approches présentent un fort intérêt pour la construction d'intervalles de confiance et la construction de méthodes de détection avec garantie (comme par exemple le contrôle du taux de fausses découvertes). Pourtant, ces méthodes restent peu voire pas exploitées en astrophysique, malgré leur fort potentiel. Cette thèse visera à développer et à adapter de telles techniques pour deux applications astrophysiques majeures où leur intérêt a été clairement identifié : la détection d'exoplanètes avec la mission spatiale de l'ESA PLATO (lancement fin 2026) et la détection d'astéroïdes binaires dans les données de la mission spatiale GAIA de l'ESA, dont la 4eme Data Release est prévue pour 2026.
Concernant la mission PLATO : son objectif principal est de détecter des transits d'exoplanètes de planètes telluriques dans la zone habitable d'étoiles solaires. Les courbes de lumière (séries temporelles photométriques) de chaque transit détecté seront soumises à une batterie de tests pour détecter d'éventuelles anomalies (par exemple, transit causé par une binaire à éclipse au lieu d'une exoplanète, ou par le reflet dans les caméras de l'instrument d'une source contaminante hors champ, etc...). Pour chaque transit, l'approche que nous avons développée est basée sur la procédure de tests multiples de Benjamini-Hochberg (BH) [Benjamini & Hochberg, 1995], qui permet de tracer quelles anomalies ont été détectées, et de contrôler le taux de fausses détections. Selon le cahier des charges du pipeline de PLATO, la procédure de détection doit aussi définir un score global pour chaque transit. Nous avons opté pour une statistique de test originale, basée sur le nombre de rejets obtenus par BH. Le premier objectif ici sera d'étudier les performances théoriques de la procédure de test existante, et éventuellement de l'améliorer par exemple en utilisant des techniques récentes de la littérature d'apprentissage statistique [Mary & Roquain, 2022, Marandon et al 2024]. Le second objectif sera de tester les procédures implémentées sur la dernière version des données simulées de PLATO, qui ont été produites au LAM en vue de leur implémentation pour traiter les données de la mission qui seront disponibles vers le milieu de la thèse.
Le problème de la détection d'astéroïdes binaires dans les données GAIA peut se ramener à celui de la détection d'un signal périodique dans des séries temporelles irrégulièrement échantillonnées, comportant peu de points et à très faible rapport signal sur bruit. La méthode que nous avons développée est basée sur une analyse de type périodogramme calibrée par des simulations de Monte Carlo. Celle-ci a permis de détecter une première liste de candidats d'astéroïdes binaires [Liberato et al, 2024]. Le premier objectif de la thèse dans cette application sera d'améliorer la statistique de test de détection existante. Ici aussi on se basera sur des techniques récentes de la littérature d'apprentissage statistique. Les données sont en effet perturbées par des bruits dont la distribution est mal connue, et ceux-ci limitent la puissance de détection et le contrôle des erreurs de type 1. Le second objectif concernera l'amélioration de la méthode de construction des intervalles de confiance pour les paramètres des astéroïdes détectés.
La thèse s'inscrit dans le cadre d'un projet financé par l'INSU, et les objectifs de la thèse seront de répondre à plusieurs questions qui y sont posées. L'environnement constitué par ce projet (des experts des missions spatiales PLATO et Gaia, des simulations de leur données, et de leur exploitation, des experts en statistiques et en traitement du signal) sera très stimulant pour le.la doctorant.e et lui permettra de créer un réseau dans plusieurs laboratoires de recherche de pointe. Le.la doctorant.e sera aussi en interaction avec d'autres doctorant.e.s qui travaillent sous la direction des partenaires du projet sur des thématiques connexes.
Le document scientifique du projet est disponible sur demande des candidat.e.s intéressé.e.s par email à ****@****.**.
L'objectif de la thèse est de développer des techniques d'apprentissage statistique visant à contrôler les incertitudes des analyses scientifiques des données, en apportant autant que possible des garanties théoriques, et de les appliquer à deux thématiques astrophysiques : la détection d'exoplanètes et la détection d'astéroïdes binaires. - Analyse des modèles direct et des propriétés statistiques des données de Gaia (DR3, FPR et DR4) et des données simulées de Plato.
- Appropriation des méthodes détection existantes pour les deux applications : caractérisation des avantages et des limites (théoriques, et empiriques).
- Appropriation de méthodes spécifiques d'apprentissage statistique de la littérature et des techniques d'analyse théorique de leurs performances.
- Adaptation de méthodes d'apprentissage statistique spécifiques aux deux applications et étude de performances.
- Production de codes pour le pipeline PLATO et analyse des données de la DR4 pour GAIA.
Le profil recherché
Compte tenu de l'aspect fortement interdisciplinaire de cette thèse, le·la doctorant·e devra avoir une forte appétence pour les méthodes statistiques, la thématique des exoplanètes en général et la programmation (Python).
Profil de type école d'ingénieur avec formation en traitement du signal et Machine Learning, et/ou master astrophysique avec formation en traitement du signal et Machine Learning.
Given the highly interdisciplinary nature of this thesis, the PhD candidate should have a strong interest in statistical methods, the topic of exoplanets in general, and programming (Python).