Thèse Modèles Spatiaux du Monde pour l'Intelligence Artificielle Incarnée H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Côte d'Azur École doctorale : STIC - Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis Direction de la thèse : Andrew COMPORT ORCID 0000000239593195 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-03T23:59:59 Les systèmes autonomes doivent percevoir, comprendre et anticiper leur environnement afin d'interagir efficacement avec le monde physique. Les approches classiques en robotique reposent principalement sur des méthodes de localisation et de cartographie visuelle (SLAM) permettant de reconstruire la géométrie d'un environnement à partir d'observations visuelles. Bien que ces méthodes permettent une localisation robuste, elles restent limitées pour raisonner sur des environnements complexes, dynamiques ou interactifs.
Les avancées récentes en intelligence artificielle ont introduit de nouvelles approches permettant d'apprendre des représentations tridimensionnelles riches à partir d'images. Des méthodes telles que les Neural Radiance Fields (NeRF) ou des approches récentes de reconstruction géométrique comme DUSt3R montrent qu'il est désormais possible d'apprendre des structures spatiales complexes directement à partir de données visuelles.
Dans le même temps, les approches récentes d'intelligence artificielle incarnée et les modèles Vision-Language-Action (VLA) cherchent à connecter perception visuelle, langage et action dans des architectures unifiées pour agents autonomes.
Cependant, ces approches restent encore limitées par l'absence de modèles du monde spatiaux structurés permettant de représenter simultanément la géométrie d'une scène, sa structure sémantique et les possibilités d'interaction avec l'environnement.
L'objectif de cette thèse est d'étudier de nouveaux modèles du monde spatiaux capables d'intégrer information géométrique, sémantique et actionnelle afin de permettre à des agents artificiels de percevoir, raisonner et interagir dans des environnements réels.
Ce projet se situe à l'interface entre vision par ordinateur, robotique et apprentissage automatique et vise à contribuer au développement de systèmes d'intelligence artificielle incarnée capables de perception, de raisonnement et d'interaction avec leur environnement. Recent research in artificial intelligence and computer vision has introduced powerful methods for learning spatial scene representations from visual observations. Approaches such as Neural Radiance Fields (NeRF) and recent geometric reconstruction methods demonstrate that complex three-dimensional environments can be inferred from images.
At the same time, generative models and embodied AI architectures aim to enable agents to reason about and interact with their environment. However, these approaches often lack structured spatial representations capable of integrating geometry, semantics and action affordances.
Previous work in the host research team has contributed to spatial perception and learning-based visual representations, including dense visual SLAM and learning-based scene understanding. Building on these advances, this thesis aims to explore new spatial world models for embodied AI systems. - Develop spatial world models from visual observations
- Integrate semantic understanding and action affordances
- Enable reasoning and interaction for embodied AI systems The research will combine methods from geometric computer vision, deep learning and generative modelling to learn spatial representations from visual observations.
Several research directions will be explored, including learning spatial representations from image sequences, integrating semantic and interaction information into spatial models, and developing predictive models of environments supporting reasoning and interaction.
Le profil recherché
Le candidat ou la candidate devra être titulaire d'un Master 2 ou diplôme équivalent en informatique, robotique, intelligence artificielle ou mathématiques appliquées.
Des compétences solides dans plusieurs des domaines suivants sont attendues :
- vision par ordinateur
- apprentissage automatique / deep learning
- robotique ou perception visuelle
- programmation scientifique (Python, PyTorch ou équivalent)
Un intérêt pour la recherche scientifique et la publication dans des conférences internationales est attendu.