Thèse Hybridation de Grands Modèles de Langage Multimodaux Aborder des Tâches d'Interprétation Complexes dans les Corpus Multimédia H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Côte d'Azur École doctorale : STIC - Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis Direction de la thèse : Frederic PRECIOSO ORCID 0000000187121443 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-03T23:59:59 Ce projet doctoral propose de tirer parti des récentes avancées en grands modèles de langage multimodaux (MLLM) et en Vision-Language-Models (VLM) pour automatiser des tâches complexes d'interprétation de données audiovisuelles. Si les modèles à base de Transformers (LLMs pour le langage, VLMs pour le langage et la vision, Multimodal Large Language Models, MLLMs pour les données audiovisuelles et textuelles) ont démontré des performances inédites pour un certain nombre de tâches définies par des benchmarks, leur stabilité et leur fiabilité sont beaucoup discutées actuellement [1-8], en particulier dans des contextes multimodaux.
Ce projet ambitionne d'attaquer des tâches complexes telles que la détection de discrimination dans des contenus audiovisuels tout en permettant l'intervention d'un expert humain pour efficacement adapter le modèle à la tâche souhaitée, indépendamment de la quantité de données annotées pré-existantes.
Nous élaborerons donc une représentation abstraite de chaque scène en s'inspirant de travaux récents [9, 13, 14, 15]. Cette représentation abstraite couplée au modèle neuronal perceptif constituera un modèle hybride que nous entrainerons et évaluerons sur plusieurs benchmarks de tâches simples (classification de scènes, reconnaissance d'actions, etc.). Nous améliorerons ensuite cette représentation abstraite en intégrant des processus de vérification de sa consistance et de sa cohérence temporelle, comme un solveur logique par raisonnement [13] ou d'autres mécanismes de vérification cross-modalités [16, 17, 18]. Ces validations de la représentation abstraite seront mis en oeuvre pour augmenter la représentation dans un contexte de monde ou vocabulaire ouvert [10, 11, 12, 14]. Des mécanismes de rebouclage [13], par un algorithme, ou intervention humaine seront développés pour garantir la qualité de notre représentation du contenu.
Cette thèse s'articulera en trois volets complémentaires :
Partie 1 : Hybridation multimodale
Nous concevrons de nouveaux modèles combinant le potentiel des MLLMs avec une représentation abstraite du contenu multimédia permettant une analyse perceptive en même temps qu'une analyse logique de ce contenu. Nous devrons pour cela élaborer la forme appropriée de cette représentation abstraite du contenu, en s'appuyant sur les récentes avancées dans le domaine des graphes de scènes vidéo. Nous développerons également de nouveaux schémas d'entrainement pour ces modèles hybrides.
Partie 2 : Rebouclage par raisonnement & par l'humain
Nous concevrons de nouveaux mécanismes pour rendre les décisions plus robustes. En effet, la représentation abstraite du contenu multimédia d'une scène pourra être considérée comme la mémoire des concepts et des relations entre ces concepts dans la scène, et ainsi renforcer la consistance et la cohérence temporelle de la représentation du contenu (e.g. unité de lieu, unité de temps, permettront de vérifier la validité logique de la représentation abstraite). De même, cette représentation abstraite du contenu, permettra des interventions humaines pour guider la partie perceptive du modèle. Comment une personne experte pourra contrôler la décision obtenue par le modèle et injecter ses propres connaissances au processus décisionnel constituera une étape cruciale pour les nouveaux modèles développés au cours de cette thèse.
Partie 3 : Amélioration de l'abstraction pour les tâches interprétatives
Nous construirons et entraînerons nos modèles sur des jeux de données de tâches d'interprétations de complexités variés : images (CUB, SkinCon), vidéos courtes (XD-Violence, HateMM), vidéos longues (MovieClips, MObyGaze). Nous étudierons la pertinence des représentations abstraites construites et extraites dans les parties précédentes pour ces tâches complexes d'interprétation, et concevrons des stratégies pour enrichir ces abstractions afin de mieux couvrir les aspects implicites des tâches d'interprétation. Cette proposition de thèse s'inscrit scientifiquement dans la suite des travaux entrepris dans le cadre du projet européen ICT-48 AI4Media et du projet ANR TRACTIVE. Une co-tutelle sera mise en place spécifiquement dans le cadre du partenariat privilégié entre Université Côte d'Azur et Université Laval (Québec).
La personne recrutée effectuera des périodes de recherche à Université Côte d'Azur en France et d'autres à Université Laval au Québec. Les durées et phases d'alternance seront décidées entre la personne recrutée et l'équipe encadrante. L'objectif principal de cette thèse est de concevoir des mécanismes d'hybridation de modèles de langage multimodaux avec des informations expertes a priori ou des informations expertes extraites d'un contenu multimédia pour des tâches d'interprétations complexes. Pour atteindre cet objectif principal, plusieurs questions ouvertes seront abordées : Comment représenter ces informations expertes a priori ou extraites, pour faciliter leur manipulation et les interventions humaines ? Comment modifier les modèles de langages multimodaux pour une intégration efficace de ces informations ? Comment chaque modalité (visuelle, textuelle, audio, etc.) contribue dans la représentation de ces informations ? Quels mécanismes de raisonnement peut-on envisager à partir de ces informations et comment ces mécanismes de raisonnement peuvent impacter positivement les modèles de langage multimodaux associés ? Les tâches interprétatives complexes dans du contenu multimédia reposent souvent sur des concepts et des relations implicites, ceux-ci sont-ils totalement représentables par des informations expertes ou comment caractériser l'implicite dans notre hybridation ?
Tous ces mécanismes d'hybridation entre modèles neuronaux et représentations abstraites doivent permettre non seulement des boucles de raisonnement sur le contenu mais aussi des boucles de feedback humain pour relever les défis des tâches d'interprétation complexes dans les données multimédia. La thèse se structure en trois parties :
Partie 1: Hybridation multimodale
Dans cette partie nous concevrons de nouveaux modèles combinant le potentiel des grands modèles de langage multimodaux (MLLM) avec une représentation abstraite du contenu multimédia permettant une analyse perceptive en même temps qu'une analyse logique de ce contenu. Nous devrons pour cela élaborer la forme appropriée de cette représentation abstraite du contenu, en s'appuyant sur les récentes avancées dans le domaine des graphes de scènes vidéo. Nous développerons également de nouveaux schémas d'entrainement pour ces nouveaux modèles hybrides.
Partie 2 : Rebouclage par raisonnement & rebouclage par l'humain
Avec les modèles hybrides élaborés dans la première partie, nous pouvons concevoir de nouveaux mécanismes pour rendre les décisions plus robustes. En effet, la représentation abstraite du contenu multimédia d'une scène pourra être considérée comme la mémoire du modèle tout au long de cette scène, et ainsi renforcer la consistance et la cohérence temporelle de la représentation du contenu (les personnages participants à une scène d'un film, l'unité de lieu, l'unité de temps, permettront de vérifier la validité logique de la représentation abstraite). De même, cette représentation abstraite du contenu, permettra des interventions humaines directement sur la représentation pour guider la partie perceptive du modèle dans une direction plus appropriée. En cela, le niveau d'abstraction de cette représentation structurée devra être précisément considéré pour être facilement compris et manipulable par l'humain. Comment une personne experte pourra contrôler la décision obtenue par le modèle et intégrer ses propres connaissances au processus décisionnel constituera une étape cruciale à l'intégration et l'adoption de ces nouveaux modèles développés au cours de cette thèse.
Partie 3 : Amélioration des représentations abstraites pour les tâches interprétatives
Nous construirons et entraînerons nos modèles sur des jeux de données de tâches d'interprétations de complexités variés : (CUB, SkinCon), vidéos courtes (XD-Violence, HateMM), vidéos longues (MovieClips, MObyGaze). Nous étudierons la pertinence des représentations abstraites construites et extraites dans les parties précédentes pour ces tâches complexes d'interprétation, et concevrons des stratégies pour enrichir ces abstractions afin de mieux couvrir les aspects implicites des tâches d'interprétation.
Le profil recherché
Requis
- Master en informatique avec une spécialisation en IA et apprentissage automatique
- Solide compétence et expérience préalable en vision par ordinateur, traitement d'images, méthodes, traitement du langage naturel,
- Excellentes compétences en programmation en Python,
- Solide expérience avec les bibliothèques d'apprentissage automatique (scikit learn, Pytorch) et les algorithmes,
- Bonne connaissance des flux de traitement des données pour l'apprentissage automatique.