L'UCLouvain recherche
un chercheur ou une chercheuse pour un doctorat en traitement automatique du 
langage
- bourse de doctorat à temps plein (100%) pour une durée de deux ans, 
renouvelable une fois sous conditions
- pour le Centre de traitement automatique du langage (Cental), de l'Institut 
langage et communication (ILC) à l’UCLouvain (Louvain-la-Neuve)
- entrée en fonction: 1er septembre 2025 (négociable)
Cette proposition de bourse de doctorat s’articule sur les travaux récents 
réalisés par le Centre de traitement automatique du langage (CENTAL) sur des 
données de productions écrites d’apprenants du français langue étrangère. 
Reposant sur une collaboration féconde avec FEI (France Éducation 
International), ces recherches ont déjà abouti dans une solution de correction 
automatisée des épreuves écrites du TCF, FIDELIA 
(https://www.france-education-international.fr/actualites/lettre-fei/2024-06/une-nouvelle-ere-pour-levaluation-fidelia-et-lintelligence-artificielle-au-service-du?langue=fr).
Dans ce projet, nous visons à dépasser la simple caractérisation de la 
compétence écrite des apprenants de FLE, en détectant automatiquement les 
erreurs qu’ils commettent afin de les corriger (= normalisation). Ce projet 
vise à combler l’absence de travaux en matière de normalisation et de 
correction neuronale des erreurs d’apprenants en français et s’inscrit dans la 
logique du centre K de l’UCLouvain (CLARIN). La détection des erreurs 
d’apprenants et leur normalisation ouvrent de nombreuses perspectives : 
correction automatisée, génération de feedback, amélioration des recherches sur 
corpus grâce à la forme normée, etc.
Pour ce faire, ce projet visera trois objectifs principaux :

  1.
Constituer un corpus parallèle (version originale et normalisée) pour 6569 
textes d’apprenants rédigés dans le cadre d’un examen officiel de français, le 
TCF. Ce corpus, rassemblé en collaboration avec France Éducation 
Internationale, constitue une ressource unique pour le français (Wilkens et 
al., 2022). Il s’agira de le normaliser manuellement (i.e. identifier et 
corriger les erreurs), mais aussi de les classer selon une typologie inspirée 
de Granger (2003).
  2.
Profiter des dernières avancées en matière d’apprentissage profond pour 
exploiter ce corpus annoté et concevoir un système automatisé capable de (1) 
normaliser les productions d’apprenants en français et (2) de les catégoriser 
en fonction de notre typologie. Nous comparerons cette solution aux 
performances des modèles génératifs de type ChatGPT, qui ne nécessitent pas de 
données d’entraînement (zero-shot learning).
  3.
Exploiter les méta-données du corpus (niveau CECR et langue maternelle) pour 
décrire (1) les types d’erreurs typiques de chaque niveau CECR ; (2) les 
erreurs typiques de locuteurs ayant une langue maternelle donnée et (3) 
l’interaction entre ces deux variables, à savoir comment les erreurs se 
distribuent par niveau en fonction de la langue maternelle.


Au sein de projet, le rôle du doctorant ou de la doctorante engagé consistera à 
mener l’essentiel de la recherche, à savoir réaliser les trois étapes décrites 
ci-dessus. Le chercheur ou la chercheuse devra également assurer la diffusion 
des résultats obtenus via des publications scientifiques et rédiger une thèse 
de doctorat. Il ou elle sera amené à collaborer étroitement avec les autres 
membres de l’équipe en vue d’assurer la bonne réalisation de ces tâches.
Environnement de travail
Le CENTAL est rattaché à l’Institut Langage & Communication 
(https://uclouvain.be/fr/instituts-recherche/ilc), qui fait partie de 
l’UCLouvain. Cette université est située à Louvain-la-Neuve 
(https://uclouvain.be/fr/sites/louvain-la-neuve), une ville piétonne, agréable 
à vivre et très dynamique. Le projet de recherche sera réalisé sous la 
direction du Pr. Thomas François (https://cental.uclouvain.be/team/tfrancois/), 
expert en lisibilité et en simplification automatique de la langue et du Dr. 
Patrick Watrin (https://www.linkedin.com/in/pwatrin/?originalSubdomain=be), 
expert dans les larges modèles de langue appliqués à la recherche d’information 
et le traitement numérique des corpus.
Qualifications et aptitudes requises
Le candidat répondra aux qualifications suivantes :

  *
Être porteur d’un master en Linguistique computationelle, en Traitement 
automatique du langage (TAL) ou en Informatique (option en Intelligence 
artificielle).
  *
Faire montre d’un excellent parcours académique
  *
Disposer de bonnes compétences informatiques :
     *
langages de programmation : Python, R (ou similaire)
     *
la connaissance de scikit-learn, pandas, tensorflow/keras et/ou pytorch
     *
systèmes : Linux de préférence
  *
Bonne connaissance des principaux outils et algorithmes du TAL. La connaissance 
des réseaux de neurones profonds est un plus.
  *
Excellente maîtrise du français (niveau C1 minimum) et bonne connaissance de 
l’anglais (niveau B2 minimum)
  *
Autonomie, curiosité, sens du travail en équipe, capacité d’écoute et d’analyse 
des besoins, réactivité.

Conditions d’engagement :
Cette bourse de doctorat est soumise aux conditions suivantes :

  *
Le candidat ou la candidate, suite à la procédure de recrutement, devra encore 
être approuvée par le Conseil de Recherche de l’UCLouvain.
  *
À la date d’engagement, le doctorant doit être titulaire depuis au maximum 3 
ans* d’un grade académique de master 120 crédits ou d’un grade reconnu comme 
équivalent.
  *
Le candidat ou la candidate devra se domicilier en Belgique pendant la durée du 
contrat de bourse.
  *
Le montant net de la bourse est d’environ 2 500 euros par mois.
  *
Pour voir sa bourse être renouvelée pour une période de deux ans 
supplémentaires, le candidat ou la candidate devra soumettre une demande de 
financement auprès du FNRS et être classé à minima au rang « A » ainsi qu’avoir 
réussi son épreuve de confirmation.

* Le délai maximum fixé ci-dessus est augmenté d’une année par accouchement 
et/ou par adoption.
Dossier de candidature :
Date limite de remise du dossier : 1er juillet

Si vous êtes intéressé par ce poste, merci d'envoyer votre dossier de 
candidature à Thomas François 
([email protected]<mailto:[email protected]>) et Patrick 
Watrin 
(p<mailto:[email protected]>[email protected]<mailto:[email protected]>)
 par mail. Celui-ci devra inclure :

1. un curriculum vitae détaillé en français ou anglais reprenant les 
différentes qualifications et aptitudes requises, les détails de votre parcours 
académique (grades, listes de cours), ainsi que les éventuelles publications et 
autres expériences académiques et scientifiques ;

2. une lettre de motivation en français, décrivant votre intérêt pour le poste, 
comment votre profil répond à la description du poste et aux objectifs du 
projet, etc. (maximum 2 pages) ;

3. une lettre de référence en français ou en anglais de la part d’un ou d’une 
de vos professeur(e)s.

4. Un « academic statement » : une déclaration académique concise dans laquelle 
vous exposez vos attentes vis-à-vis de vos études de troisième cycle 
(doctorat), ainsi que vos objectifs de carrière. 

Les candidats retenus seront invités à participer à un entretien via 
vidéo-conférence selon des modalités qui leur seront ensuite transmises par 
mail.
Plus d'informations :
Les questions concernant le poste ou la procédure de candidature doivent être 
envoyées par e-mail à Thomas François 
([email protected]<mailto:[email protected]>) et à 
Patrick Watrin 
([email protected]<mailto:[email protected]>) avant le 20 
juin.

Thomas François

Chargé de cours en linguistique appliquée
Faculté de Philosophie, Arts et Lettres
Université catholique de Louvain
Institut Langage et Communication, PLIN, CENTAL et TeaMM
Place Montesquieu, 3 - box L2.06.04 • B-1348 Louvain-la-Neuve • Belgium
Tél. : +32 (0)10 / 47 37 36

_______________________________________________
Corpora mailing list -- [email protected]
https://list.elra.info/mailman3/postorius/lists/corpora.list.elra.info/
To unsubscribe send an email to [email protected]

Reply via email to