Remplacement de mentions pour l'adaptation d'un corpus de reconnaissance d'entités nommées à un domaine cible - Ecole Centrale de Nantes Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Remplacement de mentions pour l'adaptation d'un corpus de reconnaissance d'entités nommées à un domaine cible

Arthur Amalvy
  • Fonction : Auteur
  • PersonId : 753566
  • IdHAL : aamalvy
Vincent Labatut

Résumé

Named Entity Recognition is a well-studied natural language processing task, that is useful in a number of applications. Since recently, deep-learning models are able to solve this task with good performance. However, datasets used to train and evaluate those models cover a sparse number of domains (newswire, web). As performance for a model trained on a specific domain are generally lower on another one, this implies lower performance for less covered domains. In order to fix this issue, this article proposes to use a data augmentation technique that can be used to adapt a named entity recognition corpus from a source domain to a target domain where the encountered names can be different. We apply this technique to fantasy novels, and we show that it can yield performance gains in that context.
La reconnaissance d'entités nommées est une tâche de traitement automatique du langage naturel bien étudiée et utile dans de nombreuses applications. Dernièrement, les modèles neuronaux permettent de la résoudre avec de très bonnes performances. Cependant, les jeux de données permettant l'entraînement et l'évaluation de ces modèles se concentrent sur un nombre restreint de domaines et types de documents (articles journalistiques, internet). Or, les performances d'un modèle entraîné sur un domaine ciblé sont en général moindres dans un autre : ceux moins couverts sont donc pénalisés. Pour tenter de remédier à ce problème, cet article propose d'utiliser une technique d'augmentation de données permettant d'adapter un corpus annoté en entités nommées d'un domaine source à un domaine cible où les types de noms rencontrés peuvent être différents. Nous l'appliquons dans le cadre de la littérature de fantasy, où nous montrons qu'elle peut apporter des gains de performance.
Fichier principal
Vignette du fichier
TALN_2022_Remplacement_de_mentions_pour_l_adaptation_d_un_corpus_de_reconnaissance_d_entites_nommees_a_un_domaine_cible.pdf (162.37 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03651510 , version 1 (25-04-2022)
hal-03651510 , version 2 (18-05-2022)
hal-03651510 , version 3 (22-06-2022)

Identifiants

  • HAL Id : hal-03651510 , version 2

Citer

Arthur Amalvy, Vincent Labatut, Richard Dufour. Remplacement de mentions pour l'adaptation d'un corpus de reconnaissance d'entités nommées à un domaine cible. 29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. ⟨hal-03651510v2⟩
209 Consultations
124 Téléchargements

Partager

Gmail Facebook X LinkedIn More