Plongements Interprétables pour la Détection de Biais Cachés

Tom Bourgeade; Philippe Muller; Tim van de Cruys

Communication Dans Un Congrès Année : 2021

Plongements Interprétables pour la Détection de Biais Cachés

(1) , (1) , (1, 2)

1
2

Tom Bourgeade

Fonction : Auteur
PersonId : 751202
IdHAL : tom-bourgeade
ORCID : 0000-0002-0247-3130

MEthodes et ingénierie des Langues, des Ontologies et du DIscours

Philippe Muller

Fonction : Auteur
PersonId : 12849
IdHAL : philippe-muller
ORCID : 0000-0002-6765-4020
IdRef : 164188029

MEthodes et ingénierie des Langues, des Ontologies et du DIscours

Tim van de Cruys

Fonction : Auteur
PersonId : 185039
IdHAL : tim-van-de-cruys
ORCID : 0000-0002-4650-0444
IdRef : 201064839

MEthodes et ingénierie des Langues, des Ontologies et du DIscours

Catholic University of Leuven = Katholieke Universiteit Leuven

Résumé

A lot of current semantic NLP tasks use semi-automatically collected data, that are often prone to unwanted artifacts, which may negatively affect models trained on them. With the more recent shift towards more complex, and less interpretable, pre-trained general purpose models, these biases may lead to undesirable correlations getting integrated into end-user applications. Recently a few methods have been proposed to train word embeddings with better interpretability. We propose a simple setup which exploits these representations to preemptively detect easy-to-learn lexical correlations in various datasets. We evaluate a few popular interpretable embedding models for English for this purpose, using both an intrinsic evaluation, and a large set of downstream semantic tasks, and we make use of the embeddings’ interpretable quality in order to diagnose potential biases in the associated datasets.

De nombreuses tâches sémantiques en TAL font usage de données collectées de manière semiautomatique, ce qui est souvent source d’artefacts indésirables qui peuvent affecter négativement les modèles entraînés sur celles-ci. Avec l’évolution plus récente vers des modèles à usage générique pré-entraînés plus complexes, et moins interprétables, ces biais peuvent conduire à l’intégration de corrélations indésirables dans des applications utilisateurs. Récemment, quelques méthodes ont été proposées pour entraîner des plongements de mots avec une meilleure interprétabilité. Nous proposons une méthode simple qui exploite ces représentations pour détecter de manière préventive des corrélations lexicales faciles à apprendre, dans divers jeux de données. Nous évaluons à cette fin quelques modèles de plongements interprétables populaires pour l’anglais, en utilisant à la fois une évaluation intrinsèque, et un ensemble de tâches sémantiques en aval, et nous utilisons la qualité interprétable des plongements afin de diagnostiquer des biais potentiels dans les jeux de données associés.

Mots clés

Plongements lexicaux Interprétabilité Biais.

Domaines

Informatique et langage [cs.CL]

Fichier principal

24.pdf (334.56 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Yannick Parmentier : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03265888

Soumis le : mercredi 23 juin 2021-23:43:39

Dernière modification le : jeudi 23 novembre 2023-10:48:07

Archivage à long terme le : vendredi 24 septembre 2021-19:11:30

Dates et versions

hal-03265888 , version 1 (23-06-2021)

Licence

Paternité

Identifiants

HAL Id : hal-03265888 , version 1

Citer

Tom Bourgeade, Philippe Muller, Tim van de Cruys. Plongements Interprétables pour la Détection de Biais Cachés. Traitement Automatique des Langues Naturelles (TALN 2021), 2021, Lille, France. pp.64-80. ⟨hal-03265888⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS UT1-CAPITOLE IRIT IRIT-MELODI TALN-RECITAL IRIT-IA IRIT-CNRS IRIT-UT3 TALN-RECITAL2021 TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

146 Consultations

81 Téléchargements

Plongements Interprétables pour la Détection de Biais Cachés

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager