Plongements Interprétables pour la Détection de Biais Cachés - Archive ouverte HAL Access content directly
Conference Papers Year : 2021

Plongements Interprétables pour la Détection de Biais Cachés

(1) , (1) , (1, 2)
1
2

Abstract

A lot of current semantic NLP tasks use semi-automatically collected data, that are often prone to unwanted artifacts, which may negatively affect models trained on them. With the more recent shift towards more complex, and less interpretable, pre-trained general purpose models, these biases may lead to undesirable correlations getting integrated into end-user applications. Recently a few methods have been proposed to train word embeddings with better interpretability. We propose a simple setup which exploits these representations to preemptively detect easy-to-learn lexical correlations in various datasets. We evaluate a few popular interpretable embedding models for English for this purpose, using both an intrinsic evaluation, and a large set of downstream semantic tasks, and we make use of the embeddings’ interpretable quality in order to diagnose potential biases in the associated datasets.
De nombreuses tâches sémantiques en TAL font usage de données collectées de manière semiautomatique, ce qui est souvent source d’artefacts indésirables qui peuvent affecter négativement les modèles entraînés sur celles-ci. Avec l’évolution plus récente vers des modèles à usage générique pré-entraînés plus complexes, et moins interprétables, ces biais peuvent conduire à l’intégration de corrélations indésirables dans des applications utilisateurs. Récemment, quelques méthodes ont été proposées pour entraîner des plongements de mots avec une meilleure interprétabilité. Nous proposons une méthode simple qui exploite ces représentations pour détecter de manière préventive des corrélations lexicales faciles à apprendre, dans divers jeux de données. Nous évaluons à cette fin quelques modèles de plongements interprétables populaires pour l’anglais, en utilisant à la fois une évaluation intrinsèque, et un ensemble de tâches sémantiques en aval, et nous utilisons la qualité interprétable des plongements afin de diagnostiquer des biais potentiels dans les jeux de données associés.
Fichier principal
Vignette du fichier
24.pdf (334.56 Ko) Télécharger le fichier
Origin : Publisher files allowed on an open archive

Dates and versions

hal-03265888 , version 1 (23-06-2021)

Licence

Attribution - CC BY 4.0

Identifiers

  • HAL Id : hal-03265888 , version 1

Cite

Tom Bourgeade, Philippe Muller, Tim van de Cruys. Plongements Interprétables pour la Détection de Biais Cachés. Traitement Automatique des Langues Naturelles (TALN 2021), 2021, Lille, France. pp.64-80. ⟨hal-03265888⟩
101 View
48 Download

Share

Gmail Facebook Twitter LinkedIn More