Désambiguïsation

10 octobre 2006

Technolangue.net

On appelle désambiguïsation lexicale l’opération qui consiste à déterminer le sens d’un mot en contexte. Par exemple, le mot barrage peut référer à un barrage hydraulique, un barrage de police, un barrage de guitare, etc. La désambiguïsation lexicale est un composant nécessaire à de nombreuses applications du traitement automatique des langues.

La plupart des mots d’une langue ont de multiples sens, qui résultent d’une évolution historique complexe, comme c’est le cas pour le mot barrage ci-dessus. Parfois, les formes sont même homographes, c’est-à-dire que leur parenté graphique résulte d’un pur accident hors de toute parenté étymologique (comme pour le mot avocat, fruit ou auxiliaire de justice).

La discrimination du sens des mots est une composante utile, voire indispensable, par exemple pour :

la traduction automatique : le mot grille sera traduit en anglais par des mots totalement différents (railings, gate, bar, grid, scale, schedule, etc.) selon son sens ;
la recherche d’informations : lors d’une recherche sur les recettes à base d’avocat, il serait intéressant de ne pas ramener les documents parlant de justice ;
la synthèse de la parole : le mot fils doit être phonétisé différemment dans les fils du Ciel et les fils de fer ;
etc.

L’automatisation de la tâche de désambiguïsation lexicale est un problème reconnu comme extrêmement difficile dès les débuts du traitement automatique des langues.

Les systèmes de désambiguïsation lexicale doivent mettre en relation les occurrences de mots en contexte avec les entrées d’un dictionnaire informatisé ou d’une base de données lexicale. Les informations qui peuvent être exploitées proviennent principalement des mots voisins du mot à désambiguïser (mot-cible). Ainsi, la présence des mots tels que eau, lac, turbine est un indice fort pour le choix du sens barrage hydraulique, tandis que celle de mots tels que poids lourds, camionneurs, etc. est un indice pour le choix de barrage routier. D’autres indices peuvent également être exploités, comme le domaine général du texte dans lequel se situe le mot-cible.

Les difficultés de la désambiguïsation lexicale sont au moins de deux ordres :

La liste des sens du dictionnaire qui sert de référence. En effet, les dictionnaires traditionnels sont plutôt destinés à la consultation par des humains qu’à une utilisation par des machines. Les subdivisions se sens n’y ont donc pas nécessairement le caractère systématique qui serait nécessaire pour une utilisation algorithmique.
Les connaissances qui permettent d’associer les mots du contexte avec le sens adéquat. A l’heure actuelle il n’existe pas de base de connaissances détaillée des relations du type eau - barrage hydraulique, etc. La constitution manuelle de telles bases serait d’ailleurs une entreprise gigantesque et sans doute hors de portée pour des décennies.

Malgré de nombreux essais depuis les années 1950, ce n’est que très récemment que des progrès significatifs ont pu être enregistrés, grâce à l’émergence de méthodes probabilistes qui permettent de pallier le manque de connaissances explicites par un apprentissage de nature statistique des coocurrences sur de très grands corpus de textes. L’inadéquation des dictionnaires reste cependant un écueil qui ne semble pas avoir de solution immédiate.

Bibliographie

Ide, N., & Véronis, J. (1998). Introduction to the special issue on word sense disambiguation : the state of the art. Computational Linguistics, 24(1), 1-40. [PDF]

Jean Véronis