Retour au format normal

Désambiguïsation

10 octobre 2006

Technolangue.net

 

On appelle désambiguïsation lexicale l’opération qui consiste à déterminer le sens d’un mot en contexte. Par exemple, le mot barrage peut référer à un barrage hydraulique, un barrage de police, un barrage de guitare, etc. La désambiguïsation lexicale est un composant nécessaire à de nombreuses applications du traitement automatique des langues.

La plupart des mots d’une langue ont de multiples sens, qui résultent d’une évolution historique complexe, comme c’est le cas pour le mot barrage ci-dessus. Parfois, les formes sont même homographes, c’est-à-dire que leur parenté graphique résulte d’un pur accident hors de toute parenté étymologique (comme pour le mot avocat, fruit ou auxiliaire de justice).

La discrimination du sens des mots est une composante utile, voire indispensable, par exemple pour :

L’automatisation de la tâche de désambiguïsation lexicale est un problème reconnu comme extrêmement difficile dès les débuts du traitement automatique des langues.

Les systèmes de désambiguïsation lexicale doivent mettre en relation les occurrences de mots en contexte avec les entrées d’un dictionnaire informatisé ou d’une base de données lexicale. Les informations qui peuvent être exploitées proviennent principalement des mots voisins du mot à désambiguïser (mot-cible). Ainsi, la présence des mots tels que eau, lac, turbine est un indice fort pour le choix du sens barrage hydraulique, tandis que celle de mots tels que poids lourds, camionneurs, etc. est un indice pour le choix de barrage routier. D’autres indices peuvent également être exploités, comme le domaine général du texte dans lequel se situe le mot-cible.

Les difficultés de la désambiguïsation lexicale sont au moins de deux ordres :

Malgré de nombreux essais depuis les années 1950, ce n’est que très récemment que des progrès significatifs ont pu être enregistrés, grâce à l’émergence de méthodes probabilistes qui permettent de pallier le manque de connaissances explicites par un apprentissage de nature statistique des coocurrences sur de très grands corpus de textes. L’inadéquation des dictionnaires reste cependant un écueil qui ne semble pas avoir de solution immédiate.

Bibliographie

-  Ide, N., & Véronis, J. (1998). Introduction to the special issue on word sense disambiguation : the state of the art. Computational Linguistics, 24(1), 1-40. [PDF]

Jean Véronis