00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Résolution Réferences
mardi 10 octobre 2006


La résolution des références et des anaphores

Résoudre la référence est une étape cruciale dans la compréhension profonde de textes ou de dialogues. La tâche revient à établir un lien entre des unités linguistiques appelées expressions référentielles et les entités extralinguistiques évoquées, appelées référents. Généralement, on considère comme expressions référentielles certains groupes nominaux, éventuellement modifiés (le bouton, le bouton rouge, l’autre bouton, le bouton qui clignote, ce bouton) et certains pronoms (il, celui-ci, le sien). Il s’agit alors d’identifier, dans le contexte au sens large (environnement immédiat, mémoire des locuteurs), le ou les objets dont il est prédiqué quelque chose, soit pour exercer une action sur eux, soit pour augmenter la base de connaissance à leur sujet.Les tâches-clé d’un système de résolution automatique de la référence sont donc la détection des expressions potentiellement référentielles, la gestion dynamique d’une base de référents potentiels et la mise en correspondance des expressions avec les référents.

La détection des expressions potentiellement référentielles est le plus souvent effectuée à partir de la sortie d’un analyseur syntaxique. Les difficultés majeures à ce stade proviennent du caractère non systématique de l’appariement des syntagmes nominaux avec des expressions référentielles : des groupes nominaux quantifiés ou sous la portée d’une négation, des pronoms explétifs ou des noms propres, par exemple, ne sont pas des expressions référentielles.

La gestion dynamique d’une base de référents potentiels repose généralement sur un modèle du contexte, permettant d’introduire, de mettre à jour et de supprimer des représentations identifiantes pour les objets dont il est question. Selon les fondements théoriques sous-jacents, il peut s’agir d’un modèle d’inspiration logique (dans la tradition de la sémantique dynamique) ou cognitif (dans la tradition des grammaires de construction). Les premiers mettent l’accent sur l’aspect opératoire, quelquefois au détriment de la finesse linguistique de la modélisation ; les seconds fournissent des cadres de description plus ouverts, mais supposent en général l’existence de ressources ontologiques à large couverture avant d’être véritablement opérationnels. Dans tous les cas, les difficultés de la modélisation du contexte sont dues à l’intégration dynamique, dans un même cadre formel, de connaissances d’origines diverses : connaissances linguistiques, perception, connaissances encyclopédiques, mémoire à court terme.

La résolution de la référence proprement dite consiste à identifier dans le modèle contextuel la et les représentation(s) évoquée(s) par l’expression référentielle en cours de résolution. Cette recherche est guidée par plusieurs indicateurs :la détermination de l’expression en question (indéfinie, définie, démonstratives, pronominale),lasémantiquede sa tête et de ses modifieurs éventuels, mais aussi la disponibilité et l’accessibilité des entités disponibles dans le modèle contextuel. A ce stade, les enjeux majeurs sont la prise en compte de connaissances lexicales ou encyclopédique nécessaires à certaines inférences (accéder par exemple de la représentation pour un tableau de bord à celle d’un bouton particulier) et le traitement des ambiguïtés (choisir une représentation, lorsque plusieurs remplissent les critères de recherche, par exemple pour un pronom il).

D’un point de vue informatique, la performance, la robustesse et la portabilité d’un système complet pour la résolution de la référence reposent crucialement sur la qualité des composants en amont (analyse syntaxique et sémantique) et la disponibilité des ressources lexicales et encyclopédiques. En l’absence de ces pré-requis, les systèmes existants restreignent généralement leur ambitions en fonction de l’application cible. Les limitations peuvent porter sur le traitement de certaines expressions seulement (pronoms personnels pour l’extraction d’information, entités nommées dans des tâches de réservation), sur le traitement d’un domaine limité (réservation de billets d’avion), sur une simplification des mécanismes de résolution (traitement similaire pour les descriptions définies et les pronoms) et/ou sur un déplacement de la résolution de la référence proprement dite vers la résolution des anaphores (appariement d’une expression référentielle non pas avec une entité extralinguistique, mais avec une autre expression appelée « l’antécédent »). Ces limitations tracent en même temps les enjeux pour la recherche des années à venir : articuler des modélisations reposant véritablement sur la connaissance fine des mécanismes linguistiques et cognitifs sous-jacents à la référence avec l’optimisation de l’accès à des ressources linguistiques de bonne qualité et à large couverture.

Pistes bibliographiques

-  pour une approche logique de la référence :

Kamp H. and Reyle U. (1993). From Discourse to Logic. Kluwer Academic Publishers. Dordrecht, Boston, London. 713 p.

-  pour une approche cognitive de la référence :

Alshawi H. (1987). Memory and Context for Language Interpretation. Cambridge University Press, Cambridge.

-  pour une approche linguistique de la référence :

Corblin F. (1987). Indéfini, Défini et Démonstratif. Droz, Genève.

-  pour un opérationalisation de l’approche linguistique :

Salmon-Alt S. (2001). Référence et Dialogue finalisé : de la linguistique à un modèle opérationnel. Ph.D. Thesis, Université H. Poincaré, Nancy, France.

-  pour une implémentation de l’approche cognitive :

Pitel G. (2004). La notion de construction située pour un modèle d’interprétation et de résolution de la référence pour le dialogue finalisé. Ph.D. Thesis, Université Paris-XI.

-  pour un état de l’art sur la résolution des anaphores :

Mitkov R. (2002). Anaphora Resolution. Studies in Language and Linguistics. Longman, London.

Susanne Salmon-Alt