Retour au format normal

Résumé Automatique

10 octobre 2006

Technolangue.net

 

Introduction

Les grandes entreprises, les grandes administrations, les laboratoires et les services de développement sont confrontés à un défi : gérer la masse des documents textuels saisis sur des supports électroniques. Comment les classer ? Comment les stocker pour y retrouver rapidement les informations qu’ils contiennent ? Comment diffuser ces informations à ceux qui sauront les utiliser ? Comment filtrer une information pertinente parmi toutes les informations contenues dans les documents stockés ? Ces tâches sont d’autant plus complexes que ce qui est jugé pertinent pour l’un ne l’est pas nécessairement pour l’autre. Dans ce contexte, il est intéressant produire un résumé du texte qui permette au lecteur de décider rapidement si il est intéressant de lire le texte source.

Mais dans ce cas, pourquoi ne pas se contenter d’un résumé rédigé par un résumeur professionnel ? D’abord parce que tous les textes ne sont pas systématiquement accompagnés d’un résumé, notamment les textes qui circulent sur le réseau Internet, et surtout parce que le coût de production d’un résumé par un résumeur professionnel est très élevé et que la productivité de ce même professionnel est faible. À titre d’exemple, pour un texte source d’une dizaine de pages, un résumeur professionnel, lorsqu’il est spécialiste du domaine, produit un résumé en une dizaine de minutes, mais il lui faut presque une heure lorsque le domaine traité ne relève pas de sa compétence.

Ensuite, parce que les travaux menés en collaboration avec les résumeurs professionnels ont montré la difficulté à réaliser des résumés standards, c’est-à-dire construits sans tenir compte des besoins des utilisateurs. En effet, il n’existe pas de critères précis pour déterminer ce que serait un « bon résumé » ou un « résumé idéal ». Une information n’est pas importante en soi, mais doit correspondre aux besoins d’un utilisateur. Les résumés dépendent également des types de texte. On ne résume pas de la même façon un texte narratif, un article scientifique relatif à une science expérimentale, un article d’une science théorique ou d’un domaine spéculatif, des articles juridiques, etc. Il n’y a donc pas de résumé idéal qui serait indépendant des demandes des utilisateurs et des types de texte. C’est pourquoi ces dernières années les recherches se sont orientés vers la production de résumé dynamique.

Qu’il s’agisse de produire un résumé statique ou dynamique, il convient toujours de repérer dans un texte les éléments saillants. Pour ce faire, un certain nombre de méthodes ont été proposées ces dernières années. Ces méthodes peuvent être classées en deux groupes : les approches par compréhension et les approches par extraction.

Les méthodes fondées sur la compréhension

Un large courant de recherches a pris ses racines dans l’étude de la compréhension automatique en s’inspirant des méthodes de l’Intelligence Artificielle. L’activité résumante a alors été considérée comme résultant d’une nécessaire compréhension du texte source, et est devenue ainsi un terrain d’expérimentation pratique qui permettait de tester des modèles de compréhension et de représentation des connaissances. Ainsi, résumer un texte se décomposait en trois étapes importantes. La première étape vise à construire une représentation du texte à traiter. Cette représentation du texte est le résultat d’une analyse syntaxique ou bien encore est constituée d’un ensemble de propositions qui sont annotées par des rôles casuels. La forme de cette représentation varie selon les approches. Il peut s’agir d’une représentation causale des événements, ou d’un graphe construit à partir de la séquence ordonnée des propositions. La représentation du texte ainsi construite devient alors l’entrée d’un module qui va procèder à sa réduction au moyen d’une série d’opérations. Pour chacun de ces modèles, ces opérations de condensation se fondent sur des hypothèses concernant l’importance des parties de la représentation retenues pour le résumé final. Le résultat obtenu à l’issue de cette étape est une représentation réduite aux parties les plus importantes de la représentation du texte initial. L’étape suivante consiste à engendrer un texte à partir de la représentation résultante. Ce texte est considéré comme le résumé du texte initial.

Ce type d’approche, très en vogue dans les années 80, reste très lié à un domaine particulier, ce qui nécessite la construction de représentations et une possibilité effective de faire appel à des connaissances relatives aux domaines traités. Construire une représentation sémantique d’un texte est un travail qui exige un développement de modèles conceptuels, de faire appel à des ressources linguistiques et à des outils informatiques qui, même si certains d’entre eux sont disponibles dans des laboratoires de recherche, n’ont pas encore atteint le stade d’une industrialisation.

Les méthodes par extraction

Face aux limites des méthodes par compréhension un autre courant de recherche, que nous désignons sous le terme de méthodes par extraction a entrepris de contourner les difficultés précédentes en évitant tout processus de construction de représentations et de génération de textes. Ces méthodes par extraction mobilisent des ressources linguistiques beaucoup plus légères, ce qui leur permet de traiter, avec une certaine efficacité opérationnelle, des textes longs, de différents domaines et avec des temps de traitement acceptables. Toutes ces méthodes partagent un certain nombre de caractéristiques.

Tout d’abord, elles sont fondées sur l’hypothèse qu’il existe, dans tout texte, des unités textuelles saillantes. Les unités textuelles considérées sont en général la phrase, ou un ensemble de phrases liées entre elles par des liaisons discursives, ou encore le paragraphe ;

Deuxièmement, elles utilisent un algorithme de sélection fondé sur des connaissances statistiques, linguistiques, ou sur des heuristiques combinant différents types de connaissances, qui consiste à extraire du texte source une liste ordonnée d’unités textuelles. Les méthodes numériques calculent un score pour chaque unité textuelle, en général la phrase, puis conservent les unités dont le score est supérieur à un certain seuil. Le score le plus couramment utilisé est une fonction de la fréquence du mot dans le texte ; il est issu des techniques utilisées dans les sciences de l’information. Les méthodes linguistiques se fondent sur le repérage de marques linguistiques de « surface » comme des marques lexicales (des mots ou des locutions) ou des marques structurelles (place de la phrase dans le paragraphe, etc.). Cette étape de repérage permet d’attribuer une ou plusireurs annotation aux phrases du texte source.

Enfin, le résumé est construit à partir de la liste des phrases sélectionnées, en respectant l’ordre dans lequel les unités apparaissent dans le texte source tout en veillant à ne pas dépasser un nombre total d’unités textuelles, appelé seuil de réduction. Ce seuil est souvent proportionnel à la taille du texte source, comme c’est en général le cas des résumés produits par des professionnels (un seuil de 20% est considéré comme une norme dans les sciences de l’information). Certaines méthodes cherchent à améliorer la lisibilité du résumé en contrôlant la cohérence et la cohésion de celui-ci.

Perspectives

Les travaux actuels visent à ne plus considérer le résumé comme indépendant du texte dont il est issu. En effet, l’informatique, associée avec des outils du multimédia fournit des fonctionnalités qui permettent d’offrir à l’utilisateur les moyens de naviguer entre un extrait et le texte original. Plutôt que de chercher à produire un résumé autonome, ce qui nécessite de résoudre des problèmes difficiles comme la résolution des anaphores ou le repérage des liens de cohésion et de cohérence, l’objectif se déplace vers la production d’une synthèse composée d’informations jugées saillantes, et à la construction de liens qui permettent à l’utilisateur, au vu des informations partielles qui lui sont présentées, de fouiller à la demande le texte source.

Bibliographie

-  CHAROLLES, M. (1991). Marquages linguistiques et résumé de texte, Actes du colloque international de linguistique (aspects linguistiques, sémiotiques, psycholinguistiques et automatiques), Charolles M., Petitjean (eds.), Pont-à-Mousson, Paris, Klincksieck, p. 11-27.

-  KINTSCH W., T. A. VAN DIJK. (1978). Toward a model of text comprehension and production, Psycological review, 85, p. 363-394.

-  MANI, I. (2001). Automatic Summarization, John Benjamins Publishing Company, Amsterdam.

-  MINEL J.-L. (2003). Filtrage sémantique. Du résumé à la fouille de textes. 200 pages, Editions Hermès, Paris.

-  MINEL J.-L., J.-P. DESCLES. (2000) Résumé Automatique et Filtrage des textes, in Ingénierie des langues, (sous la direction de J-M. Pierrel) Paris, Editions Hermès, p. 253-270.

Jean-Luc Minel