Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Normes & Standard

Enjeux

Instances

Imprimer cet article

R�sum� Automatique

mardi 10 octobre 2006

Introduction

Les grandes entreprises, les grandes administrations, les laboratoires et les services de d�veloppement sont confront�s � un d�fi : g�rer la masse des documents textuels saisis sur des supports �lectroniques. Comment les classer ? Comment les stocker pour y retrouver rapidement les informations qu’ils contiennent ? Comment diffuser ces informations � ceux qui sauront les utiliser ? Comment filtrer une information pertinente parmi toutes les informations contenues dans les documents stock�s ? Ces t�ches sont d’autant plus complexes que ce qui est jug� pertinent pour l’un ne l’est pas n�cessairement pour l’autre. Dans ce contexte, il est int�ressant produire un r�sum� du texte qui permette au lecteur de d�cider rapidement si il est int�ressant de lire le texte source.

Mais dans ce cas, pourquoi ne pas se contenter d’un r�sum� r�dig� par un r�sumeur professionnel ? D’abord parce que tous les textes ne sont pas syst�matiquement accompagn�s d’un r�sum�, notamment les textes qui circulent sur le r�seau Internet, et surtout parce que le co�t de production d’un r�sum� par un r�sumeur professionnel est tr�s �lev� et que la productivit� de ce m�me professionnel est faible. � titre d’exemple, pour un texte source d’une dizaine de pages, un r�sumeur professionnel, lorsqu’il est sp�cialiste du domaine, produit un r�sum� en une dizaine de minutes, mais il lui faut presque une heure lorsque le domaine trait� ne rel�ve pas de sa comp�tence.

Ensuite, parce que les travaux men�s en collaboration avec les r�sumeurs professionnels ont montr� la difficult� � r�aliser des r�sum�s standards, c’est-�-dire construits sans tenir compte des besoins des utilisateurs. En effet, il n’existe pas de crit�res pr�cis pour d�terminer ce que serait un « bon r�sum� » ou un « r�sum� id�al ». Une information n’est pas importante en soi, mais doit correspondre aux besoins d’un utilisateur. Les r�sum�s d�pendent �galement des types de texte. On ne r�sume pas de la m�me fa�on un texte narratif, un article scientifique relatif � une science exp�rimentale, un article d’une science th�orique ou d’un domaine sp�culatif, des articles juridiques, etc. Il n’y a donc pas de r�sum� id�al qui serait ind�pendant des demandes des utilisateurs et des types de texte. C’est pourquoi ces derni�res ann�es les recherches se sont orient�s vers la production de r�sum� dynamique.

Qu’il s’agisse de produire un r�sum� statique ou dynamique, il convient toujours de rep�rer dans un texte les �l�ments saillants. Pour ce faire, un certain nombre de m�thodes ont �t� propos�es ces derni�res ann�es. Ces m�thodes peuvent �tre class�es en deux groupes : les approches par compr�hension et les approches par extraction.

Les m�thodes fond�es sur la compr�hension

Un large courant de recherches a pris ses racines dans l’�tude de la compr�hension automatique en s’inspirant des m�thodes de l’Intelligence Artificielle. L’activit� r�sumante a alors �t� consid�r�e comme r�sultant d’une n�cessaire compr�hension du texte source, et est devenue ainsi un terrain d’exp�rimentation pratique qui permettait de tester des mod�les de compr�hension et de repr�sentation des connaissances. Ainsi, r�sumer un texte se d�composait en trois �tapes importantes. La premi�re �tape vise � construire une repr�sentation du texte � traiter. Cette repr�sentation du texte est le r�sultat d’une analyse syntaxique ou bien encore est constitu�e d’un ensemble de propositions qui sont annot�es par des r�les casuels. La forme de cette repr�sentation varie selon les approches. Il peut s’agir d’une repr�sentation causale des �v�nements, ou d’un graphe construit � partir de la s�quence ordonn�e des propositions. La repr�sentation du texte ainsi construite devient alors l’entr�e d’un module qui va proc�der � sa r�duction au moyen d’une s�rie d’op�rations. Pour chacun de ces mod�les, ces op�rations de condensation se fondent sur des hypoth�ses concernant l’importance des parties de la repr�sentation retenues pour le r�sum� final. Le r�sultat obtenu � l’issue de cette �tape est une repr�sentation r�duite aux parties les plus importantes de la repr�sentation du texte initial. L’�tape suivante consiste � engendrer un texte � partir de la repr�sentation r�sultante. Ce texte est consid�r� comme le r�sum� du texte initial.

Ce type d’approche, tr�s en vogue dans les ann�es 80, reste tr�s li� � un domaine particulier, ce qui n�cessite la construction de repr�sentations et une possibilit� effective de faire appel � des connaissances relatives aux domaines trait�s. Construire une repr�sentation s�mantique d’un texte est un travail qui exige un d�veloppement de mod�les conceptuels, de faire appel � des ressources linguistiques et � des outils informatiques qui, m�me si certains d’entre eux sont disponibles dans des laboratoires de recherche, n’ont pas encore atteint le stade d’une industrialisation.

Les m�thodes par extraction

Face aux limites des m�thodes par compr�hension un autre courant de recherche, que nous d�signons sous le terme de m�thodes par extraction a entrepris de contourner les difficult�s pr�c�dentes en �vitant tout processus de construction de repr�sentations et de g�n�ration de textes. Ces m�thodes par extraction mobilisent des ressources linguistiques beaucoup plus l�g�res, ce qui leur permet de traiter, avec une certaine efficacit� op�rationnelle, des textes longs, de diff�rents domaines et avec des temps de traitement acceptables. Toutes ces m�thodes partagent un certain nombre de caract�ristiques.

Tout d’abord, elles sont fond�es sur l’hypoth�se qu’il existe, dans tout texte, des unit�s textuelles saillantes. Les unit�s textuelles consid�r�es sont en g�n�ral la phrase, ou un ensemble de phrases li�es entre elles par des liaisons discursives, ou encore le paragraphe ;

Deuxi�mement, elles utilisent un algorithme de s�lection fond� sur des connaissances statistiques, linguistiques, ou sur des heuristiques combinant diff�rents types de connaissances, qui consiste � extraire du texte source une liste ordonn�e d’unit�s textuelles. Les m�thodes num�riques calculent un score pour chaque unit� textuelle, en g�n�ral la phrase, puis conservent les unit�s dont le score est sup�rieur � un certain seuil. Le score le plus couramment utilis� est une fonction de la fr�quence du mot dans le texte ; il est issu des techniques utilis�es dans les sciences de l’information. Les m�thodes linguistiques se fondent sur le rep�rage de marques linguistiques de « surface » comme des marques lexicales (des mots ou des locutions) ou des marques structurelles (place de la phrase dans le paragraphe, etc.). Cette �tape de rep�rage permet d’attribuer une ou plusireurs annotation aux phrases du texte source.

Enfin, le r�sum� est construit � partir de la liste des phrases s�lectionn�es, en respectant l’ordre dans lequel les unit�s apparaissent dans le texte source tout en veillant � ne pas d�passer un nombre total d’unit�s textuelles, appel� seuil de r�duction. Ce seuil est souvent proportionnel � la taille du texte source, comme c’est en g�n�ral le cas des r�sum�s produits par des professionnels (un seuil de 20% est consid�r� comme une norme dans les sciences de l’information). Certaines m�thodes cherchent � am�liorer la lisibilit� du r�sum� en contr�lant la coh�rence et la coh�sion de celui-ci.

Perspectives

Les travaux actuels visent � ne plus consid�rer le r�sum� comme ind�pendant du texte dont il est issu. En effet, l’informatique, associ�e avec des outils du multim�dia fournit des fonctionnalit�s qui permettent d’offrir � l’utilisateur les moyens de naviguer entre un extrait et le texte original. Plut�t que de chercher � produire un r�sum� autonome, ce qui n�cessite de r�soudre des probl�mes difficiles comme la r�solution des anaphores ou le rep�rage des liens de coh�sion et de coh�rence, l’objectif se d�place vers la production d’une synth�se compos�e d’informations jug�es saillantes, et � la construction de liens qui permettent � l’utilisateur, au vu des informations partielles qui lui sont pr�sent�es, de fouiller � la demande le texte source.

Bibliographie

CHAROLLES, M. (1991). Marquages linguistiques et r�sum� de texte, Actes du colloque international de linguistique (aspects linguistiques, s�miotiques, psycholinguistiques et automatiques), Charolles M., Petitjean (eds.), Pont-�-Mousson, Paris, Klincksieck, p. 11-27.

KINTSCH W., T. A. VAN DIJK. (1978). Toward a model of text comprehension and production, Psycological review, 85, p. 363-394.

MANI, I. (2001). Automatic Summarization, John Benjamins Publishing Company, Amsterdam.

MINEL J.-L. (2003). Filtrage s�mantique. Du r�sum� � la fouille de textes. 200 pages, Editions Herm�s, Paris.

MINEL J.-L., J.-P. DESCLES. (2000) R�sum� Automatique et Filtrage des textes, in Ing�nierie des langues, (sous la direction de J-M. Pierrel) Paris, Editions Herm�s, p. 253-270.

Jean-Luc Minel