Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Normes & Standard

Enjeux

Instances

Imprimer cet article

Qu’est-ce que le r�sum� automatique ?

mardi 26 juin 2007

Le r�sum� automatique se propose de faire une extraction de l’information jug�e importante d’un texte d’entr�e pour construire, � partir de cette information, un nouveau texte de sortie, condens�. Ce nouveau texte permet d’�viter la lecture en entier du document source.

Jean-Luc Minel, ing�nieur de recherche du CNRS au laboratoire MoDyCo (universit� Paris X-Nanterre), s’est beaucoup occup� du r�sum� automatique. Il travaille actuellement sur la navigation textuelle comme repr�sentation des textes et des connaissances.

Pouvez-vous nous expliquer la notion de « r�sum� automatique » ?

Avant de parler de r�sum� automatique, on peut peut-�tre d�j� identifier ce qu’est le r�sum� de mani�re classique. Au d�part, le r�sum�, c’est quand un r�sumeur professionnel - donc un humain - prend un texte et en d�gage les id�es essentielles pour en faire un texte plus court. Le r�sum� est donc un autre texte, plus court et cens� d�gager les id�es saillantes qui �taient pr�sentes dans le texte initial.

Alors pourquoi avons-nous besoin de r�sum�s ? Notamment parce que nous n’avons pas le temps de tout lire. En particulier les entreprises, les laboratoires de recherches, tous ces grands centres qui traitent de l’information en ont besoin. Dans les ann�es 1970, c’�tait des r�sumeurs professionnels, des humains, qui passaient entre dix et vingt minutes pour r�sumer un texte scientifique ou un article de presse. Compte tenu de la masse d’information actuellement pr�sente, nous ne pouvons plus nous appuyer uniquement sur des r�sumeurs humains, tout simplement parce que cela co�te trop cher. Le r�sum� automatique, c’est de faire faire par une machine la t�che auparavant faite par un r�sumeur humain. � partir d’un texte source qui est �videmment num�ris�, il s’agit donc de produire un texte plus court. Voil� comment parler du r�sum� automatique. Alors peut-�tre que vers la fin de l’entretien, on pourra parler de « r�sum� automatique » versus « parcours de lecture ».

Si on revient maintenant sur le r�sum� automatique, on peut distinguer deux grandes approches : la premi�re approche date des ann�es 1960 et est fond�e sur la psychologie cognitive et l’intelligence artificielle. Elle partait d’une hypoth�se qui �tait la suivante : pour comprendre un texte, il faut le r�sumer et donc il faut le comprendre et, pour le comprendre, il faut construire des repr�sentations. On voit bien, que derri�re cette approche, il y a l’hypoth�se que, pour traiter de l’information, il faut simuler ce que fait un humain.

Ces approches qu’on appelle « approches par compr�hension » mobilisaient de nombreuses �quipes de recherche entre les ann�es 1960 et 1980. Elles ont essay� de construire des repr�sentations telles que pourraient les construire un individu pour repr�senter un texte. Disons, peut-�tre un peu brutalement, que ces recherches n’ont pas r�ussi, au sens o� les syst�mes ont fonctionn� mais uniquement pour r�sumer de tr�s petits textes, c’est � dire des textes de quatre/cinq phrases, essentiellement des narrations, des suites d’�v�nements. Cette approche a « �chou� », parce qu’on s’est rendu compte au fil du temps qu’il �tait extr�mement compliqu� de dire quelles �taient les repr�sentations qu’il fallait construire, ces repr�sentations �tant cens�es indiquer ce qui est compris dans le texte.

Il y a une deuxi�me approche qui �merge dans les ann�es 1975-1980 suite � l’impossibilit� de construire des repr�sentations. Cette deuxi�me approche va faire une autre hypoth�se qui tient l� aussi � des �tudes psychologiques. Elle consiste � regarder comment les humains effectuent un r�sum�. Si on prend un r�sumeur professionnel sur un texte tr�s pointu, celui-ci ne comprend pas r�ellement tout ce qui est dit dans le texte. Par contre, il peut s’appuyer sur des marques linguistiques comme des mots, des locutions ou m�me la structure du document, pour essayer de d�tecter dans le texte ce qui est important par rapport � l’auteur, pour indiquer que ces �l�ments-l� doivent figurer dans le r�sum�.

Ces approches ont �t� d�nomm�es « approches par extraction » : le principe va reposer sur la d�tection de mots dans le texte source et cela revient � dire que, si ce mot est pr�sent dans la phrase, alors il faut mettre la phrase dans le r�sum�.

D’un point de vue plus g�n�ral, par rapport � l’ing�nierie linguistique, qu’utilise le r�sum� automatique comme lexiques et analyseurs morphosyntaxiques ?

Je vais seulement m’int�resser aux syst�mes de r�sum�s par extraction. Dans ces syst�mes, les niveaux mobilis�s en terme de traitement linguistique sont extr�mement rudimentaires. Les premiers syst�mes par extraction ne font que du comptage fr�quentiel de mots : ils utilisent un score qu’on appelle le score TFIDF, c’est-�-dire la fr�quence du terme relativement � la fr�quence naturelle d’un terme. Si cette fr�quence est tr�s �lev�e, le mot int�ressera le syst�me. Par exemple, si on prend un texte qui parle du r�sum� automatique, on peut estimer que, dans ce texte, on rep�rera souvent le terme « r�sum� automatique ». Cela veut dire que si ce terme « r�sum� automatique » est pr�sent dans une phrase, on prendra cette phrase. C’est vraiment du rep�rage morphologique le plus basique, puisqu’il n’y a m�me pas de traitement de d�tection ou de d�rivation.

Dans les syst�mes des ann�es 1990, on voit appara�tre un peu plus de sophistication dans les traitements : on va prendre en compte la structure du texte et notamment l’endroit o� apparaissent les �l�ments et les mots importants. On va v�rifier s’ils apparaissent dans l’introduction ou la conclusion. Il y a tr�s peu de traitements syntaxiques. D’ailleurs, dans tous les syst�mes qui existent � l’heure actuelle, les phrases ne sont pas analys�es syntaxiquement. On prend la phrase telle qu’elle est pr�sente dans le texte source et on estime que, si elle est pr�sente dans le texte source, c’est que syntaxiquement elle devrait �tre correcte.

Cela signifie aussi - et c’est l’un des inconv�nients du syst�me par extraction - que, si la phrase est tr�s longue, elle sera mise telle quelle dans le r�sum�. Cela veut dire qu’on n’a pas trouv� des syst�mes qui permettraient sur une phrase tr�s longue de pouvoir retirer les informations redondantes, parce qu’on n’est pas capable � l’heure actuelle de dire ce qui est redondant dans une phrase. Par exemple, dire qu’une proposition relative est redondante, c’est un non-sens. Ainsi, si je dis « la fille qui a les yeux clairs » et si j’enl�ve le relatif « qui a les yeux clairs », il ne reste que « la fille » et c’est donc �videmment une information qui n’est plus pertinente. En terme de niveau de traitement, pour l’instant nous sommes donc essentiellement sur des traitements de type morphologique, avec un petit peu d’analyse morphosyntaxique pour pouvoir distinguer si, par exemple, le terme « pr�sente » c’est le verbe conjugu�, le nom ou l’adjectif. C’est � peu pr�s les seuls niveaux qu’on utilise actuellement dans ces syst�mes de traitement.

Par rapport aux ontologies, au web s�mantique et tout ce qui a trait � la repr�sentation et � la gestion des connaissances, est-ce qu’il y a un int�r�t ?

Il y aurait sans doute un int�r�t, notamment dans un texte scientifique ou journalistique, de s’appuyer sur les ontologies pour savoir si le terme en question a telle signification dans ce domaine ou si, dans un autre domaine, il a une autre signification. Mais � ma connaissance, � l’heure actuelle, il y a tr�s peu de syst�mes qui utilisent les ontologies. � mon avis, c’est parce qu’il n’y a pas encore d’ontologies suffisamment d�velopp�es, surtout dans le milieu m�dical.

Par rapport justement � l’existence de syst�mes, qui fait du r�sum� automatique ou plut�t o� ? Est-ce qu’il y a une offre et qui actuellement s’en sert ou devrait s’en servir ? Autrement dit, pouvez-vous nous faire une description du paysage de recherche et industriel ?

Dans le paysage industriel, il y a des outils de r�sum�s automatiques, et notamment un dans le logiciel Word de Microsoft. Tout le monde le consid�re comme tr�s mauvais mais enfin il existe. Il y a quelques offres sur le march� : en France, il y a la soci�t� Pertinence qui offre du r�sum� automatique, et puis il y a des produits comme Summarizer de Copernic. Il y a donc une offre industrielle, mais le probl�me, de mon point de vue, c’est que cette offre industrielle du r�sum� automatique ne correspond pas aux besoins. Je parle d’apr�s mon exp�rience sur le r�sum� automatique. Souvent, lorsque, dans une entreprise, on rencontre un chef d’entreprise qui dit « je voudrais un syst�me de r�sum� automatique », derri�re le terme « r�sum� automatique », il met une fonctionnalit� qui n’est pas celle du r�sum� automatique. Pour lui, « r�sum� automatique », c’est soit une synth�se du texte - et il y a actuellement aucun syst�me de synth�se, il y a des syst�mes d’extraction mais pas de synth�se -, soit un niveau d’exigence en terme de compr�hension qui est tr�s au-del� de ce que l’on sait faire actuellement avec des r�sum�s automatiques.

Il y a donc une demande mais malheureusement cette demande est extr�mement pointue. Prenons un exemple tr�s pr�cis : un chef d’entreprise d’un groupe X dit « j’aimerais un syst�me qui r�sume tout ce qui est pr�sent dans la presse quotidiennement sur l’image de marque de ma soci�t� » et il va dire « �a, c’est du r�sum� automatique », parce qu’en fait, il veut du r�sum� automatique avec un profil tr�s particulier d’extraction qui est « quelle est l’opinion de la presse sur mon entreprise ? » Actuellement, il existe des syst�mes de traitement d’opinion mais on ne les appelle pas des syst�mes de r�sum� automatique. Il y a donc une esp�ce de discordance entre l’offre industrielle qui est tr�s g�n�raliste et les besoins qui sont tr�s sp�cialis�s.

Dans le monde de la documentation et de la gestion de documents, de ce qu’on appelle la GED (Gestion Electronique de Documents), est-ce qu’il y a des usages de r�sum� automatique ?

Il y en avait dans les centres de documentations scientifiques, puisque auparavant il y avait des r�sumeurs professionnels. Pour des raisons de co�t, ces r�sumeurs professionnels ont �t� licenci�s et les centres de documentations n’ont pas trouv� les syst�mes automatiques qui permettaient de remplir d’une mani�re robuste et fiable la m�me fonction. Ils ont donc abandonn� l’id�e du r�sum� automatique et ils font plut�t de l’indexation.

Pour temp�rer cette vision un peu brutale, on voit appara�tre un type de syst�me qui est pr�sent sut le net et qui fait du r�sum� automatique multi-document, c’est-�-dire qu’il prend des d�p�ches d’agences de presse, qu’il les r�sume automatiquement et qu’il fait une sorte de condens� de tous ces syst�mes multi-document. Cela int�resse essentiellement la presse. Il semble que, pour l’instant, on se pose la question de savoir si r�ellement cela correspond � leurs besoins ou si cela reste un gadget mis en place. C’est assez difficile d’avoir une id�e tr�s pr�cise de ce qui se passe sur internet.

Quelle va �tre la diff�rence entre le r�sum� automatique et les listes de m�tadonn�es ou de mots-cl�s ?

La diff�rence, c’est qu’une liste de mots-cl�s n’est pas lisible en tant que telle, c’est-�-dire que vous avez une liste de mots-cl�s mais cela ne vous donne pas d’une mani�re un peu plus pr�cise le contenu du document. Il y a donc une tr�s grande diff�rence en terme de lisibilit�. La deuxi�me diff�rence, c’est que le r�sum� automatique doit rester coh�rent dans le texte qu’il fournit � lire, alors que, dans une liste de mots-cl�s, on ne cherche pas la coh�rence.

En terme de co�t, faire une indexation � partir d’un r�sum� semi-automatique est beaucoup moins co�teuse que faire un r�sum� automatique. Par contre, la valeur ajout�e entre le r�sum� automatique et l’indexation est sans comparaison, dans la mesure o� le r�sum� automatique devrait contenir beaucoup plus d’informations. Je vais vous donner un exemple : dans un r�sum� automatique ou non d’ailleurs, vous avez une dizaine de lignes et au vu de ces dizaines de lignes, vous pouvez dire si ce texte vous int�resse ou pas. C’est beaucoup plus difficile de prendre cette d�cision avec seulement une liste des mots-cl�s.

Est-ce qu’il y a des tentatives en direction du multilingue ? Comment r�sumer un texte o� il y a plusieurs langues ou comment faire un r�sum� dans une langue diff�rente du texte source ? Est-ce qu’il y a des recherches � ce sujet ?

Sur les r�sum�s multilingues, pour l’instant � ma connaissance il y a des recherches mais il n’y a pas de r�alisations. Je ne connais pas de syst�me � l’heure actuelle qui, sur un texte r�dig� en plusieurs langues, serait apte � faire un r�sum� qui soit capable d’agr�ger ces diff�rentes langues. Pourquoi ? Il y a plusieurs questions non r�solues.

D’une part, on va pouvoir d�tecter le changement de langue mais il faudrait d�tecter le niveau de discours du changement de langue. Par exemple, on peut avoir une citation en anglais dans un texte en fran�ais mais il n’y a aucune raison de mettre la citation en anglais dans le r�sum�, parce que c’est une citation qui, en soi, n’est pas forc�ment saillante. Cela fait donc rentrer � nouveau dans la valeur ajout�e le contenu s�mantique du texte qui est dans une autre langue et cela on ne sait pas le faire actuellement.

Pour la deuxi�me question, � savoir de passer d’un texte en fran�ais � son r�sum� en anglais, il y a une solution qui consisterait � dire : on prend le r�sum� fran�ais et on le traduit en anglais. Mais le probl�me, c’est que la traduction automatique n’est pas pour l’instant d’un niveau suffisamment fiable pour la consid�rer comme un produit industriel. � mon avis, la r�ponse tient plus d’un probl�me de ne pas savoir faire de la traduction automatique plut�t que d’un probl�me de r�sum� automatique.

Il faut mieux aller voir les recherches qui sont actuellement les plus importantes, celles que j’�voquais tout � l’heure : les centres de recherche travaillent beaucoup sur le r�sum� multi-document, c’est-�-dire qu’on a un ensemble de documents qui traitent d’un m�me th�me et il s’agit d’�tre capable, � partir des d�p�ches d’agences de presse, de faire un r�sum� qui agr�ge l’information des diff�rentes d�p�ches. C’est compliqu�, dans la mesure o� il faut g�rer la temporalit�. Si je prends l’exemple du tsunami de 2004, les premi�res d�p�ches d’agences disaient en gros « il y a 2000 morts » et, trois jours plus tard, il y avait 100 000 morts. Agr�ger ces diff�rentes informations pose donc des questions de fiabilit� et de temporalit� de l’information.

Pour conclure sur les d�veloppements, quels sont les verrous technologiques dans le r�sum� automatique ? Est-ce qu’ils se situent au niveau s�mantique ou sur le plan des interpr�tations, des niveaux de langage etc. ? O� faudrait-il qu’il y ait un effort de recherche et d’industrialisation ?

Le verrou technologique se situe essentiellement sur la s�mantique. J’ai dit tout � l’heure qu’un syst�me par extraction d�tectait l’information saillante. La premi�re question est « qui juge de la saillance ou de l’importance d’une phrase ? » Une phrase peut �tre importante pour un lecteur et ne pas l’�tre pour un autre, parce que son besoin n’est pas le m�me. Le besoin d’un chef d’entreprise n’est pas le m�me que celui d’un ing�nieur technico-commercial ou que celui d’un ing�nieur de recherche sp�cialis�. En tant que telle, la notion de « r�sum� » fait donc d�j� probl�me. Et la question qui est derri�re, d’un point de vue scientifique, c’est comment d�tecter qu’une information est importante ? Cette question doit �tre ramen�e au lecteur et � ses besoins. Le verrou technologique se situe essentiellement ici.

Ce qui me permet de revenir sur la diff�rence entre « r�sum� automatique » et « parcours de lecture ». Une partie des recherches s’oriente sur le fait que le r�sum� automatique a �t� con�u dans une technologie li�e � l’imprim�, c’est-�-dire qu’on imprimait un r�sum� ind�pendant du texte source. De plus en plus de textes sont num�ris�s et plut�t que de produire un r�sum� automatique, on pourrait essayer de dire « si on guidait le lecteur pour parcourir le texte plus rapidement, on aurait rempli le m�me besoin ». Le lecteur lirait alors le texte non pas en trois heures, mais en quelques minutes ou du moins il lirait les �l�ments qui sont consid�r�s comme importants.

On va donc plut�t essayer de produire des syst�mes qui vont aider le lecteur � rep�rer ce qu’il peut consid�rer comme �tant important dans le texte, avec certaines technologies fond�es sur la syntaxe ou la s�mantique. Un parcours de lecture est plus facile, dans la mesure o�, comme on ne va pas toucher au texte en tant que tel, le lecteur aura toujours la possibilit� de lire le contexte de l’�l�ment s�lectionn� comme important, car le logiciel se positionne dans le texte en disant « voil�, cela est un �l�ment important, lisez-le ». Et, s’il y a des probl�mes de compr�hension, c’est le lecteur qui les r�soudra en lisant le texte source, ce qui n’�tait pas possible avec un r�sum� imprim� ind�pendant du texte.

Propos recueillis par Richard Walter
Pour le laboratoire CRIS - Universit� Paris X

En savoir plus :

Bibliographie

* Jean-Luc Minel Filtrage s�mantique (du r�sum� automatique � la fouille de textes), Herm�s, Paris, 2002.

Liens internet

* Page de Jean-Luc Minel

* Revue TAL, Volume 45 Num�ro 1, « R�sum� automatique de textes »