00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Qu’est-ce que le résumé automatique ?
mardi 26 juin 2007


Le résumé automatique se propose de faire une extraction de l’information jugée importante d’un texte d’entrée pour construire, à partir de cette information, un nouveau texte de sortie, condensé. Ce nouveau texte permet d’éviter la lecture en entier du document source.

Jean-Luc Minel, ingénieur de recherche du CNRS au laboratoire MoDyCo (université Paris X-Nanterre), s’est beaucoup occupé du résumé automatique. Il travaille actuellement sur la navigation textuelle comme représentation des textes et des connaissances.


-  Pouvez-vous nous expliquer la notion de « résumé automatique » ?

Avant de parler de résumé automatique, on peut peut-être déjà identifier ce qu’est le résumé de manière classique. Au départ, le résumé, c’est quand un résumeur professionnel - donc un humain - prend un texte et en dégage les idées essentielles pour en faire un texte plus court. Le résumé est donc un autre texte, plus court et censé dégager les idées saillantes qui étaient présentes dans le texte initial.

Alors pourquoi avons-nous besoin de résumés ? Notamment parce que nous n’avons pas le temps de tout lire. En particulier les entreprises, les laboratoires de recherches, tous ces grands centres qui traitent de l’information en ont besoin. Dans les années 1970, c’était des résumeurs professionnels, des humains, qui passaient entre dix et vingt minutes pour résumer un texte scientifique ou un article de presse. Compte tenu de la masse d’information actuellement présente, nous ne pouvons plus nous appuyer uniquement sur des résumeurs humains, tout simplement parce que cela coûte trop cher. Le résumé automatique, c’est de faire faire par une machine la tâche auparavant faite par un résumeur humain. À partir d’un texte source qui est évidemment numérisé, il s’agit donc de produire un texte plus court. Voilà comment parler du résumé automatique. Alors peut-être que vers la fin de l’entretien, on pourra parler de « résumé automatique » versus « parcours de lecture ».

Si on revient maintenant sur le résumé automatique, on peut distinguer deux grandes approches : la première approche date des années 1960 et est fondée sur la psychologie cognitive et l’intelligence artificielle. Elle partait d’une hypothèse qui était la suivante : pour comprendre un texte, il faut le résumer et donc il faut le comprendre et, pour le comprendre, il faut construire des représentations. On voit bien, que derrière cette approche, il y a l’hypothèse que, pour traiter de l’information, il faut simuler ce que fait un humain.

Ces approches qu’on appelle « approches par compréhension » mobilisaient de nombreuses équipes de recherche entre les années 1960 et 1980. Elles ont essayé de construire des représentations telles que pourraient les construire un individu pour représenter un texte. Disons, peut-être un peu brutalement, que ces recherches n’ont pas réussi, au sens où les systèmes ont fonctionné mais uniquement pour résumer de très petits textes, c’est à dire des textes de quatre/cinq phrases, essentiellement des narrations, des suites d’évènements. Cette approche a « échoué », parce qu’on s’est rendu compte au fil du temps qu’il était extrêmement compliqué de dire quelles étaient les représentations qu’il fallait construire, ces représentations étant censées indiquer ce qui est compris dans le texte.

Il y a une deuxième approche qui émerge dans les années 1975-1980 suite à l’impossibilité de construire des représentations. Cette deuxième approche va faire une autre hypothèse qui tient là aussi à des études psychologiques. Elle consiste à regarder comment les humains effectuent un résumé. Si on prend un résumeur professionnel sur un texte très pointu, celui-ci ne comprend pas réellement tout ce qui est dit dans le texte. Par contre, il peut s’appuyer sur des marques linguistiques comme des mots, des locutions ou même la structure du document, pour essayer de détecter dans le texte ce qui est important par rapport à l’auteur, pour indiquer que ces éléments-là doivent figurer dans le résumé.

Ces approches ont été dénommées « approches par extraction » : le principe va reposer sur la détection de mots dans le texte source et cela revient à dire que, si ce mot est présent dans la phrase, alors il faut mettre la phrase dans le résumé.


-  D’un point de vue plus général, par rapport à l’ingénierie linguistique, qu’utilise le résumé automatique comme lexiques et analyseurs morphosyntaxiques ?

Je vais seulement m’intéresser aux systèmes de résumés par extraction. Dans ces systèmes, les niveaux mobilisés en terme de traitement linguistique sont extrêmement rudimentaires. Les premiers systèmes par extraction ne font que du comptage fréquentiel de mots : ils utilisent un score qu’on appelle le score TFIDF, c’est-à-dire la fréquence du terme relativement à la fréquence naturelle d’un terme. Si cette fréquence est très élevée, le mot intéressera le système. Par exemple, si on prend un texte qui parle du résumé automatique, on peut estimer que, dans ce texte, on repèrera souvent le terme « résumé automatique ». Cela veut dire que si ce terme « résumé automatique » est présent dans une phrase, on prendra cette phrase. C’est vraiment du repérage morphologique le plus basique, puisqu’il n’y a même pas de traitement de détection ou de dérivation.

Dans les systèmes des années 1990, on voit apparaître un peu plus de sophistication dans les traitements : on va prendre en compte la structure du texte et notamment l’endroit où apparaissent les éléments et les mots importants. On va vérifier s’ils apparaissent dans l’introduction ou la conclusion. Il y a très peu de traitements syntaxiques. D’ailleurs, dans tous les systèmes qui existent à l’heure actuelle, les phrases ne sont pas analysées syntaxiquement. On prend la phrase telle qu’elle est présente dans le texte source et on estime que, si elle est présente dans le texte source, c’est que syntaxiquement elle devrait être correcte.

Cela signifie aussi - et c’est l’un des inconvénients du système par extraction - que, si la phrase est très longue, elle sera mise telle quelle dans le résumé. Cela veut dire qu’on n’a pas trouvé des systèmes qui permettraient sur une phrase très longue de pouvoir retirer les informations redondantes, parce qu’on n’est pas capable à l’heure actuelle de dire ce qui est redondant dans une phrase. Par exemple, dire qu’une proposition relative est redondante, c’est un non-sens. Ainsi, si je dis « la fille qui a les yeux clairs » et si j’enlève le relatif « qui a les yeux clairs », il ne reste que « la fille » et c’est donc évidemment une information qui n’est plus pertinente. En terme de niveau de traitement, pour l’instant nous sommes donc essentiellement sur des traitements de type morphologique, avec un petit peu d’analyse morphosyntaxique pour pouvoir distinguer si, par exemple, le terme « présente » c’est le verbe conjugué, le nom ou l’adjectif. C’est à peu près les seuls niveaux qu’on utilise actuellement dans ces systèmes de traitement.


-  Par rapport aux ontologies, au web sémantique et tout ce qui a trait à la représentation et à la gestion des connaissances, est-ce qu’il y a un intérêt ?

Il y aurait sans doute un intérêt, notamment dans un texte scientifique ou journalistique, de s’appuyer sur les ontologies pour savoir si le terme en question a telle signification dans ce domaine ou si, dans un autre domaine, il a une autre signification. Mais à ma connaissance, à l’heure actuelle, il y a très peu de systèmes qui utilisent les ontologies. À mon avis, c’est parce qu’il n’y a pas encore d’ontologies suffisamment développées, surtout dans le milieu médical.


-  Par rapport justement à l’existence de systèmes, qui fait du résumé automatique ou plutôt où ? Est-ce qu’il y a une offre et qui actuellement s’en sert ou devrait s’en servir ? Autrement dit, pouvez-vous nous faire une description du paysage de recherche et industriel ?

Dans le paysage industriel, il y a des outils de résumés automatiques, et notamment un dans le logiciel Word de Microsoft. Tout le monde le considère comme très mauvais mais enfin il existe. Il y a quelques offres sur le marché : en France, il y a la société Pertinence qui offre du résumé automatique, et puis il y a des produits comme Summarizer de Copernic. Il y a donc une offre industrielle, mais le problème, de mon point de vue, c’est que cette offre industrielle du résumé automatique ne correspond pas aux besoins. Je parle d’après mon expérience sur le résumé automatique. Souvent, lorsque, dans une entreprise, on rencontre un chef d’entreprise qui dit « je voudrais un système de résumé automatique », derrière le terme « résumé automatique », il met une fonctionnalité qui n’est pas celle du résumé automatique. Pour lui, « résumé automatique », c’est soit une synthèse du texte - et il y a actuellement aucun système de synthèse, il y a des systèmes d’extraction mais pas de synthèse -, soit un niveau d’exigence en terme de compréhension qui est très au-delà de ce que l’on sait faire actuellement avec des résumés automatiques.

Il y a donc une demande mais malheureusement cette demande est extrêmement pointue. Prenons un exemple très précis : un chef d’entreprise d’un groupe X dit « j’aimerais un système qui résume tout ce qui est présent dans la presse quotidiennement sur l’image de marque de ma société » et il va dire « ça, c’est du résumé automatique », parce qu’en fait, il veut du résumé automatique avec un profil très particulier d’extraction qui est « quelle est l’opinion de la presse sur mon entreprise ? » Actuellement, il existe des systèmes de traitement d’opinion mais on ne les appelle pas des systèmes de résumé automatique. Il y a donc une espèce de discordance entre l’offre industrielle qui est très généraliste et les besoins qui sont très spécialisés.


-  Dans le monde de la documentation et de la gestion de documents, de ce qu’on appelle la GED (Gestion Electronique de Documents), est-ce qu’il y a des usages de résumé automatique ?

Il y en avait dans les centres de documentations scientifiques, puisque auparavant il y avait des résumeurs professionnels. Pour des raisons de coût, ces résumeurs professionnels ont été licenciés et les centres de documentations n’ont pas trouvé les systèmes automatiques qui permettaient de remplir d’une manière robuste et fiable la même fonction. Ils ont donc abandonné l’idée du résumé automatique et ils font plutôt de l’indexation.

Pour tempérer cette vision un peu brutale, on voit apparaître un type de système qui est présent sut le net et qui fait du résumé automatique multi-document, c’est-à-dire qu’il prend des dépêches d’agences de presse, qu’il les résume automatiquement et qu’il fait une sorte de condensé de tous ces systèmes multi-document. Cela intéresse essentiellement la presse. Il semble que, pour l’instant, on se pose la question de savoir si réellement cela correspond à leurs besoins ou si cela reste un gadget mis en place. C’est assez difficile d’avoir une idée très précise de ce qui se passe sur internet.


-  Quelle va être la différence entre le résumé automatique et les listes de métadonnées ou de mots-clés ?

La différence, c’est qu’une liste de mots-clés n’est pas lisible en tant que telle, c’est-à-dire que vous avez une liste de mots-clés mais cela ne vous donne pas d’une manière un peu plus précise le contenu du document. Il y a donc une très grande différence en terme de lisibilité. La deuxième différence, c’est que le résumé automatique doit rester cohérent dans le texte qu’il fournit à lire, alors que, dans une liste de mots-clés, on ne cherche pas la cohérence.

En terme de coût, faire une indexation à partir d’un résumé semi-automatique est beaucoup moins coûteuse que faire un résumé automatique. Par contre, la valeur ajoutée entre le résumé automatique et l’indexation est sans comparaison, dans la mesure où le résumé automatique devrait contenir beaucoup plus d’informations. Je vais vous donner un exemple : dans un résumé automatique ou non d’ailleurs, vous avez une dizaine de lignes et au vu de ces dizaines de lignes, vous pouvez dire si ce texte vous intéresse ou pas. C’est beaucoup plus difficile de prendre cette décision avec seulement une liste des mots-clés.


-  Est-ce qu’il y a des tentatives en direction du multilingue ? Comment résumer un texte où il y a plusieurs langues ou comment faire un résumé dans une langue différente du texte source ? Est-ce qu’il y a des recherches à ce sujet ?

Sur les résumés multilingues, pour l’instant à ma connaissance il y a des recherches mais il n’y a pas de réalisations. Je ne connais pas de système à l’heure actuelle qui, sur un texte rédigé en plusieurs langues, serait apte à faire un résumé qui soit capable d’agréger ces différentes langues. Pourquoi ? Il y a plusieurs questions non résolues.

D’une part, on va pouvoir détecter le changement de langue mais il faudrait détecter le niveau de discours du changement de langue. Par exemple, on peut avoir une citation en anglais dans un texte en français mais il n’y a aucune raison de mettre la citation en anglais dans le résumé, parce que c’est une citation qui, en soi, n’est pas forcément saillante. Cela fait donc rentrer à nouveau dans la valeur ajoutée le contenu sémantique du texte qui est dans une autre langue et cela on ne sait pas le faire actuellement.

Pour la deuxième question, à savoir de passer d’un texte en français à son résumé en anglais, il y a une solution qui consisterait à dire : on prend le résumé français et on le traduit en anglais. Mais le problème, c’est que la traduction automatique n’est pas pour l’instant d’un niveau suffisamment fiable pour la considérer comme un produit industriel. À mon avis, la réponse tient plus d’un problème de ne pas savoir faire de la traduction automatique plutôt que d’un problème de résumé automatique.

Il faut mieux aller voir les recherches qui sont actuellement les plus importantes, celles que j’évoquais tout à l’heure : les centres de recherche travaillent beaucoup sur le résumé multi-document, c’est-à-dire qu’on a un ensemble de documents qui traitent d’un même thème et il s’agit d’être capable, à partir des dépêches d’agences de presse, de faire un résumé qui agrège l’information des différentes dépêches. C’est compliqué, dans la mesure où il faut gérer la temporalité. Si je prends l’exemple du tsunami de 2004, les premières dépêches d’agences disaient en gros « il y a 2000 morts » et, trois jours plus tard, il y avait 100 000 morts. Agréger ces différentes informations pose donc des questions de fiabilité et de temporalité de l’information.


-  Pour conclure sur les développements, quels sont les verrous technologiques dans le résumé automatique ? Est-ce qu’ils se situent au niveau sémantique ou sur le plan des interprétations, des niveaux de langage etc. ? Où faudrait-il qu’il y ait un effort de recherche et d’industrialisation ?

Le verrou technologique se situe essentiellement sur la sémantique. J’ai dit tout à l’heure qu’un système par extraction détectait l’information saillante. La première question est « qui juge de la saillance ou de l’importance d’une phrase ? » Une phrase peut être importante pour un lecteur et ne pas l’être pour un autre, parce que son besoin n’est pas le même. Le besoin d’un chef d’entreprise n’est pas le même que celui d’un ingénieur technico-commercial ou que celui d’un ingénieur de recherche spécialisé. En tant que telle, la notion de « résumé » fait donc déjà problème. Et la question qui est derrière, d’un point de vue scientifique, c’est comment détecter qu’une information est importante ? Cette question doit être ramenée au lecteur et à ses besoins. Le verrou technologique se situe essentiellement ici.

Ce qui me permet de revenir sur la différence entre « résumé automatique » et « parcours de lecture ». Une partie des recherches s’oriente sur le fait que le résumé automatique a été conçu dans une technologie liée à l’imprimé, c’est-à-dire qu’on imprimait un résumé indépendant du texte source. De plus en plus de textes sont numérisés et plutôt que de produire un résumé automatique, on pourrait essayer de dire « si on guidait le lecteur pour parcourir le texte plus rapidement, on aurait rempli le même besoin ». Le lecteur lirait alors le texte non pas en trois heures, mais en quelques minutes ou du moins il lirait les éléments qui sont considérés comme importants.

On va donc plutôt essayer de produire des systèmes qui vont aider le lecteur à repérer ce qu’il peut considérer comme étant important dans le texte, avec certaines technologies fondées sur la syntaxe ou la sémantique. Un parcours de lecture est plus facile, dans la mesure où, comme on ne va pas toucher au texte en tant que tel, le lecteur aura toujours la possibilité de lire le contexte de l’élément sélectionné comme important, car le logiciel se positionne dans le texte en disant « voilà, cela est un élément important, lisez-le ». Et, s’il y a des problèmes de compréhension, c’est le lecteur qui les résoudra en lisant le texte source, ce qui n’était pas possible avec un résumé imprimé indépendant du texte.

Propos recueillis par Richard Walter
Pour le laboratoire CRIS - Université Paris X


En savoir plus :

-  Bibliographie

* Jean-Luc Minel Filtrage sémantique (du résumé automatique à la fouille de textes), Hermès, Paris, 2002.

-  Liens internet

* Page de Jean-Luc Minel

* Revue TAL, Volume 45 Numéro 1, « Résumé automatique de textes »