Retour au format normal

Génération Automatique de Texte

10 octobre 2006

Technolangue.net

 

La façon la plus simple pour un ordinateur de transmettre les résultats de ses calculs consiste à les présenter sous forme de tableaux numériques. Or, de plus en plus, on utilise l’ordinateur pour des tâches non numériques. Il est donc indispensable que ses résultats soient présentés dans la langue de l’usager. D’où les besoins croissants en « Génération Automatique de Texte » (GAT).

À l’instar d’un être humain racontant une histoire, la machine doit d’abord décider « Quoi dire ? », c’est-à-dire déterminer les informations pertinentes à raconter. Ensuite, elle doit décider « Comment le dire ? », c’est-à-dire choisir la structuration du texte en phrases et choisir les mots. Pour illustrer cette articulation en deux modules, regardons comment fonctionne un système de GAT conçu pour donner des commentaires sur des tableaux de statistiques économiques. Un ordinateur n’incluant pas de système de GAT se contenterait de présenter les tableaux de chiffres. Mais on peut avoir envie d’une interprétation de ces chiffres, par exemple pour souligner les fortes hausses/baisses ou les stagnations durables. Cette étape correspond au « module Quoi dire ? » du système de GAT. Les paramètres à prendre en compte sont le type d’auditoire, ses connaissances et ses attentes. Cette tâche, qui repose sur des connaissances statiques et dynamiques (inférentielles) du domaine d’application, est indépendante de la langue. Le résultat de ce module est un ensemble d’informations, généralement ordonnées, représentées dans un langage machine. Il reste à « traduire » ces informations en un texte rédigé dans un style soutenu. Cette étape qui correspond au « module Comment le dire ? » est fortement dépendante de la langue. On doit découper les informations en sous-blocs correspondant à des phrases, ordonner et enchaîner ces phrases, trouver les bons mots et enfin respecter les règles de grammaire de la langue cible.

En pratique, les systèmes de GAT réalisés n’intègrent pas toujours les deux modules de façon aussi explicite. Il peut arriver que la tâche du module Quoi dire ? soit établie au préalable par le concepteur du système qui fait remplir un formulaire (via un menu déroulant) par l’usager. Il peut aussi arriver que la tâche du module « Comment le dire ? » soit aussi déjà décidée et que le système se contente d’assigner des valeurs à des variables (par exemple, lettre de banque annonçant un déficit chiffré).

La GAT permet donc la transformation d’informations représentées en langage machine vers un texte écrit et elle garantit la fidélité de la transformation, et ce, dans plusieurs langues. C’est pourquoi la GAT peut être vue comme une alternative à la Traduction Automatique. Signalons, que les systèmes de Traduction Automatique comportent une tâche de génération, équivalente à Comment le dire ? ou à des sous-tâches de ce module, mais qu’ils ne comportent pas de module Quoi dire ? car le texte traduit est censé véhiculer les mêmes informations que le texte source. Ajoutons qu’un système de dialogue Homme-Machine comporte aussi un module de GAT qui produit les réponses de la machine.

La génération future des systèmes de GAT tend à intégrer diverses modalités de communication : au lieu de produire un simple texte, la machine peut produire des graphiques, des images, des sons en plus de liens hypertextes.

Quelques points de comparaison avec l’analyse automatique. Contrairement à l’analyse qui a un point de départ bien défini (la phrase ou texte à analyser), le point de départ d’un système de GAT est moins bien défini. Si certaines problématiques sont communes à l’analyse et la génération (par exemple, formaliser les règles de la syntaxe et les respecter), d’autres sont propres à l’une ou l’autre des démarches. La maîtrise des processus impliqués en génération ouvre la voie vers une meilleure compréhension de la pensée humaine.

Laurence Danlos et Guy Lapalme