Web : Analyse des Textes, Sélection, et Outils Nouveaux
|
Thème de l'action : Ressources linguistiques
|
Contact
|
|
José Coch, Lingway, jose.coch@lingway.com
Lingway,
18, rue Pasteur
94278 Le Kremlin Bicêtre cedex
Tél. : 01 58 46 12 42
Fax. : 01 58 46 12 41
|
|
|
|
|
Résumé
|
Watson a développé, adapté, intégré et/ou généralisé des outils logiciels linguistiques notamment de structuration logique de pages Web, de reconnaissance d'entités nommées, de marquage textuel, des taggeurs, des chunkeurs, des extracteurs, des catégoriseurs, des résolveurs de co-référence et des résumeurs, en mettant l'accent sur la robustesse et la performance dans le traitement de gros volumes de données. Il est possible d'utiliser ces outils soit de manière isolée, soit intégrés. Une attention particulière est portée à leur intégration dans une plate-forme de Web mining.
Presque un an après la fin officielle du projet, les conséquences concrètes du projet sont les suivantes :
- le projet a permis à LINGWAY d'intégrer un certain nombre de ces nouvelles fonctions dans le produit Lingway KM,
- Lingway et la BnF travaillent encore ensemble pour l'implémentation opérationnelle d'un système d'exploration de sites Web basé sur Watson et Lingway KM,
- le logiciel Lingway KM est disponible à prix coûtant, à des fins d'enseignement et de recherche, par les Universités qui en font la demande auprès de Lingway,
- la politique de dissémination des résultats menée par Lingway, s'est concrétisée par la mise en place de partenariats technologiques avec plusieurs sociétés françaises (Ever, Exalead, Questel-Orbit, Systran, Qwam Systems) leur donnant ainsi accès à certains résultats du projet.
|
Résultats
|
Description des résultats atteints
Les travaux menés par les partenaires, en excellente coopération, ont permis d'obtenir les résultats suivants.
Modules intégrés dans Lingway KM
- Structuration logique et segmentation en phrases
Production d'une version XML du document d'entrée tenant compte de la structuration reconnue (titres, sous-titres, sections, paragraphes et phrases).
- Reconnaissance d'entités nommées
Reconnaissance et marquage des personnes, organisations, lieux, et dates.
- Segmentation en tokens
Segmentation des phrases en une suite de chaînes de caractères, des "tokens".
- Analyse syntaxique de surface
Reconnaissance des composés 'non figés', c'est-à-dire admettant des variations morphologiques, syntaxiques, régulières. Analyse syntaxique de surface robuste et efficace.
- Catégoriseur (en cours d'intégration)
Etant donné un plan de classement, classification automatique de tout nouveau document (page Web, site Web) par rapport à ce plan.
Modules réalisés, mais non intégrés dans Lingway KM
- Analyse et désambiguïsation morphologique (disponible auprès du laboratoire TALANA)
Les formes sont analysées et associées à un ou plusieurs mots, et donc à une ou plusieurs catégories morpho-syntaxiques. Le résultat est un automate.
- Résolution de co-référence (disponible auprès du laboratoire TALANA)
Mise en relation des unités co-référentes et résolution des liens anaphoriques.
- Marquage textuel
Reconnaissance, effectuée par le biais de marqueurs linguistiques ou para-linguistiques, de séquences qui dénotent un certain type d'information (conclusions, annonces thématiques, souligné auteur, etc., mais également présentation et objectifs d'un site Web, etc.).
- Détection de faits et évènements ("Wrapping")
Ce module permet de marquer des informations complexes (événements, faits, citations, opinions, etc.) contenant en général plusieurs entités nommées, pour les organiser ensuite sous forme de tables ou son équivalent XML.
- Module de résumé de sites Web
Le but du module de résumé est de profiter des modules précédents pour proposer des résumés textuels d'un texte, page ou site Web.
|
Applications
Par ailleurs, des applications ont été réalisées à partir des modules précédents autour de la problématique de l'archivage du Web français :
- Application : caractérisation de sites Web
Le marquage relativement fin des phrases des sites Web permet de répondre à la problématique de la caractérisation et exploration des sites impliquée par les activités d'archivage du Web.
En effet le Web étant très large et très mouvant, se pose le problème de la sélection des sites à archiver, et la fréquence de cet archivage selon l'importance de chaque site.
Pour aider à estimer l'importance de chaque site, Watson propose un filtrage automatique puis d'une station interactive dans laquelle sont présents un Résumé du site puis une fiche avec les éléments les plus importants relevés.
- Application : exploration du contenu des sites Web
Une expérimentation a été faite dans le cadre de l'archivage par la BNF des sites des candidats aux élections présidentielles de 2002.
Le typage de phrases d'opinion politique et de citation a permis l'extraction d'ensembles de phrases particulièrement pertinentes.
Ces phrases sont classées dans les types : "Pour" (en faveur d'une idée ou d'une personne), "Contre" (contraire du précédent), "Citation" (toute citation indépendamment du contenu), "Projet" (énoncé de choses à réaliser), "Programme" (moins concret que le précédent, mention d'un programme).
|
Publications
|
- Coch, J. ; Masanès, J. "Language engineering techniques for web archiving." In 4th International Web Archiving Workshop (IWAW'04). 2004. Bath (UK).
Télécharger la version en ligne
- Lupovici, C. - "Le traitement automatique du Web pour une bibliothèque". Contribution à l'Atelier BNP Paribas sur "le Web sémantique, mythe ou réalité?". Octobre 2004.
Télécharger la version en ligne
- Nasr, A.; Volanschi, A. "Couplage d'un analyseur morpho-syntaxique et d'un analyseur partiel représentés sous la forme d'automates finis pondérés". TALN 2004, Fès, Maroc, avril 2004.
Télécharger la version en ligne
|
|
Responsable du projet
|
|
José Coch
Lingway
33-35, rue Ledru-Rollin
94200 Ivry-sur-Seine
Tél. 01 56 20 28 35
Fax. 01 56 20 28 31
jose.coch@lingway.com
|
|
|
|
Dates du projet
|
Date de début : 28 novembre 2002
Date de fin : 28 novembre 2004
|
|
|
|
|
|