Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Plate-forme EVALDA

EVALDA - ARCADE II

EVALDA - CESART

EVALDA - CESTA

EVALDA - ESTER

EVALDA - EQUER

EVALDA - MEDIA

EVALDA - EVASY

EVALDA - EASY

AGILE - ALIZÉ

AGILE - OURAL

AGILE - TILT

AGILE - WATSON

ATONANT

CARMEL

EurADiC

NEOLOGOS

NomsPropres

NORMALANGUE - RNIL

NORMALANGUE - Technovox

Technolangue.Net

Normes & Standard

Enjeux

Instances

Imprimer cet article

AGILE - WATSON

lundi 12 décembre 2005

Web : Analyse des Textes, S�lection, et Outils Nouveaux

Th�me de l'action : Ressources linguistiques

Contact

Jos� Coch, Lingway, jose.coch@lingway.com

Lingway,
18, rue Pasteur
94278 Le Kremlin Bic�tre cedex
T�l. : 01 58 46 12 42
Fax. : 01 58 46 12 41

R�sum� | R�sultats | Publications | Partenaires | Dates du projet

R�sum�

Watson a d�velopp�, adapt�, int�gr� et/ou g�n�ralis� des outils logiciels linguistiques notamment de structuration logique de pages Web, de reconnaissance d'entit�s nomm�es, de marquage textuel, des taggeurs, des chunkeurs, des extracteurs, des cat�goriseurs, des r�solveurs de co-r�f�rence et des r�sumeurs, en mettant l'accent sur la robustesse et la performance dans le traitement de gros volumes de donn�es. Il est possible d'utiliser ces outils soit de mani�re isol�e, soit int�gr�s. Une attention particuli�re est port�e � leur int�gration dans une plate-forme de Web mining.
Presque un an apr�s la fin officielle du projet, les cons�quences concr�tes du projet sont les suivantes :

le projet a permis � LINGWAY d'int�grer un certain nombre de ces nouvelles fonctions dans le produit Lingway KM,
Lingway et la BnF travaillent encore ensemble pour l'impl�mentation op�rationnelle d'un syst�me d'exploration de sites Web bas� sur Watson et Lingway KM,
le logiciel Lingway KM est disponible � prix co�tant, � des fins d'enseignement et de recherche, par les Universit�s qui en font la demande aupr�s de Lingway,
la politique de diss�mination des r�sultats men�e par Lingway, s'est concr�tis�e par la mise en place de partenariats technologiques avec plusieurs soci�t�s fran�aises (Ever, Exalead, Questel-Orbit, Systran, Qwam Systems) leur donnant ainsi acc�s � certains r�sultats du projet.

R�sultats

Description des r�sultats atteints

Les travaux men�s par les partenaires, en excellente coop�ration, ont permis d'obtenir les r�sultats suivants.

Modules int�gr�s dans Lingway KM

Structuration logique et segmentation en phrases
Reconnaissance d'entit�s nomm�es
Segmentation en tokens
Analyse syntaxique de surface
Cat�goriseur (en cours d'int�gration)

Modules r�alis�s, mais non int�gr�s dans Lingway KM

Analyse et d�sambigu�sation morphologique (disponible aupr�s du laboratoire TALANA)
R�solution de co-r�f�rence (disponible aupr�s du laboratoire TALANA)
Marquage textuel
D�tection de faits et �v�nements ("Wrapping")
Module de r�sum� de sites Web

Applications

Par ailleurs, des applications ont �t� r�alis�es � partir des modules pr�c�dents autour de la probl�matique de l'archivage du Web fran�ais :

Application : caract�risation de sites Web

Application : exploration du contenu des sites Web

Publications

Coch, J. ; Masan�s, J. "Language engineering techniques for web archiving." In 4th International Web Archiving Workshop (IWAW'04). 2004. Bath (UK).
T�l�charger la version en ligne
Lupovici, C. - "Le traitement automatique du Web pour une biblioth�que". Contribution � l'Atelier BNP Paribas sur "le Web s�mantique, mythe ou r�alit�?". Octobre 2004.
T�l�charger la version en ligne
Nasr, A.; Volanschi, A. "Couplage d'un analyseur morpho-syntaxique et d'un analyseur partiel repr�sent�s sous la forme d'automates finis pond�r�s". TALN 2004, F�s, Maroc, avril 2004.
T�l�charger la version en ligne

Partenaires du projet

Soci�t� Lingway
CNRS - Laboratoire LATTICE-Talana
CNRS - Laboratoire LaLICC
Biblioth�que Nationale de France

Responsable du projet

Jos� Coch
Lingway
33-35, rue Ledru-Rollin
94200 Ivry-sur-Seine
T�l. 01 56 20 28 35
Fax. 01 56 20 28 31
jose.coch@lingway.com

Dates du projet

Date de d�but : 28 novembre 2002
Date de fin : 28 novembre 2004