09. EVALDA - EASY

29 novembre 2006

Technolangue.net

Evaluation des Analyseurs Syntaxiques du français

Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA)

Patrick Paroubek, pap@limsi.fr
Anne Vilnat, vilnat@limsi.fr
Isabelle Robba, isabelle@limsi.fr
Christelle Ayache, ayache@elda.org

Pages web du projet :

Résumé | Résultats | Publications | Partenaires | Dates du projet

Résumé

Le projet EASy a pour but premier la création d'une méthodologie d'évaluation des analyseurs syntaxiques du français et son application dans une campagne d'évaluation. Il a également pour autres buts la production à faible coût d'une ressource linguistique validée obtenue en combinant automatiquement les données annotées, ainsi que la création d'une communauté d'acteurs autour de la problématique de l'évaluation des analyseurs syntaxiques du français. Nous proposons de définir un protocole d'évaluation puis de mener une campagne d'évaluation comparative ouverte, sur un corpus diversifié de grande taille, avec une approche “ boîte noire” et des mesures quantitatives. Les travaux de spécification se font au sein d'un comité scientifique comprenant les participants, les organisateurs et les fournisseurs de corpus ainsi que des personnalités nationales et internationales du domaine. L'organisation de la campagne passera par la mise en place d'un comité de pilotage, d'un comité scientifique et d'un site internet.

Résultats

Les outils de mesure et les corpus développés permettent de comparer de manière détaillée des analyseurs différents en fonction du type de corpus (par exemple littérature, transcription de conversation, discours parlementaires, questions pour des moteurs de recherche) et en fonction des différentes relations. On constate une baisse significative de performance pour les transcriptions d'oral et la bonne performance d'un système développé pour l'écrit pour lequel nous n'avons pas reçu de données pour l'oral. Bien entendu, il s'agit là de résultats à relativiser, en particulier en tenant compte du nombre d'événements pris en compte (la relation SUJET-Verbe compte plusieurs milliers d'occurrences tandis que la relation MOD-P en compte moins de 10). De même, ces résultats devront être complétés par une estimation (en cours) du taux d'erreur résiduel dans les données de référence. Une analyse de ces premiers résultats indique que les performances peuvent être très bonnes pour les relations les plus fréquentes (par ex. 0.92 en f-mesure pour la relation SUJ-V sur certains corpus) mais que ces bonnes performances sont réparties entre les différents systèmes (certains privilégient le rappel, d'autre la précision, certains sont meilleurs sur les questions, d'autres sur le corpus parlementaire) ; ce qui augmente d'autant l'intérêt pour ce genre de campagne d'évaluation qui permet de comparer les méthodes et offre un cadre propice aux échanges. Pour les relations moins fréquentes ou plus complexes syntaxiquement les performances sont plus faibles, le problème étant loin d'être résolu. Les deux graphiques ci-dessus permettent de se rendre compte de l'intérêt des différents modes de relâchement de contrainte sur la mesure des frontières de constituants. La figure de gauche montre la valeur de la f-mesure en relations obtenue par un système qui n'a retourné aucune annotation de constituants avec ses relations, pour toutes les relations pour le sous-corpus considéré précédemment et pour les 15 modes de mesures. On remarque une baisse significative de performances pour les mesure les plus strictes (tous ses constituants sont supposés avoir une taille 1 par défaut). La figure de droite, elle, montre les mêmes mesures mais pour un système qui a retourné des annotations de constituants avec ses relations. Dans ce cas, les mesures sont toutes comparables. Cela indique que les constituants retournés sont suffisamment proches de ceux des annotations de référence pour ne pas perturber la mesure de performance en relations.

Ressources issues de la campagne EASy :

L’ATILF a fourni le corpus de textes littéraires – 150000 mots fournis dont 15000 annotés.
Le DELIC a fourni 10 fragments de dialogues transcrits extraits du Corpus du Français Parlé – 8000 mots fournis et annotés ; ainsi que 2000 courriers électroniques personnels anonymisés – 114000 mots fournis.
ELDA a fourni le corpus de questions (TREC, AMARYLLIS) – 137000 mots fournis dont 5000 annotés ; ainsi que 250 courriers électroniques anonymisés – 7000 mots fournis et annotés ; ELDA a également fourni des extraits du journal Le Monde, de rapports du Sénat et de l’assemblée européenne (MLCC, MultiLingual Corpora for Co-operation) – 235000 mots dont 9000 annotés.
Le LLF a fourni des extraits du corpus du journal Le Monde 1992 – 15000 mots fournis et annotés.
L’équipe DIAM-APHP a fourni le corpus de textes médicaux – 100000 mots fournis dont 5000 annotés.

Publications et autres résultats

P. PAROUBEK, I. ROBBA, A. VILNAT et C. AYACHE, “Data Annotations and Measures in EASY the Evaluation Campaign for Parsers of French”, In : Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.315-320.

A. VILNAT, “Dialogue et analyse de phrases”, Mémoire d'Habilitation à diriger les recherches, 15 décembre 2005.

T. VANRULLEN, “Vers une analyse syntaxique à granularité variable”, Thèse de doctorat de l'université de Provence, Marseille 1, 12 décembre 2005.

P. PAROUBEK, I. ROBBA, A. VILNAT, L.-G. POUILLOT, “EASy: Campagne d'évaluation des analyseurs syntaxiques”. In : Actes des Ateliers de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.3.

C. BENZITOUN, J. VERONIS, “Problèmes d'annotation d'un corpus oral dans le cadre de la campagne EASY”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.13.

D. BOURIGAULT, C. FABRE, C. FREROT, M.-P. JACQUES, S. ODDOWSKA, “Syntex, analyseur syntaxique de corpus”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.17.

R. BESANÇON, G. DE CHALENDAR, “L'analyseur syntaxique de LIMA dans la campagne d'évaluation EASY”. In : Actes des Ateliers de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.21.

C. CHARDENON, “Analyse syntaxique en dépendances et Evaluation”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.25.

G. FRANCOPOULO, “TagParser et Technolangue-Easy”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.29.

J.-P. GOLDMAN, C. LAENZLINGER, G. SOARE, E. WEHRLI, “L'analyseur syntaxique multilingue FiPS dans la campagne EASy”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.35.

J.-M. BALFOURIER, P. BLACHE, M.-L. GUENOT, T. VANRULLEN, “Comparaison de trois analyseurs symboliques pour une tâche d'annotation syntaxique”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.41.

A. ROUSSANALY, B. CRABBE, J. PERRIN, “Premier bilan de la participation du LORIA à la campagne d'évaluation EASY”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.49.

J. VERGNE, F. HOUBEN, “L'analyseur syntaxique Vergne-98 présenté aux actions d'évaluation GRACE et EASy”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.53.

P. BOULLIER, L. CLEMENT, B. SAGOT, E. VILLEMONTE DE LA CLERGERIE, “Simple comme EASy”. In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Atelier Evaluation, Dourdan, France, mai 2005, volume 2, p.57.

P. BOULLIER, L. CLEMENT, B. SAGOT, E. VILLEMONTE DE LA CLERGERIE, “Chaînes de traitement syntaxiques”, In : Actes de la 12^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2005), Dourdan, France, mai 2005, volume 1, p.103.

P. PAROUBEK, “Chapitre 4 Analyse Morpho-syntaxique et syntaxique”, dans l'ouvrage “L'évaluation des systèmes de traitement de l'information”, sous la direction de S. Chaudiron, Collection “Information Commande Communication”, aux Editions Hermes-Sciences Lavoisier, ISBN 2-7462-0862-8, juin 2004.

V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.

A. VILNAT, P. PAROUBEK, L. MONCEAUX, V. GENDNER, G. ILLOUZ et M. JARDINO, “Annoter en constituants pour évaluer des analyseurs syntaxiques”. In : Actes de la 11^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2004), Fès, Maroc, avril 2004.

A. VILNAT, P. PAROUBEK, L. MONCEAUX, V. GENDNER, G. ILLOUZ et M. JARDINO, “EASY or How difficult Can It be to define a Reference Treebank for French”, In: Proceedings of the 2nd Workshop on Treebanks and Linguistic Theories (TLT), Vaxjo, Sweden, November 14th-15th, 2003.

S. AÏT-MOKHTAR, C. HAGEGE, A. SANDOR, “Problèmes d'intersubjectivité dans l'évaluation des analyseurs syntaxiques”. In : Actes de la 10^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2003), Atelier sur les Evaluations des analyseurs syntaxiques, Batz-sur-mer, France, mai 2003, Tome 2, p.53.

S. AUBIN, “Evaluation comparative de deux analyseurs produisant des relations syntaxiques”. In : Actes de la 10^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2003), Atelier sur les Evaluations des analyseurs syntaxiques, Batz-sur-mer, France, mai 2003, Tome 2, p.67.

P. BLACHE, J.-Y. MORIN, “Une grille d'évaluation pour les analyseurs syntaxiques”. In : Actes de la 10^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2003), Atelier sur les Evaluations des analyseurs syntaxiques, Batz-sur-mer, France, mai 2003, Tome 2, p.77.

V. GENDLER, G. ILLOUZ, M. JARDINO, L. MONCEAUX, P. PAROUBEK, I. ROBBA, A. VILNAT, “Proposition de protocole d'évaluation des analyseurs syntaxiques du français : PEAS”. In : Actes de la 10^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2003), Atelier sur les Evaluations des analyseurs syntaxiques, Batz-sur-mer, France, mai 2003, Tome 2, p.87.

G. FRANCOPOULO, “TagChunker : mécanisme de construction et évaluation”. In : Actes de la 10^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2003), Atelier sur les Evaluations des analyseurs syntaxiques, Batz-sur-mer, France, mai 2003, Tome 2, p.95.

V. GENDLER, G. ILLOUZ, M. JARDINO, L. MONCEAUX, P. PAROUBEK, I. ROBBA, A. VILNAT, “PEAS, the first instanciation of a comparative framework for evaluating parsers of French”. In: Proceedings of the 10th Conference of the European Chapter of the Association for computational Linguistic (EACL 2003), Budapest, Hungary, April 2003.

Partenaires du projet

Coordinateurs :

ELDA (Agence pour l'évaluation et la distribution de ressources linguistiques)
LIMSI (Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur)

Fournisseurs de corpus :

l’ATILF (Analyse et traitement Informatique de la Langue Française)
le LLF (Laboratoire de Linguistique Française)
le DELIC (DEscription Linguistique Informatisée sur Corpus)
STIM-APHP (Assistance Publique - Hôpitaux de Paris)
ELDA (Agence pour l'évaluation et la distribution de ressources linguistiques)

Participants :

ERSS (Equipe de Recherche en Syntaxe et Sémantique)
FT R&D (France Télécom Recherche & Développement)
GREYC (Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen)
INRIA (Institut National de Recherche en Informatique et en Automatique)
LATL (Laboratoire d'Analyse et de Technologie du Langage)
List-LIC2M (Centre d' Intégration des Systèmes et des Technologies)
LIRMM (Le Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier)
LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications)
LPL (Laboratoire Parole et Langage, Université de Provence)
DIAM-APHP
SYNAPSE DEVELOPPEMENT
SYSTAL-PERTIMM (Solutions de Recherches PERTinentes et IMMédiates)
TAGMATICA
VALORIA
XRCE

Responsable du projet

Patrick Paroubek / Isabelle Robba / Anne Vilnat
LIMSI - Unité Propre de Recherche 3251 - BP 133 - 91403 Orsay Cedex
Tel. : 01 69 85 80 03 ; Fax. : 01 69 85 80 88
Mel : pap@limsi.fr
Mel : robba@limsi.fr
Mel : vilnat@limsi.fr

Christelle Ayache
ELDA - Département Evaluation
55-57, rue Brillat Savarin - 75013 Paris
Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
Mel : ayache@elda.org

Dates du projet

Date de début : janvier 2003
Date de fin : 4 avril 2006