Retour au format normal

06. EVALDA - EQUER

30 novembre 2006

Technolangue.net

 

Evaluation en Question-Réponse

Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA)

Contact
  Christelle Ayache, ayache@elda.org
Brigitte Grau, Brigitte.Grau@limsi.fr

Page du projet sur elda.org

 


Résumé
La problématique des systèmes de question/réponse se situe à l'intersection de plusieurs domaines, dont notamment la recherche d'information et le traitement de la langue naturelle. La recherche de documents pertinents est enrichie par l'intégration de modules de TAL s'appliquant à large échelle, i.e. quel que soit le domaine abordé, et possédant une grande couverture linguistique. Cette intégration permet la sélection de passages pertinents reposant sur des critères numériques et aussi sur l'exploitation de traits linguistiques, qu'ils soient de nature syntaxique ou sémantique. Un troisième domaine trouve aussi naturellement sa place dans cette problématique, à savoir l'apprentissage automatique, avec l'apprentissage de critères de sélection et de classification d'extraits.
La réalisation d'une campagne d'évaluation offre la possibilité de faire collaborer des chercheurs de domaines différents, et de confronter les différentes approches sur un même problème. Alors qu'à l'heure actuelle, les moteurs de recherche documentaire ont tendance à stagner, des avancées en question-réponse profiteront largement à cette activité.

Résultats

LE PACKAGE D’EVALUATION EQUER EST DESORMAIS DISPONIBLE AUPRES D’ELRA :

  • Package d’évaluation EQueR(référence ELRA-E0022)
  • Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation EQueR. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.

Rapport final EQUER
(pdf, 27 pages, 366 Ko)




Pour la tâche générale, lors de l’évaluation des passages, le meilleur système a obtenu 81,46 % de bonnes réponses contre 51,07 % pour le deuxième système. Lors de l’évaluation des réponses courtes, la moyenne baisse avec 67,24 % de bonnes réponses pour le meilleur système et seulement 29,95 % pour le deuxième. Les trois systèmes de question-réponse ayant obtenu les meilleurs résultats pour cette tâche sont :

  • pour les passages : les systèmes de Synapse Développement (participant 5), de Sinequa (participant 4), et du LIMSI (participant 2).
  • pour les réponses courtes : les systèmes de Synapse Développement, du LIA (Laboratoire Informatique d'Avignon, participant 6) et du LIMSI.

Pour la tâche spécialisée, les résultats baissent encore. Le meilleur système, lors de l’évaluation des passages, a obtenu 62,85 % de bonnes réponses contre 15,42 % pour le deuxième système. Et lors de l’évaluation des réponses courtes, le meilleur système obtient seulement 40,57 % de bonnes réponses contre 7,42 % pour le deuxième. Les trois systèmes de question-réponse ayant obtenu les meilleurs résultats pour cette tâche sont :

  • - pour les passages : les systèmes de Synapse Développement (participant 4), de l'Université de Neuchâtel (participant 2), et ex-aequo les systèmes de AP/HP-Paris XIII (participant 3) et de France Télécom R&D (participant 1).
  • - pour les réponses courtes : le système de Synapse Développement, et ex-aequo les systèmes de AP/HP-Paris XIII et de l'Université de Neuchâtel.

Nous avons pu constater de meilleurs résultats pour la tâche générale que pour la tâche spécialisée : les meilleurs scores des systèmes pour la tâche générale s’échelonnent entre 0,7 et 0,18 (selon la métrique adoptée : MRR, Moyenne des Réciproques du Rang, où le meilleur résultat est celui le plus proche de 1 et le moins bon le plus proche de 0) alors que pour la tâche médicale les résultats s’échelonnent entre 0,49 et 0,02 (MRR). Ceci peut s’expliquer par la spécificité des textes liés au domaine médical contenus dans cette tâche. De plus, l’ensemble des systèmes ont obtenu un meilleur score lors de l’évaluation des passages que lors de l’évaluation des réponses courtes. Bien que l’ensemble des systèmes participants allient tous, plus ou moins massivement, des technologies de Traitement Automatique des Langues, un système a obtenu des résultats nettement supérieurs aux autres participants, et ce, pour les deux tâches, générale et spécialisée. 

Concernant la tâche générale, nous avons trouvé intéressant de faire connaître aux participants les résultats en fonction du type de réponse attendu. Tous systèmes confondus, lors de l’évaluation des passages, les meilleurs résultats obtenus concernent les questions de type « définition », puis de type « factuel » simple et « oui/non » et enfin de type « liste » pour lesquelles les systèmes ont rencontré le plus de difficultés. Pour les questions de type « définition », les systèmes ont obtenu de meilleurs résultats lorsque la réponse attendue était une organisation plutôt qu’une personne. Concernant les questions de type « factuel » simple, les systèmes ont obtenu de meilleurs résultats lorsque la réponse attendue était de type « lieu », « organisation », « personne » ou « date » plutôt que « manière »,  « mesure » ou « objet ».

Ressources et outils issus de la campagne EQueR :

  • Corpus généraliste français (env. 1,5 Go) - constitué principalement de textes journalistiques et de textes de lois.
  • Corpus médical français (env. 140 Mo) - constitué principalement d'articles scientifiques et de recommandations médicales tirés du Web.
  • Corpus de 500 questions domaine général en français - constitué de différents types de questions : factuel, définition, oui/non, liste.
  • Corpus de 200 questions domaine médical en français - constitué de différents types de questions : factuel, définition, oui/non, liste.
  • Sous-corpus « général » et « médical » de textes issus des identifiants de documents retournés par le moteur de recherche Pertimm.
  • Logiciel d'aide à l'évaluation des résultats dans le cadre d'une évaluation de systèmes de question-réponse (+ documentation détaillée)
  • Logiciel d'évaluation automatique (en préparation)


Publications et autres résultats

Publications
  • C. AYACHE, B. GRAU, A. VILNAT, “EQueR : the French Evaluation campaign of Question Answering system EQueR/EVALDA”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), p. 1157-1160, Genoa, Italy, May 2006.

  • B. GRAU, A.-L. LIGOZAT, I. ROBBA, A. VILNAT, L. MONCEAUX, “FRASQUES: A Question-Answering System in the EQueR Evaluation Campaign”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), p. 1524-1529, Genoa, Italy, May 2006.

  • M. EL-BEZE, “Systèmes de Question-Réponse”. In : Compréhension des Langues et interaction, ouvrage collectif sous la direction de Gérard Sabah, (Traité IC2, Série Cognition et Traitement de l'Information), ED. Hermès Lavoisier, Chapitre 10, p. 277-297, April 2006.

  • D. LAURENT, P. SEGUELA, S. NEGRE, “QA better than IR?”. In: Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2006), Workshop on Multinlingual Question Answering (MLQA’06), Trento, Italy, April 4, 2006.

  • L. SITBON, J. GRIVOLLA, L. GILLARD, P. BELLOT, P. BLACHE, “Vers une prédiction automatique de la difficulté d’une question en langue naturelle”. In : Actes de la Conférence TALN 2006, Louvain, Belgique, Avril 2006.

  • L. GILLARD, P. BELLOT, M. EL-BEZE, “Influence de mesures de densité pour la recherche de passages et l'extraction de réponses dans un système de questions-réponses”. In : Actes de la Conférence en Recherche d’Informations et Applications (CORIA 2006), Lyon, France, Mars 2006.

  • C. AYACHE, (2005), “Rapport final de la campagne EQueR/EVALDA, Evaluation en Question-Réponse”.

  • B. GRAU, “EQueR, une campagne d’évaluation des systèmes de question/réponse”. Journée Technolangue/Technovision (ASTI’2005), Clermont-Ferrand, France, Octobre 2005.

  • C. AYACHE, B. GRAU, A. VILNAT, “Campagne d’évaluation EQueR/EVALDA, Evaluation en Question-Réponse”, In : Actes des ateliers de TALN 2005, Atelier EQueR, Dourdan, France, Juin 2005.

  • A. BALVET, M. EMBAREK, O. FERRET, “Minimalisme en question-réponse : le système OEdipe”, In : Actes des ateliers de TALN 2005, Atelier EQueR,Dourdan, France, Juin 2005.

  • E. BLAUDEZ, E. CRESTAN, C. DE LOUPY, “SQuAr : Prototype de Moteur de Questions Réponses, In : Actes des ateliers de TALN 2005, Atelier EQueR, Dourdan, France, Juin 2005.

  • T. DELBECQUE, P. ZWEIGENBAUM, J.-F. BERROYER, T. POIBEAU, “Le système STIM/LIPN à EQueR 2004, tâche médicale”, In : Actes des ateliers de TALN 2005, Atelier EQueR, Dourdan, France, Juin 2005.

  • L. GILLARD L., P. BELLOT, M. EL-BEZE, “Le LIA à EQueR”, In : Actes des ateliers de TALN 2005, Atelier EQueR, Dourdan, France, Juin 2005.

  • B. GRAU, G. ILLOUZ, L. MONCEAUX, P. PAROUBEK, O. PONS, I. ROBBA, A. VILNAT, “FRASQUES, le système du groupe LIR, LIMSI”, In : Actes des ateliers de TALN 2005, Atelier EQueR, Dourdan, France, Juin 2005.

  • D. LAURENT, P. SEGUELA, “Qristal, moteur de questions-réponses”, In : Actes des ateliers de TALN 2005, Atelier EQueR, Dourdan, France, Juin 2005.

  • T. DELBECQUE, P. ZWEIGENBAUM, “Indexation UMLS en français : une expérience”. In : Régis Beuscart and Jean-Marc Brunetaud, editors, Actes des Journées francophones d'informatique médicale, Lille, France, Mai 2005.

  • T. DELBECQUE, P. JACQUEMART, P. ZWEIGENBAUM, “Utilisation du réseau sémantique de l'UMLS pour la définition de types d'entités nommées médicales dans un système de questions-réponses : impact de la source des documents explorés”. In: CORIA (COnférence en Recherche d'Informations et Applications), pages 101-115, CLIPS. Grenoble, France, Mars 2005.

  • L. PERRET, “Extraction automatique d'information: Génération de résumé et question-réponse”. Thèse, Université de Neuchâtel, Suisse, Mars 2005.

  • L. PERRET, “A Question Answering System for French”. In: C. Peters, P.D. Clough, J. Gonzalo, G.J.F. Jones, M. Kluck & B. Magnini (Eds.), Multilingual Information Access for Text, Speech and Images, Lecture Notes in Computer Science #3491, p.392-403, Springer-Verlag. Berlin, 2005.

  • T. DELBECQUE, P. JACQUEMART, P. ZWEIGENBAUM, “Indexing UMLS semantic types for medical question-answering”. In: Robert Baud, Marius Fieschi, Pierre Le Beux, and Patrick Ruch, editors, Actes Medical Informatics Europe, volume 116 of Studies in Health Technology and Informatics, pages 805-810, IOS Press. Geneva, Switzerland, 2005.

  • V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.


Ateliers, conférences, séminaires
Partenaires du projet
  ELDA
CISMEF
Systal-Pertimm
FT R&D
iSMART
LIA
LIC2M
LIMSI
U-Neuchâtel
Sinequa
STIM
Synapse Développement

 
Responsable du projet
  Christelle Ayache
ELDA - Département Evaluation
55-57, rue Brillat Savarin - 75013 Paris
Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
Mel : ayache@elda.org

Brigitte Grau
LIMSI - Unité Propre de Recherche 3251 - BP 133 - 91403 Orsay Cedex
Tel. : 01 69 85 80 03 ; Fax. : 01 69 85 80 88
Mel : Brigitte.Grau@limsi.fr
 

Dates du projet
Date de début : 4 décembre 2002
Date de fin : 4 avril 2006