30 novembre 2006
Technolangue.net
Evaluation en Question-Réponse
|
|||||||||||||
Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA)
|
|
||||||||||||
|
|||||||||||||
Résumé | |||||||||||||
La problématique des systèmes de question/réponse se situe à l'intersection de plusieurs domaines, dont notamment la recherche d'information et le traitement de la langue naturelle. La recherche de documents pertinents est enrichie par l'intégration de modules de TAL s'appliquant à large échelle, i.e. quel que soit le domaine abordé, et possédant une grande couverture linguistique. Cette intégration permet la sélection de passages pertinents reposant sur des critères numériques et aussi sur l'exploitation de traits linguistiques, qu'ils soient de nature syntaxique ou sémantique. Un troisième domaine trouve aussi naturellement sa place dans cette problématique, à savoir l'apprentissage automatique, avec l'apprentissage de critères de sélection et de classification d'extraits.
La réalisation d'une campagne d'évaluation offre la possibilité de faire collaborer des chercheurs de domaines différents, et de confronter les différentes approches sur un même problème. Alors qu'à l'heure actuelle, les moteurs de recherche documentaire ont tendance à stagner, des avancées en question-réponse profiteront largement à cette activité. |
|||||||||||||
Résultats | |||||||||||||
LE PACKAGE D’EVALUATION EQUER EST DESORMAIS DISPONIBLE AUPRES D’ELRA :
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation EQueR. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne. |
|||||||||||||
(pdf, 27 pages, 366 Ko) Pour la tâche générale, lors de l’évaluation des passages, le meilleur système a obtenu 81,46 % de bonnes réponses contre 51,07 % pour le deuxième système. Lors de l’évaluation des réponses courtes, la moyenne baisse avec 67,24 % de bonnes réponses pour le meilleur système et seulement 29,95 % pour le deuxième. Les trois systèmes de question-réponse ayant obtenu les meilleurs résultats pour cette tâche sont :
Pour la tâche spécialisée, les résultats baissent encore. Le meilleur système, lors de l’évaluation des passages, a obtenu 62,85 % de bonnes réponses contre 15,42 % pour le deuxième système. Et lors de l’évaluation des réponses courtes, le meilleur système obtient seulement 40,57 % de bonnes réponses contre 7,42 % pour le deuxième. Les trois systèmes de question-réponse ayant obtenu les meilleurs résultats pour cette tâche sont :
Nous avons pu constater de meilleurs résultats pour la tâche générale que pour la tâche spécialisée : les meilleurs scores des systèmes pour la tâche générale s’échelonnent entre 0,7 et 0,18 (selon la métrique adoptée : MRR, Moyenne des Réciproques du Rang, où le meilleur résultat est celui le plus proche de 1 et le moins bon le plus proche de 0) alors que pour la tâche médicale les résultats s’échelonnent entre 0,49 et 0,02 (MRR). Ceci peut s’expliquer par la spécificité des textes liés au domaine médical contenus dans cette tâche. De plus, l’ensemble des systèmes ont obtenu un meilleur score lors de l’évaluation des passages que lors de l’évaluation des réponses courtes. Bien que l’ensemble des systèmes participants allient tous, plus ou moins massivement, des technologies de Traitement Automatique des Langues, un système a obtenu des résultats nettement supérieurs aux autres participants, et ce, pour les deux tâches, générale et spécialisée. Concernant la tâche générale, nous avons trouvé intéressant de faire connaître aux participants les résultats en fonction du type de réponse attendu. Tous systèmes confondus, lors de l’évaluation des passages, les meilleurs résultats obtenus concernent les questions de type « définition », puis de type « factuel » simple et « oui/non » et enfin de type « liste » pour lesquelles les systèmes ont rencontré le plus de difficultés. Pour les questions de type « définition », les systèmes ont obtenu de meilleurs résultats lorsque la réponse attendue était une organisation plutôt qu’une personne. Concernant les questions de type « factuel » simple, les systèmes ont obtenu de meilleurs résultats lorsque la réponse attendue était de type « lieu », « organisation », « personne » ou « date » plutôt que « manière », « mesure » ou « objet ».
|
|||||||||||||
Publications et autres résultats | |||||||||||||
Publications
Ateliers, conférences, séminaires
|
|
|
Dates du projet |
Date de début : 4 décembre 2002
Date de fin : 4 avril 2006 |