29 novembre 2006
Technolangue.net
Evaluation des Analyseurs Syntaxiques du français
|
|||||||||||||
Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA) |
|
||||||||||||
|
|||||||||||||
Résumé | |||||||||||||
Le projet EASy a pour but premier la création d'une méthodologie d'évaluation des analyseurs syntaxiques du français et son application dans une campagne d'évaluation. Il a également pour autres buts la production à faible coût d'une ressource linguistique validée obtenue en combinant automatiquement les données annotées, ainsi que la création d'une communauté d'acteurs autour de la problématique de l'évaluation des analyseurs syntaxiques du français. Nous proposons de définir un protocole d'évaluation puis de mener une campagne d'évaluation comparative ouverte, sur un corpus diversifié de grande taille, avec une approche “ boîte noire” et des mesures quantitatives. Les travaux de spécification se font au sein d'un comité scientifique comprenant les participants, les organisateurs et les fournisseurs de corpus ainsi que des personnalités nationales et internationales du domaine. L'organisation de la campagne passera par la mise en place d'un comité de pilotage, d'un comité scientifique et d'un site internet. |
|||||||||||||
Résultats | |||||||||||||
Les outils de mesure et les corpus développés permettent de comparer de manière détaillée des analyseurs différents en fonction du type de corpus (par exemple littérature, transcription de conversation, discours parlementaires, questions pour des moteurs de recherche) et en fonction des différentes relations. On constate une baisse significative de performance pour les transcriptions d'oral et la bonne performance d'un système développé pour l'écrit pour lequel nous n'avons pas reçu de données pour l'oral. Bien entendu, il s'agit là de résultats à relativiser, en particulier en tenant compte du nombre d'événements pris en compte (la relation SUJET-Verbe compte plusieurs milliers d'occurrences tandis que la relation MOD-P en compte moins de 10). De même, ces résultats devront être complétés par une estimation (en cours) du taux d'erreur résiduel dans les données de référence. Une analyse de ces premiers résultats indique que les performances peuvent être très bonnes pour les relations les plus fréquentes (par ex. 0.92 en f-mesure pour la relation SUJ-V sur certains corpus) mais que ces bonnes performances sont réparties entre les différents systèmes (certains privilégient le rappel, d'autre la précision, certains sont meilleurs sur les questions, d'autres sur le corpus parlementaire) ; ce qui augmente d'autant l'intérêt pour ce genre de campagne d'évaluation qui permet de comparer les méthodes et offre un cadre propice aux échanges. Pour les relations moins fréquentes ou plus complexes syntaxiquement les performances sont plus faibles, le problème étant loin d'être résolu. Les deux graphiques ci-dessus permettent de se rendre compte de l'intérêt des différents modes de relâchement de contrainte sur la mesure des frontières de constituants. La figure de gauche montre la valeur de la f-mesure en relations obtenue par un système qui n'a retourné aucune annotation de constituants avec ses relations, pour toutes les relations pour le sous-corpus considéré précédemment et pour les 15 modes de mesures. On remarque une baisse significative de performances pour les mesure les plus strictes (tous ses constituants sont supposés avoir une taille 1 par défaut). La figure de droite, elle, montre les mêmes mesures mais pour un système qui a retourné des annotations de constituants avec ses relations. Dans ce cas, les mesures sont toutes comparables. Cela indique que les constituants retournés sont suffisamment proches de ceux des annotations de référence pour ne pas perturber la mesure de performance en relations. Ressources issues de la campagne EASy :
|
|||||||||||||
Publications et autres résultats | |||||||||||||
|
|
|
Dates du projet |
Date de début : janvier 2003 Date de fin : 4 avril 2006 |