00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  EVALDA - ESTER
jeudi 30 novembre 2006


Évaluation des Systèmes de Transcription d’Émissions Radiophoniques


 
Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA)

Contact
  Jean-François Bonastre, jean-francois.bonastre@lia.univ-avignon.fr
Guillaume Gravier, ggravier@irisa.fr
Edouard Geoffrois, edouard.geoffrois@etca.fr
Djamel Mostefa, mostefa@elda.org

Sites du projet

 


Résumé

Une longue tradition de campagnes d’évaluation des systèmes de traitement automatique du langage naturel existe aux Etats-Unis (campagnes DARPA sur la transcription et les détections d’entités, campagnes NIST sur la reconnaissance du locuteur). Celle-ci a permis de faire progresser l’état de l’art et de mettre à la disposition des acteurs du domaine des corpus de grande taille et des métriques d’évaluation fiables.

En France, une première campagne d’évaluation pour la langue française a été menée dans le cadre de l’initiative AUPELF. La campagne ESTER s’inscrit dans la continuité de cette logique d’évaluation en mettant en place des protocoles et en produisant des corpus pour le français.

La campagne d’évaluation ESTER vise à l’évaluation des systèmes de transcriptions d’émissions radiophoniques. Les transcriptions seront enrichies par un ensemble d’informations annexes, comme le découpage automatique en tours de paroles, le marquage des entités nommées, etc. L’évaluation de la qualité des informations annexes en plus de l’évaluation de la transcription orthographique permettra d’établir une référence des niveaux de performances actuels de chacune des composantes d’un système d’indexation, tout en donnant une idée des performances du système complet. L’organisation de la campagne passera par la mise en place d’un comité de pilotage, d’un comité scientifique et d’un site internet.

 

Résultats

LE PACKAGE D’EVALUATION ESTER EST DESORMAIS DISPONIBLE AUPRES D’ELRA :

  • Package d’évaluation ESTER(référence ELRA-E0021)
  • Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ESTER. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.

  • Corpus ESTER(référence ELRA-S0241)
  • Le corpus ESTER est un sous-ensemble du package d’évaluation ESTER. Ce corpus comprend l'ensemble des données utilisées lors de la campagne d’évaluation ESTER, à l'exclusion des données textuelles.

Les résultats de l’évaluation ESTER sont répartis sur les trois classes de tâches mentionnées précédemment (transcription orthographique, segmentation et extraction d’informations).

Les résultats détaillés sont présentés dans l’article publié à Interspeech 2005. Ci-dessous figurent quelques résultats.

Transcription orthographique

Huit laboratoires participèrent à la tâche de transcription orthographique. Le meilleur résultat fut obtenu par le LIMSI avec un taux d’erreurs de mots de 11.9%. Pour la tâche de transcription en temps réel, Vecsys Research obtint les meilleurs résultats avec un taux d’erreur de 16.8%.

Segmentation

Les tâches de segmentation se décomposent en segmentation en événements sonores, suivi de locuteurs et segmentation en locuteurs. Pour la segmentation en événements sonores où la tâche consiste à détecter les parties contenant de la musique (avec ou sans parole) d’une part et les parties comprenant de la parole (avec ou sans musique), sept laboratoires y participèrent. Les résultats sont bons pour la détection de parole avec un taux de F-mesure de 99.2% obtenu par le LIA. La détection de la musique est plus problématique notamment que le rapport signal bruit est faible. Le meilleur résultat de détection de musique fut également obtenu par le LIA avec un taux de F-mesure de 54.8%.

La tâche de suivi de locuteur consiste à détecter les parties du document correspondant à un locuteur donné. Trois laboratoires participèrent à cette tâche et le meilleur résultat fut obtenu par l’IRISA avec un taux de F-Mesure de 84.3%. La segmentation en locuteurs consiste à segmenter le document en locuteurs et regrouper les parties parlées par le même locuteur. Parmi les quatre participants, le LIMSI obtint le meilleur résultat avec un taux d’erreur de 11.5%.

Extraction d’information

La tâche de détection d’entités nommées fut évaluée de façon plus exploratoire que les tâches précédentes. Le but était de mettre en place et tester un protocole d’évaluation plutôt que de mesurer les performances. Les systèmes devaient détecter huit classes d’entités (personne, lieu, date, organisation, entité géo-politique, montant, bâtiment et inconnu) à partir de la transcription automatique ou de la transcription manuelle. Le meilleur résultat des trois participants fut obtenu sur la transcription manuelle avec un taux d’erreurs de 22.3%.

Ressources :

Les ressources produites sont les mêmes que celles produites à la fin de la seconde année, à savoir 100 heures d’émissions transcrites orthographiquement et annotées en entités nommées et 1700 heures d’enregistrements d’émissions radiophoniques non transcrites. Néanmoins, l’évaluation officielle a permis de mettre à jour le corpus en analysant les sorties automatiques des systèmes et les transcriptions manuelles. Le dictionnaire d’équivalence a également été enrichi au terme de la phase d’adjudication. Le corpus de 100 heures de transcriptions inclue 1,2 millions de mots pour un vocabulaire de 37 000 mots. 74 082 occurrences d’entités nommées sont annotées pour un total de 15 152 entités différentes.

Les ressources textuelles distribuées dans le cadre de la campagne ESTER reposent essentiellement sur les archives du journal Le Monde (ELRA-W0015) et du corpus des débats du Conseil européen (ELRA-W0023).

Des guides et manuels ont été produits et sont fournis dans le package distribué par ELDA :

    • Guide d’annotation en entités nommées
    • Spécifications et protocole d’évaluations

Publications

  • L. ZOUARI, G. CHOLLET, “Efficient Gaussian Mixture for Speech Recognition”. In: Proceedings of the 18th International Conference on Pattern Recognition (ICPR 2006), Hong-Kong, August 2006.

  • S. GALLIANO, E. GEOFFROIS, G. GRAVIER, J.-F. BONASTRE, D. MOSTEFA, K. CHOUKRI, “Corpus description of the ESTER Evaluation Campaign for the Rich Transcription of French Broadcast News”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.315-320.

  • S. GALLIANO, E. GEOFFROIS, D. MOSTEFA, K. CHOUKRI, J.-F. BONASTRE, G. GRAVIER, “The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast New”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • M. BEN, G. GRAVIER, D. BIMBOT, “A model space framework for efficient speaker detection”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • B. FAVRE, F. BECHET, P. NOCERA, “Mining broadcast news data: robust information extraction from word lattices”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • P. DELEGLISE, Y. ESTEVE, S. MEIGNER, T. MERLIN, “The LIUM speech transcription system: A CMU Sphinx III based system for French broadcast news”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • J.-L. GAUVAIN, G. ADDA, M. ADDA-DECKER, A. ALLAUZEN, V. GENDNER, L. LAMEL, H. SCHWENK, “Where are we in transcribing French broadcast news?”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • D. MASSONIE, P. NOCERA, G. LINARES, “Scalable language model look-ahead for LVCSR”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • D. MORARU, M. BEN, G. GRAVIER, “Experiments on speaker tracking and segmentation in radio broadcast news”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • X. ZHU, C. BARRAS, S. MEIGNER, J.-L. GAUVAIN, “Combining speaker idenfication and BIC for speaker diarization”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • D. ISTRATE, C. SCHEFFER, S. FREDOUILLE, J.-F. BONASTRE, “Broadcast news speaker tracking for ESTER 2005 campaign”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

  • D. FOHR, O. MELLA, I. ILLINA, C. CERISARA, “Experiments on the accuracy of phone models and liaison processing in a French broadcast news transcription system”. In: Proceedings of the International Conference on Spoken Language Processing, (ICSLP 2004), Jeju Islands, Corée du Sud, October 2004.

  • I. ILLINA, D. FOHR, O. MELLA, C. CERISARA, “The automatic transcription system: ANTS. Some real time experiments”. In: Proceedings of the International Conference on Spoken Language Processing, (ICSLP 2004), Jeju Islands, Corée du Sud, October 2004.

  • M. BEN, M. BETSER, F. BIMBOT, G. GRAVIER, “Speaker diarization using bottom-up clustering based on a parameter-derived distance between adapted GMMs”. In: Proceedings of the International Conference on Spoken Language Processing, (ICSLP 2004), Jeju Islands, Corée du Sud, October 2004.

  • G. GRAVIER, J.-F. BONASTRE, E. GEOFFROIS, S. GALLIANO; K. MCTAIT, K. CHOUKRI, “The ESTER evaluation campaign of rich transcription of French broadcast news”. In: Proceedings of the
    4th international Conference on Language Resources and Evaluation (LREC 2004)
    , Lisboa, Portugal, May 2004, p.885-888.

  • V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.

  • G. GRAVIER, J.-F. BONASTRE, E. GEOFFROIS, S. GALLIANO, K. MCTAIT, K. CHOUKRI, “ESTER, une campagne d'évaluation des systèmes d'indexation automatique d'émissions radiophoniques en français”. In : Actes des Journées d’Etude sur la Parole (JEP 2004), Fès, Maroc, avril 2004.

  • Y. ESTEVE, P. DELEGLISE, B. JACOB, “Systèmes de transcription automatique de la parole et logiciels libres”. In : revue Traitement Automatique des Langues, Volume 45, n° 2.

  • C. FREDOUILLE, D. MATROUF, G. LINARES, P. NOCERA, “Segmentation en macro-classes acoustiques d'émissions radiophoniques dans le cadre d'ESTER”. In : Actes des Journées d’Etude sur la Parole (JEP 2004), Fès, Maroc, avril 2004.

  • R. LAMY, D. MORARU, B. BIGI, L. BESACIER, “Premiers pas du CLIPS sur les données d'évaluation ESTER”. In : Actes des Journées d’Etude sur la Parole (JEP 2004), Fès, Maroc, avril 2004.

  • A. BRUN, C. CERISARA, D. FOHR, I. ILLINA, D. LANGLOIS, O. MELLA, K. SMAÏLI, “ANTS : le système de transcription automatique du LORIA”. In : Actes des Journées d’Etude sur la Parole (JEP 2004), Fès, Maroc, avril 2004.

Partenaires du projet
  AFCP
CLIPS
C