00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Entités nommées
mardi 10 octobre 2006


On appelle traditionnellement « entités nommées » (de l’anglais named entity) l’ensemble des noms de personnes, d’entreprises et de lieux présents dans un texte donné. On associe souvent à ces éléments d’autres syntagmes comme les dates, les unités monétaires ou les pourcentages repérables par les mêmes techniques à base de grammaires locales.

De nombreux travaux ont porté sur l’identification des noms propres dans des textes journalistiques, notamment les Message Understanding Conferences (MUC) [MUC6, 1995] [MUC7, 1998]. L’identification des entités nommées inclut traditionnellement trois types d’expressions : les noms propres (ENAMEX), les expressions temporelles (TIMEX) et les expressions numériques (NUMEX).

La reconnaissance des entités nommées à partir de textes écrits est actuellement la tâche d’extraction d’information qui obtient les meilleures performances. Les taux combinés de précision et de rappel sont comparables à ceux des humains, avec un taux de l’ordre de 0,90 P&R sur des dépêches journalistiques. Deux grandes approches sont généralement suivies pour leur identification : une approche linguistique de surface et une approche probabiliste.

Approche linguistique

L’approche linguistique est fondée sur la description syntaxique et lexicale des syntagmes recherchés. Des règles de grammaire utilisent des marqueurs lexicaux (ex. Mr pour Mister ou Inc. pour Incorporated), des dictionnaires de noms propres et des dictionnaires de la langue générale (essentiellement pour repérer les mots inconnus) sont utilisés pour repérer et typer les syntagmes intéressants [Aberdeen et al., 1995], [Grishman et al., 1995], [Appelt et Israel, 1999].

Approche probabiliste

De son côté, l’approche probabiliste utilise un modèle de langage entraîné sur de larges corpus de textes pré-étiquetés. Cette approche est particulièrement robuste lorsque les textes sont bruités, c’est pourquoi la grande majorité des systèmes dédiés à l’oral adopte une telle approche (ex. [Kubala et al., 1999]). Plus récemment sont apparues des approches hybrides tirant parti des avantages respectifs des méthodes linguistique et probabiliste. Dans les systèmes de ce type, un ensemble de règles est généralement appris automatiquement puis révisé par un expert [Aberdeen et al., 1995]. L’approche inverse a aussi été testée : un ensemble de règles de base est élaboré par un expert puis étendu (semi-) automatiquement par un moteur d’inférence qui permet d’obtenir progressivement une meilleure couverture du corpus [Cucchiarelli et Velardi, 2001].

Références

-  [Aberdeen et al., 1995] Aberdeen J., Burger J., Day D., Hirschman L., Robinson P. et Vilain M. - « MITRE : Description of the Alembic System as Used for MUC-6 ». In Proceedings of the 6th Message Understanding Conference (MUC-6), Morgan Kaufmann, San Francisco, 1995, pp. 141-155.

-  [Appelt et Israel, 1999] Appelt D. et Israel D. - « Introduction to information extraction technology ». Tutorial of the International Joint Conference on Artificial Intelligence (IJCAI’99), Stockholm, 1999 (disponible à l’adresse suivante : www.ai.sri.com/ appelt/tutorial/ ).

-  [Cucchiarelli et Velardi 2001] Cucchiarelli A. et Velardi P. - « Unsupervised named entity recognition using syntactic and semantic contextual evidence ». Computational Linguistics, n°27 (1), 2001, pp. 123-131.

-  [Grishman, 1995] Grishman R. - « The NYU system for MUC-6 or where’s the syntax ? ». In Proceedings of the 6th Message Understanding Conference (MUC-6), Morgan Kaufmann, San Francisco, 1995, pp. 167-176.

-  [Kubala et al., 1999] Kubala F., Schwartz R., Stone R. et Weischedel R. - « Named Entity Extraction from Speech ». In Proceedings of the DARPA Broadcast News Workshop, Herndon, 1999, pp. 287-292.

-  [MUC-6, 1995] MUC-6 - Proceedings Sixth Message Understanding Conference (DARPA), Morgan Kaufmann Publishers, San Francisco, 1995.

-  [MUC-7, 1998] MUC-7 - Proceedings Seventh Message Understanding Conference. (disponible à l’adresse suivante : www.muc.saic.com, 1998.

Thierry Poibeau