00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Etiquetage Morphosyntaxique
mardi 10 octobre 2006


Objet

Effectuer l’étiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais), consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son contexte et de connaissances lexicales (la base MORPHALOU de l’ATILF est un bon exemple de ressource lexicale très complète).

Voici un exemple de texte étiqueté avec le jeu d’étiquettes utilisé dans la campagne d’évaluation des analyseurs morphosyntaxiques du français GRACE :

Mot Étiquette
morphosyntaxique
Signification
Nous Pp1mpn- pronom personnel 1-ère personne masculin pluriel nominatif
avons Vaip1p- verbe auxiliaire indicatif présent 1-ère personne pluriel
tout Pi-ms— pronom indéfini masculin singulier
rétréci Vmps-sm verbe principal participe passé singulier masculin
de Sp préposition
nos Ds1mpp- déterminant possessif 1-ère personne masculin pluriel (possesseur) pluriel (possédé)
jours Ncmp nom commun masculin pluriel
. F ponctuation

Le jeu d’étiquettes regroupe toutes les étiquettes utilisées pour représenter les différentes classes de mots.

Idéalement, un jeu d’étiquette doit permettre :

  1. de représenter la richesse des informations lexicales,
  2. de représenter l’information nécessaire à la désambiguïsation en contexte des étiquettes morphosyntaxiques,
  3. et d’encoder les informations utiles au traitement linguistique pour lequel l’étiquetage morphosyntaxique a été déployé.
La taille d’un jeu d’étiquettes varie en fonction de la finesse des informations linguistiques représentées (delicacy en anglais). Elle varie de quelques dizaines à quelques centaines d’étiquettes (par ex. 312 pour le jeu GRACE. Cette taille dépend à la fois de la langue traitée (certaines langues dont la morphologie est très riche nécessitent plus d’étiquettes, d’autres moins, par exemple le jeu d’étiquettes utilisé par dans le corpus annoté américain PennTreebank n’en compte que 36) et de choix stratégiques concernant l’étiqueteur (information requise dans l’étiquetage, performance de l’étiqueteur), a priori, moins il y a d’étiquettes parmi lesquelles il faut choisir, plus la tâche d’étiquetage est facile.

L’étiquetage morphosyntaxique peut être vue comme la composition de 3 fonctions :

  1. la segmentation du flux de caractères en mots,
  2. l’étiquetage a priori (hors-contexte) des mots au moyen des informations lexicales (qui associe toutes les étiquettes possibles pour un mot donné),
  3. la sélection en fonction du contexte du mot, de l’étiquette la plus pertinente parmi celles identifiées par l’étiquetage a priori.

Méthodes

Les méthodes à base de règles sans apprentissage ont été les premières employées pour construire des étiqueteurs. Dans ces systèmes, les règles de cooccurrences des mots et des étiquettes, qui définissent l’appartenance d’une occurrence à une classe de mots, sont fournies par un linguiste. Puis très vite ces méthodes ont été supplantées par des méthodes à base d’apprentissage à partir d’un corpus annoté à la main, essentiellement pour des raison de coût de développement. Certaines méthodes à apprentissage se contentent même d’un corpus dépourvu d’annotations morphosyntaxiques. Parmi les méthodes à apprentissage, on distingue les méthodes à base de règles et les méthodes probabilistes, qui constituent les deux grandes classes de systèmes, des autres méthodes au caractère plus anecdotique, comme par exemple, les méthodes à base de neurones artificiels, de combinaison de systèmes ou encore d’algorithmes génétiques. Il existe actuellement un large éventail de logiciels libres ou commerciaux d’étiquetage morphosyntaxique, ceci pour les langues les plus fréquemment rencontrées. Les systèmes multilingues, offrant une qualité d’étiquetage comparable avec un même formalisme pour plusieurs langues sont en revanche très rares.

Performances

L’étiquetage morphosyntaxique a la réputation d’être la tâche d’analyse linguistique automatique la plus facile à réaliser, puisque le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d’étiquetage, avec l’avantage que les systèmes offrent une vitesse d’annotation sans commune mesure avec celle d’un humain, qui ne peut annoter au mieux que quelques milliers de mots à l’heure. Ceci est du au fait que la plupart des phénomènes linguistiques complexes, qui sont hors de portée de la technologie d’analyse du langage actuelle, ont des fréquences d’apparition relativement rares par rapport à celles des phénomènes de base. Le niveau de performance, en apparence élevé, souvent affiché par les étiqueteurs morphosyntaxiques et en fait un peu trompeur, car il est du, pour une bonne part, au nombre prépondérant de mots non ambigus présents dans la langue naturelle. Par exemple, si l’on regarde les résultats d’un des systèmes ayant eu de très bonnes performances dans la campagne d’évaluation GRACE, en s’intéressant au taux d’erreur par étiquette plutôt qu’au taux d’erreur global, on s’aperçoit que le taux d’erreur n’est que de 0.03 % (4 erreurs sur 13246 occurrences) pour les ponctuations, tandis qu’il monte à 7 % (1449 erreurs sur 20491 occurrences) pour la catégorie des noms. Avec une stratégie d’étiquetage très simple, il est facile de prédire correctement l’étiquette morphosyntaxique de 90 % des mots d’un texte. Notez cependant, que pour des phrases de 15 mots en moyenne, un taux d’étiquetage correct 96 % au niveau des mots, ne se traduira paradoxalement que par un taux d’étiquetage correct de 54 % au niveau des phrases (presque une phrase sur deux contiendra au moins une erreur d’étiquetage).

Utilisation

L’étiquetage morphosyntaxique est utilisé avec succès dans des tâches de traitement du langage comme :

  • la lemmatisation,
  • l’analyse syntaxique, où il constitue très souvent une phase amont de l’analyse syntaxique,
  • la synthèse vocale (où il sert à désambiguïser les homographes comme « couvent » en distinguant le verbe du nom),
  • l’extraction terminologique

Le bon niveau de performance atteint par la technologie et le grand nombre de systèmes de qualité disponibles, aussi bien en tant que logiciel libre que comme logiciel commercial, font de l’étiquetage morphosyntaxique une des technologies de traitement du langage naturel la plus facilement utilisable dans un système de traitement de l’information.

Bibliographie

Voici trois points d’entrée dans la littérature sur les étiqueteurs morphosyntaxiques :

-  Patrick Paroubek, « Chapitre 4 Analyse Morpho-syntaxique et syntaxique », dans l’ouvrage « L’évaluation des systèmes de traitement de l’information », sous la direction de Stéphane Chaudiron, Collection « Information Commande Communication », aux Editions Hermes-Sciences, Lavoisier, ISBN 2-7462-0862-8, juin 2004, pp 101-125.
-  Patrick Paroubek, Martin Rajman, « Chapitre 5 : Etiquettage morphosyntaxique » (www.limsi.fr/Individu/pap/il.hermes.book.html), dans « Ingenierie des Langues », sous la direction de Jean-Marie Pierrel, Collection « Information Commande Communication », aux Editions Hermes Science ISBN 2-7462-0113-5, october 2000 pp 131-148.
-  H. van Halteren (éditeur), Syntactic Wordclass Tagging, Kluwer Academic Publishers, 1999.

Régulièrement des articles sur des aspects spécifiques du problème de l’étiquetage morphosyntaxique sont publiés dans les conférences sur le traitement automatique des langues comme TALN, LREC, EACL, ACL, COLING, etc.

Patrick Paroubek