00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Etiquetage Morphosyntaxique
mardi 10 octobre 2006


Objet

Effectuer l’étiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais), consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son contexte et de connaissances lexicales (la base MORPHALOU de l’ATILF est un bon exemple de ressource lexicale très complète).

Voici un exemple de texte étiqueté avec le jeu d’étiquettes utilisé dans la campagne d’évaluation des analyseurs morphosyntaxiques du français GRACE :

Mot Étiquette
morphosyntaxique
Signification
Nous Pp1mpn- pronom personnel 1-ère personne masculin pluriel nominatif
avons Vaip1p- verbe auxiliaire indicatif présent 1-ère personne pluriel
tout Pi-ms— pronom indéfini masculin singulier
rétréci Vmps-sm verbe principal participe passé singulier masculin
de Sp préposition
nos Ds1mpp- déterminant possessif 1-ère personne masculin pluriel (possesseur) pluriel (possédé)
jours Ncmp nom commun masculin pluriel
. F ponctuation

Le jeu d’étiquettes regroupe toutes les étiquettes utilisées pour représenter les différentes classes de mots.

Idéalement, un jeu d’étiquette doit permettre :

  1. de représenter la richesse des informations lexicales,
  2. de représenter l’information nécessaire à la désambiguïsation en contexte des étiquettes morphosyntaxiques,
  3. et d’encoder les informations utiles au traitement linguistique pour lequel l’étiquetage morphosyntaxique a été déployé.
La taille d’un jeu d’étiquettes varie en fonction de la finesse des informations linguistiques représentées (delicacy en anglais). Elle varie de quelques dizaines à quelques centaines d’étiquettes (par ex. 312 pour le jeu GRACE. Cette taille dépend à la fois de la langue traitée (certaines langues dont la morphologie est très riche nécessitent plus d’étiquettes, d’autres moins, par exemple le jeu d’étiquettes utilisé par dans le corpus annoté américain PennTreebank n’en compte que 36) et de choix stratégiques concernant l’étiqueteur (information requise dans l’étiquetage, performance de l’étiqueteur), a priori, moins il y a d’étiquettes parmi lesquelles il faut choisir, plus la tâche d’étiquetage est facile.

L’étiquetage morphosyntaxique peut être vue comme la composition de 3 fonctions :

  1. la segmentation du flux de caractères en mots,
  2. l’étiquetage a priori (hors-contexte) des mots au moyen des informations lexicales (qui associe toutes les étiquettes possibles pour un mot donné),
  3. la sélection en fonction du contexte du mot, de l’étiquette la plus pertinente parmi celles identifiées par l’étiquetage a priori.

Méthodes

Les méthodes à base de règles sans apprentissage ont été les premières employées pour construire des étiqueteurs. Dans ces systèmes, les règles de cooccurrences des mots et des étiquettes, qui définissent l’appartenance d’une occurrence à une classe de mots, sont fournies par un linguiste. Puis très vite ces méthodes ont été supplantées par des méthodes à base d’apprentissage à partir d’un corpus annoté à la main, essentiellement pour des raison de coût de développement. Certaines méthodes à apprentissage se contentent même d’un corpus dépourvu d’annotations morphosyntaxiques. Parmi les méthodes à apprentissage, on distingue les méthodes à base de règles et les méthodes probabilistes, qui constituent les deux grandes classes de systèmes, des autres méthodes au caractère plus anecdotique, comme par exemple, les méthodes à base de neurones artificiels, de combinaison de systèmes ou encore d’algorithmes génétiques. Il existe actuellement un large éventail de logiciels libres ou commerciaux d’étiquetage morphosyntaxique, ceci pour les langues les plus fréquemment rencontrées. Les systèmes multilingues, offrant une qualité d’étiquetage comparable avec un même formalisme pour plusieurs langues sont en revanche très rares.

Performances

L’étiquetage morphosyntaxique a la réputation d’être la tâche d’analyse linguistique automatique la plus facile à réaliser, puisque le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d’étiquetage, avec l’avantage que les systèmes offr