Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Normes & Standard

Enjeux

Instances

Imprimer cet article

Etiquetage Morphosyntaxique

mardi 10 octobre 2006

Objet

Effectuer l’�tiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais), consiste � identifier pour chaque mot sa classe morphosyntaxique � partir de son contexte et de connaissances lexicales (la base MORPHALOU de l’ATILF est un bon exemple de ressource lexicale tr�s compl�te).

Voici un exemple de texte �tiquet� avec le jeu d’�tiquettes utilis� dans la campagne d’�valuation des analyseurs morphosyntaxiques du fran�ais GRACE :

Mot	�tiquette morphosyntaxique	Signification
Nous	Pp1mpn-	pronom personnel 1^{-�re personne} masculin pluriel nominatif
avons	Vaip1p-	verbe auxiliaire indicatif pr�sent 1^{-�re personne} pluriel
tout	Pi-ms—	pronom ind�fini masculin singulier
r�tr�ci	Vmps-sm	verbe principal participe pass� singulier masculin
de	Sp	pr�position
nos	Ds1mpp-	d�terminant possessif 1^{-�re personne} masculin pluriel (possesseur) pluriel (poss�d�)
jours	Ncmp	nom commun masculin pluriel
.	F	ponctuation

Le jeu d’�tiquettes regroupe toutes les �tiquettes utilis�es pour repr�senter les diff�rentes classes de mots.

Id�alement, un jeu d’�tiquette doit permettre :

de repr�senter la richesse des informations lexicales,
de repr�senter l’information n�cessaire � la d�sambigu�sation en contexte des �tiquettes morphosyntaxiques,
et d’encoder les informations utiles au traitement linguistique pour lequel l’�tiquetage morphosyntaxique a �t� d�ploy�.

La taille d’un jeu d’�tiquettes varie en fonction de la finesse des informations linguistiques repr�sent�es (delicacy en anglais). Elle varie de quelques dizaines � quelques centaines d’�tiquettes (par ex. 312 pour le jeu GRACE. Cette taille d�pend � la fois de la langue trait�e (certaines langues dont la morphologie est tr�s riche n�cessitent plus d’�tiquettes, d’autres moins, par exemple le jeu d’�tiquettes utilis� par dans le corpus annot� am�ricain PennTreebank n’en compte que 36) et de choix strat�giques concernant l’�tiqueteur (information requise dans l’�tiquetage, performance de l’�tiqueteur), a priori, moins il y a d’�tiquettes parmi lesquelles il faut choisir, plus la t�che d’�tiquetage est facile.

L’�tiquetage morphosyntaxique peut �tre vue comme la composition de 3 fonctions :

la segmentation du flux de caract�res en mots,
l’�tiquetage a priori (hors-contexte) des mots au moyen des informations lexicales (qui associe toutes les �tiquettes possibles pour un mot donn�),
la s�lection en fonction du contexte du mot, de l’�tiquette la plus pertinente parmi celles identifi�es par l’�tiquetage a priori.

M�thodes

Les m�thodes � base de r�gles sans apprentissage ont �t� les premi�res employ�es pour construire des �tiqueteurs. Dans ces syst�mes, les r�gles de cooccurrences des mots et des �tiquettes, qui d�finissent l’appartenance d’une occurrence � une classe de mots, sont fournies par un linguiste. Puis tr�s vite ces m�thodes ont �t� supplant�es par des m�thodes � base d’apprentissage � partir d’un corpus annot� � la main, essentiellement pour des raison de co�t de d�veloppement. Certaines m�thodes � apprentissage se contentent m�me d’un corpus d�pourvu d’annotations morphosyntaxiques. Parmi les m�thodes � apprentissage, on distingue les m�thodes � base de r�gles et les m�thodes probabilistes, qui constituent les deux grandes classes de syst�mes, des autres m�thodes au caract�re plus anecdotique, comme par exemple, les m�thodes � base de neurones artificiels, de combinaison de syst�mes ou encore d’algorithmes g�n�tiques. Il existe actuellement un large �ventail de logiciels libres ou commerciaux d’�tiquetage morphosyntaxique, ceci pour les langues les plus fr�quemment rencontr�es. Les syst�mes multilingues, offrant une qualit� d’�tiquetage comparable avec un m�me formalisme pour plusieurs langues sont en revanche tr�s rares.

Performances

L’�tiquetage morphosyntaxique a la r�putation d’�tre la t�che d’analyse linguistique automatique la plus facile � r�aliser, puisque le niveau de performance atteint par les syst�mes est comparable � celui des humains en terme de qualit� d’�tiquetage, avec l’avantage que les syst�mes offrent une vitesse d’annotation sans commune mesure avec celle d’un humain, qui ne peut annoter au mieux que quelques milliers de mots � l’heure. Ceci est du au fait que la plupart des ph�nom�nes linguistiques complexes, qui sont hors de port�e de la technologie d’analyse du langage actuelle, ont des fr�quences d’apparition relativement rares par rapport � celles des ph�nom�nes de base. Le niveau de performance, en apparence �lev�, souvent affich� par les �tiqueteurs morphosyntaxiques et en fait un peu trompeur, car il est du, pour une bonne part, au nombre pr�pond�rant de mots non ambigus pr�sents dans la langue naturelle. Par exemple, si l’on regarde les r�sultats d’un des syst�mes ayant eu de tr�s bonnes performances dans la campagne d’�valuation GRACE, en s’int�ressant au taux d’erreur par �tiquette plut�t qu’au taux d’erreur global, on s’aper�oit que le taux d’erreur n’est que de 0.03 % (4 erreurs sur 13246 occurrences) pour les ponctuations, tandis qu’il monte � 7 % (1449 erreurs sur 20491 occurrences) pour la cat�gorie des noms. Avec une strat�gie d’�tiquetage tr�s simple, il est facile de pr�dire correctement l’�tiquette morphosyntaxique de 90 % des mots d’un texte. Notez cependant, que pour des phrases de 15 mots en moyenne, un taux d’�tiquetage correct 96 % au niveau des mots, ne se traduira paradoxalement que par un taux d’�tiquetage correct de 54 % au niveau des phrases (presque une phrase sur deux contiendra au moins une erreur d’�tiquetage).

Utilisation

L’�tiquetage morphosyntaxique est utilis� avec succ�s dans des t�ches de traitement du langage comme :

la lemmatisation,
l’analyse syntaxique, o� il constitue tr�s souvent une phase amont de l’analyse syntaxique,
la synth�se vocale (o� il sert � d�sambigu�ser les homographes comme « couvent » en distinguant le verbe du nom),
l’extraction terminologique

Le bon niveau de performance atteint par la technologie et le grand nombre de syst�mes de qualit� disponibles, aussi bien en tant que logiciel libre que comme logiciel commercial, font de l’�tiquetage morphosyntaxique une des technologies de traitement du langage naturel la plus facilement utilisable dans un syst�me de traitement de l’information.

Bibliographie

Voici trois points d’entr�e dans la litt�rature sur les �tiqueteurs morphosyntaxiques :

  Patrick Paroubek, « Chapitre 4 Analyse Morpho-syntaxique et syntaxique », dans l’ouvrage « L’�valuation des syst�mes de traitement de l’information », sous la direction de St�phane Chaudiron, Collection « Information Commande Communication », aux Editions Hermes-Sciences, Lavoisier, ISBN 2-7462-0862-8, juin 2004, pp 101-125.
  Patrick Paroubek, Martin Rajman, « Chapitre 5 : Etiquettage morphosyntaxique » (www.limsi.fr/Individu/pap/il.hermes.book.html), dans « Ingenierie des Langues », sous la direction de Jean-Marie Pierrel, Collection « Information Commande Communication », aux Editions Hermes Science ISBN 2-7462-0113-5, october 2000 pp 131-148.
  H. van Halteren (�diteur), Syntactic Wordclass Tagging, Kluwer Academic Publishers, 1999.

R�guli�rement des articles sur des aspects sp�cifiques du probl�me de l’�tiquetage morphosyntaxique sont publi�s dans les conf�rences sur le traitement automatique des langues comme TALN, LREC, EACL, ACL, COLING, etc.

Patrick Paroubek