Analyse morphologique

10 octobre 2006

Technolangue.net

L’analyse morphologique s’intéresse à la formation des mots au travers des processus de flexion (marques de genre, nombre, de conjugaison...), dérivation (formation de vendeur à partir de vend) et composition. Étant donné un mot, il s’agit de déterminer quelles sont les unités minimales de sens qui le composent. Ces unités minimales de sens sont appelées morphèmes et se déclinent en termes de racine et d’affixes. Une analyse morphologique complète précise en plus la catégorie grammaticale de la racine et associe aux affixes des informations sémantiques et flexionnelles. Elle est réalisée soit en utilisant des bases lexicales existantes, soit à l’aide de véritables systèmes d’analyse, plus à même de traiter les formes non répertoriées. L’analyse morphologique est présente dans de nombreuses applications du TAL et permet de reconnaître la présence d’un même mot sous des formes de surface différentes. L’une des analyses morphologiques les plus simples mise en œuvre en recherche d’information est la racinisation. Elle consiste à regrouper des formes partageant une même racine. Ce type d’analyse « simpliste » emploie des racineurs (stemmers), qui traitent de façon identique affixes flexionnels et dérivationnels. Les algorithmes de racinisation les plus connus sont ceux de Lovins (1968) et Porter (1980). Ces divers algorithmes procèdent en deux étapes : un pas de désuffixation qui consiste à ôter aux mots des terminaisons prédéfinies les plus longues possibles, et un pas de recodage qui ajoute aux racines obtenues des terminaisons prédéfinies. Il est important de noter que les racines fournies par l’algorithme de Porter ne sont pas forcément de véritables morphèmes. En extraction de connaissance, l’analyse morphologique la plus employée est la lemmatisation (cf. fiche lemmatisation) qui permet d’associer à une forme fléchie une forme conventionnelle ainsi que de calculer les traits flexionnels. Pour certaines langues très riches morphologiquement comme le finnois, la simple analyse flexionnelle se révèle très complexe : elle a donné lieu au modèle de morphologie à 2 niveaux (Koskenniemi, 1983) et à son implémentation dans le système KIMMO (Karttunen, 1983).

Références

Lauri Karttunen. KIMMO : A General Morphological Processor. Linguistic Forum, 22:163-186, 1983. Kimmo Koskenniemi. Two-Level Morphology : A General Computational Model for Word-Form Recognition and Production. PhD thesis, University of Helsinki, Finland, 1983.

Julie B. Lovins. Development of a Stemming Algorithm. Mechanical Translation and Computational Linguistics, 11:22-31, 1968.