Analyseur morphologique CRISTAL
Analyseur morphologique du français écrit
Identification
Typologie :
Catégorie : Produit/Logiciel 
Langues :
Organisme :
Description :
L'analyseur morphologique CRISTAL est couplé avec dictionnaire de 70.000 entrées. Il permet l'analyse des formes du français. En d'autres termes, il donne d'une forme toutes les interprétations possibles de cette forme en dehors du contexte, c'est-à-dire son entrée lexicale, sa catégorie et des valeurs de variables soit lexicales, soit flexionnelles.
Par exemple : Le mot 'affections', 3 analyses seront proposées selon la catégorie (nom ou verbe) et le temps verbal (indicatif imparfait, subjonctif présent)

*Le modèle linguistique : La modélisation linguistique intervient sur plusieurs plans : la définition des catégories, la définition des formes qui en découle, les calculs opérés sur la forme pour atteindre l'entrée lexicale.

* La définition des catégories : Le jeu de catégories utilisé dans le système CRISTAL est un jeu conçu pour le traitement de la langue [BERRENDONNER, 1983], et donc non nécessairement conforme avec la grammaire traditionnelle. De ce fait, les catégories CRISTAL sont des catégories primitives définies sur des critères distributionnels. Les catégories utilisées, sont par exemple :
F : noms et/ou adjectifs. La distinction entre nom et adjectif s'opère au niveau de la sous-catégorisation à l'aide d'une variable lexicale dont les valeurs sont NOM (grenier), ADJ (facile) et NAN (méchant)
W :adverbes y compris donc, mais, or, car
H : prophrases (si, oui, non) « je te dis que non »
Y : les pronoms clitiques, les pronoms toniques (moi, soi, eux...) étant considérés comme des F

*La définition des formes : L'analyse morphologique consiste à mettre en correspondance chaque forme d'un texte avec une catégorie. Or certaines formes recèlent plus d'une catégorie primitive. Il en est ainsi de la forme aux qui est à la fois une préposition et un déterminant. Elles sera donc éclatée en deux formes, autant que de catégories sous-jacentes. Il en est de même pour les formes qui (subordonnant + pronom tonique), auquel (subordonnant + préposition + déterminant + pronom tonique).

* Les aspects calculatoires : On considère qu'une forme fléchie résulte de la concaténation d'une base et de flexions. C'est ainsi que la forme fréquentes résulte de la concaténation de la base 'fréquent' avec la flexion de genre 'e' et suivie de la flexion de nombre 's'.
Les seules flexions qui marquent les formes nominales et/ou adjectivales sont donc les flexions de genre et de nombre et de plus, elles interviennent dans cet ordre. Dans le lexique à chaque base est associé un modèle flexionnel. C'est ainsi que le modèle « avocat » représente toutes les bases dont le féminin s'obtient par ajout d'un e, et le pluriel par celui d'un s.
Les formes verbales résultent de la concaténation d'une base verbale avec 4 flexions potentielles : voyelle thématique, mode, temps, personne.

* Le dictionnaire : est un fichier texte où chaque ligne décrit une base.La description comporte les informations suivantes : la base, l'entrée lexicale, modèle flexionnel, soit la valeur « invariable » et les valeurs flexionnelles, la catégorie, les valeurs de variables lexicales (celles qui ne peuvent être calculées à partir de la forme).

* Le codage du texte d'entrée : Cet analyseur ne reconnaît que les formes codées en ASCII standard. Avant d'analyser un texte, il est donc nécessaire de l'encoder en respectant les consignes suivantes pour les caractères avec signes diacritiques. Les caractères accentués se représentent à l'aide de 2 caractères. Les accents graves, aigus et circonflexes sont postposés, le tréma est préposé. La cédille est représentée par un «underscore»

* Le résultat : Le texte préalablement codé selon les directives précédentes est soumis à l'analyseur morphologique. Le résultat obtenu est le suivant. A chaque forme connue du système (i.e. le couple analyseur, dictionnaire) est associée la liste des interprétations possibles. Si la forme est inconnue du système, quelles qu'en soient les raisons (graphie incorrecte, néologisme...), elle sera considérée comme pouvant être une forme lexicale soit un nom, un adjectif, un verbe ou un adverbe.
Informations technique
Type de machine : Station de travail
Système : Unix AIX
Mémoire Minimum : 1 Mo
Espace disque : 100 Mo
Intégration
Autonomie :
Intégration dans les applications : Analyse morpho-syntaxique du français écrit
Disponibilité commerciale, technique et légale
Disponibilité :
Contraintes :
Documentation en ligne :
Documentation en braille :
Documentation en français :
Utilisateurs potentiels : Recherche,
Last Modified :2007-03-27 15:06:39