BDLex est une action développée dans le cadre du GDR-PRC CHM par le groupe IHMPT de l'IRIT (Université Paul Sabatier de Toulouse) (BDLex23000). D'autres développements ont été effectués ensuite par IHMPT (en particulier BDLex50000 diffusé par ELRA) et se poursuivent actuellement (MhatLex).
Son objectif était de rendre disponibles différents matériaux lexicaux utilisés dans les interfaces en langage naturel écrit ou oral et dans les systèmes d'aide linguistique à la PAO.
Les matériaux lexicaux actuellement disponibles dans le cadre de ELRA consistent en :
** BDLex-23000 : lexique de 270 00 formes fléchies générées à partir de 23.000 entrées canoniques
** BDLex-50000 : lexique de 430 000 formes fléchies générées à partir de 50.000 entrées canoniques
Les lexiques sont constitués de plusieurs fichiers de type LexP (fichier ASCII). Le fichier 'a.B23.flx' contient les formes fléchies générées à partir des formes canoniques à initiale 'a', le fichier 'b.B23.flx' pour les mots à initiale 'b'...
Une forme fléchie est représentée par le tuple
GRAPHIE;PHONO;FPH;CS;Champ5;Champ6;LIEN
Le champ GRAPHIE : Il contient la représentation orthographique de la forme fléchie
Le champ PHONO : Il contient la représentation phonologique de la forme fléchie, à l'exception de sa finale (donnée dans FPH
Le champ FPH : Il décrit le fonctionnement phonologique de la finale du mot fléchi.
Le champ CS : Il donne la catégorie syntaxique de la forme fléchie.
Les Champs 5 et 6 : Ils donnent les informations morphosyntaxiques à savoir : genre/nombre pour un nom ou adjectif, personne/nombre/temps/mode pour une forme verbale, genre/nombre(/personne/nombre)/sous-catégorie pour un déterminant, sous-catégorie pour un adverbe...
Le champ LIEN : Il permet de maintenir un lien entre les formes fléchies et les formes canoniques dont elles dérivent.
Exemple de lexiques de formes fléchies :
abaisser;abEse;R";V;;inf;= /* forme canonique : infinitif */
abaisse;abEs;@;V;1S;pi;abaisser /* forme conjuguée au présent de l'indicatif */
Le lexique des formes fléchies contient donc le lexique des formes canoniques en tant que sous-lexique. |
|