Top » Directory

Informations
Presentation
Inscription
Contact Us
Directory
Private company
Research Organizations
Associations
Tools
Quick Find
 
Use keywords to find the product you are looking for.
Advanced Search
<<< TEXT_PAGE_PREC
TOOL_TIP_LISTE TOOL_TIP_PRINT
TEXT_PAGE_NEXT >>>
Catégoriseur INALF (Maucourt/P
Identification
Typologie : Analyse syntaxique 
Catégorie : Outil 
Langues :
Organisme :
Description :
Le catégoriseur INALF (J. Maucourt et M. Papin) réalisé par Jacques Maucourt (informaticien) et Marc Papin (linguiste) est à la fois un segmenteur, un catégoriseur et un lemmatiseur. À la différence de nombreux catégoriseurs à vocation documentaire, celui-ci a été conçu à partir de règles testées sur un vaste corpus d'oeuvres littéraires. Il permet "d'annoter" des corpus textuels de grande taille, c'est-à-dire d'y insérer des attributs grammaticaux.
Ce logiciel a servi à catégoriser 400 romans des XIXe et XXe siècles, un sous-ensemble de la base textuelle FRANTEXT de l'INALF. Le système de requêtes et de 'grammaires formelles'de la nouvelle version du moteur de recherche STELLA qu'a mis au point J. Dendien pour les bases textuelles de l'INALF, prend en compte ces attributs grammaticaux attribués aux formes des textes.
La Base FRANTEXT catégorisée est désormais à la disposition du public. (http://www.ciril.fr/~mastina/FRANTEXT, sur abonnement)
Il est donc désormais possible d'utiliser, pour le questionnement des oeuvres, non plus seulement des chaînes de caractères, mais, grâce aux catégories grammaticales associées aux formes ou séquences de formes, des entités qu'on peut considérer, au plan formel, comme représentatives des mots de la langue. L'utilisateur dispose ainsi de moyens nouveaux pour l'étude des textes français : fonctionnement des mots en contexte, création d'entités syntagmatiques larges, phraséologie, travaux statistiques sur des populations d'items plus 'propres', plus proches de la réalité...).

*Présentation succincte du catégoriseur.
Le logiciel permet une segmentation fine des textes et propose des milliers de mots composés, tant grammaticaux que lexicaux venant de la nomenclature du TLF. L'attribution de la 'partie du discours' se fait en s'appuyant sur un dictionnaire électronique de référence, 'TLFnome' , dérivé de la nomenclature du TLF. La désambiguïsation des formes homographes est obtenue au moyen de règles (plusieurs milliers), établies en testant les contextes discriminants sur des corpus de plusieurs centaines d'oeuvres. Lorsque ce contexte discriminant n'existe pas, on propose la réalisation la plus fréquente en discours, suivie d'un point d'interrogation.
De nombreuses difficultés linguistiques sont traitées : désambiguïsation des mots grammaticaux polycatégoriels, traitement du trait-d'union, des chiffres...
Le système permet d'associer un 'lemme' à chaque forme catégorisée.
Informations technique
Intégration
Autonomie :
Intégration dans les applications : Catégorisation FRANTEXT
Intégration possible dans : Tout corpus textuel
Disponibilité commerciale, technique et légale
Documentation en ligne :
Documentation en français :
Utilisateurs potentiels :
Contact
M. Marc Papin
Email : mpapininalf.cnrs-nancy.fr
Téléphone : 03 83 44 74 39
M. Jacques Maucourt
Email : maucourtinalf.cnrs-nancy.fr
Téléphone : 03 83 44 74 42
Created date : 2005-02-25 12:57:55