Top » Directory

Informations
Presentation
Inscription
Contact Us
Directory
Private company
Research Organizations
Associations
Tools
Quick Find
 
Use keywords to find the product you are looking for.
Advanced Search
TOOL_TIP_LISTE TOOL_TIP_PRINT
ANA
Acquisition Naturelle Automatique
Identification
Typologie :
Catégorie : Application 
Langues :
Organisme : IRIN 
Description :
Le système ANA (Apprentissage Naturel Automatique) constitue une nouvelle approche pour l'acquisition automatique de terminologie. Ce système est directement inspiré par l'apprentissage humain de la langue maternelle. D'une part, il se base sur une modélisation de la capacité humaine à reconnaître des informations dont la morphologie varie alors que leur sémantique reste sensiblement la même. D'autre part, il se base également sur la représentation des processus d'induction et de généralisation.

ANA présente la caractéristique de n'utiliser ni grammaire de la langue utilisée dans le corpus, ni lexique du domaine. Il s'adapte à la langue et permet donc de traiter des textes de registres de langues qui ne correspondent au « français standard », ou bien encore des textes très dégradés (fautes d'orthographe, abréviations, etc.), mais aussi d'autres langues que le français : italien, anglais, etc. Cependant, il nécessite des adaptations pour traiter les langues agglutinantes.
Le système traite les textes bruts : ceux-ci n'ont pas besoin d'être étiquetés ni balisés ni corrigés.
Basé sur des procédures statistiques, le système ne peut fonctionner sur de petits textes. Un minimum de 20 000 mots est nécessaire pour un texte rédigé dans une langue riche en termes.

Le système n'utilise pas de connaissances linguistiques fines, mais il nécessite la détermination préalable de deux listes :
' les mots fonctionnels les plus fréquents de la langue considérée. Ces mots sont faciles à déterminer par l'examen de la liste des mots du texte ordonnée selon leurs fréquences décroissantes.
' quelques termes utilisés dans le corpus. Ces termes sont faciles à déterminer par la scrutation de la liste des mots du texte (qui ne sont pas des mots fonctionnels) ordonnée selon les fréquences décroissantes.
ANA fournit la liste des mots du texte ordonnée selon les fréquences décroissantes.

Reconnaissance de termes selon leur variances :
Les termes, simples ou complexes, sont reconnus en utilisant les opérateurs d'égalité souple définis dans [Enguehard & al. 95].

Acquisition de nouveaux termes :
Le processus d'acquisition est incrémental. Il tend à agrandir la liste de termes donnée à l'initialisation en déterminant des termes complexes par observation, dans le corpus, de la composition des termes existants, et de nouveaux termes simples par observation, dans le corpus, des contextes des termes existants.

Résultats :
Le système est robuste et donne des résultats satisfaisants (entre 2/3 et 3/4 de termes extraits sont jugés corrects par un spécialiste du domaine). Le tri des termes est facilité par la visualisation des occurrences des termes.

Conclusion :
Le système ANA rassemble un ensemble de traitements qui permettent de déterminer les termes apparaissant dans un corpus, d'initialiser cette acquisition de données, de valider les termes extraits. Robuste, il est toutefois grossier et se montre performant là où les logiciels basés sur des procédures linguistiques ne peuvent fonctionner, par exemple sur des textes dégradés.
Informations technique
Support : Disk
Taille : 1 Mo
Type de machine : PC
Mac
Station de travail
Gros systèmes
Système : MSDos
Unix
Windows 3.1 95/98 NT 3.5/4.0
Other Tous systèmes
Mémoire Minimum : 32 Mo
Mémoire recommandée : 128 Mo
Espace disque : 10 Mo selon le corpus
Intégration
Autonomie :
Intégration possible dans : Différentes applications
Disponibilité commerciale, technique et légale
Documentation en ligne :
Documentation en français :
Utilisateurs potentiels : Recherche,
Contact
Mme Chantal Enguehard
Email : enguehardirin.univ-nantes.fr
Fax : 02 51 12 58 12
Téléphone : 02 51 12 58 55
Last Modified :2005-05-24 11:27:59