SPIRIT
Identification
Typologie :
Catégorie :
Langues : allemand  anglais  russe  
Organisme : Technologies-GID 
Description :
A. Caractéristiques fonctionnelles
SPIRIT est un logiciel de recherche d'information textuelle avec indexation automatique du texte intégral et interrogation en langage naturel.
SPIRIT traite les textes introduits et les questions à l'aide d'algorithmes linguistiques et statistiques.
Les questions en langage libre (ou langage naturel) permettent grâce aux techniques statistiques et linguistiques d'améliorer la pertinence de la sélection des documents réponses et d'obtenir les documents réponses classés dans un ordre décroissant de proximité avec la question.
Actuellement SPIRIT possède trois bases de connaissances pour le traitement des langues française, anglaise et allemande. Une version russe est en cours de réalisation.

Les caractéristiques fonctionnelles de SPIRIT sont les suivantes :
1. Questionnement
a) Fonctionnement
SPIRIT permet d'exprimer la question sous une forme totalement libre, ce qui rend la consultation accessible à tous les utilisateurs, même occasionnels, en leur évitant d'apprendre un langage spécialisé.
SPIRIT analyse la question posée, en extrait les mots significatifs, les mots outils et éventuellement les mots inconnus, c'est-à-dire les mots qui ne figurent ni dans le dictionnaire de SPIRIT, ni dans le corpus de la base documentaire en cours de consultation. Il est également capable de repérer les expressions idiomatiques éventuelles, qu'elles soient significatives ou vides.
SPIRIT regroupe en classes les documents-réponses, et ce, en fonction des mots significatifs qu'ils ont en commun avec la question. Le logiciel est paramétrable, et on peut lui demander de n'afficher que les classes les plus pertinentes.
Grâce à la possibilité de structurer les documents en champs textuels (sur lesquels est réalisée l'analyse linguistique; exemples : texte, résumé,...) et en champs factuels (sur lesquels est effectuée une recherche booléenne classique; exemples : date, auteur, origine du document,....), SPIRIT permet une recherche mixte par grille, où les champs factuels servent de filtres, et les champs textuels autorisent la recherche en langage libre.

b) Reformulations monolingue et multilingue
Une même idée peut être exprimée sous des formes tellement différentes qu'il est souvent utile qu'une question soit transformée dans toutes ses formes sémantiques équivalentes. Le dictionnaire standard de règles de reformulation fourni avec le module Reformulation de SPIRIT comprend les associations entre termes de la même famille et les synonymies de la langue. Cette technique permet d'éviter d'utiliser les troncatures, qui peuvent nuire à la recherche L'utilisateur peut intégrer d'autres règles de reformulation. Les règles de reformulation s'appliquant uniquement sur la question et non sur l'indexation, elles peuvent être modifiées sans ré-indexation de la base

La reformulation peut s'étendre à la reformulation multilingue. Dans le cadre du projet Esprit EMIR, T.GID a travaillé en collaboration avec le CEA, et des Universités ou Centres de Recherches Européens pour la réalisation d'un logiciel permettant l'interrogation de bases textuelles multilingues (français, anglais, allemand).

B. Les traitements linguistique et statistique
La technologie de SPIRIT repose sur les traitements linguistique et statistique suivants :

1. Découpage du texte en mots

2. Analyse morphologique : Elle est réalisée grâce à la consultation d'un dictionnaire de formes fléchies de 500 000 entrées pour le français. L'approche est rapide, car aucun algorithme de déduction complexe n'est mis en oeuvre lors l'analyse d'une chaîne de caractères donnée.

3. Reconnaissance des locutions : SPIRIT reconnaît comme une seule entité les locutions grâce à un dictionnaire d'expressions idiomatiques.

4. Analyse syntaxique : permet de lever les ambiguïtés morphologiques en identifiant les termes à l'aide des catégories grammaticales. Ces ambiguïtés sont levées automatiquement par le système, qui attribue, de proche en proche, les catégories grammaticales des termes.

5. Reconnaissance des mots composés
SPIRIT calcule et indexe dynamiquement l'ensemble des mots composés (ou groupes nominaux) du corpus grâce à un dictionnaire de règles de dépendances linguistiques. Cette étape permet de présenter des documents réellement pertinents à l'utilisateur en fonction de sa question.

6. Normalisation, ie. lemmatisation : Après élimination des mots outils sur des critères syntaxiques et morphologiques, les mots significatifs restant dans le texte sont normalisés et indexés.

7. Analyse statistique de la base : Après la normalisation, le module statistique attribue à chaque concept (monoterme ou multiterme) un poids qui mesure son pouvoir informationnel dans la base. Cette analyse statistique a un objectif double : ordonner les documents par ordre de pertinence, et positionner le document sur la page la plus dense en concepts présents dans la question.
8. Reformulation : Le module de reformulation permet d'étendre le champ sémantique de la question à des expressions équivalentes..

C. Caractéristiques techniques
Les API de SPIRIT sont disponibles pour les projets nécessitant une intégration du produit, et permettent notamment de développer autour du moteur SPIRIT des interfaces utilisateurs différentes de celle qui est fournie en standard par T.GID.

1. Les versions et les modules de SPIRIT
Actuellement, les modules disponibles sont :
- SPIRIT version 1.4 (module de base)
- Module de reformulation de la question.
- Module d'intégration de données SPID version 2.0
- Dictionnaire général Français ou Anglais
- Module SPI-PRESS (permettant de générer à partir de bases créées avec SPIRIT des fichiers utilisables pour presser des CD-ROM, en vue de la diffusion des bases pour consultation)
- Module SPIRIT W3 (permettant de mettre à disposition sur Internet les bases SPIRIT)
Informations technique
Support : CD-Rom
FTP
Type de machine : PC
Gros systèmes IBM MVS-TSO
Système : Unix
Windows 3.1 95/98 NT 3.5/4.0
Mémoire Minimum : 32 Mo
Intégration
Autonomie :
Intégration possible dans : Interfaces de type : NETSCAPE, MOSAIC ou Microsoft Explorer
Disponibilité commerciale, technique et légale
Disponibilité :
Contraintes :
Documentation en ligne :
Documentation en braille :
Documentation en français :
Utilisateurs potentiels : Utilisateur final, Intégrateur,