Typologie : Recherche d'information Catégorie : Produit/Logiciel Langues : anglais
Organisme : Arisem Description : Les informations disponibles aujourd'hui sur le WorldWideWeb sont chaque jour plus riches et plus nombreuses, mais les moyens permettant d'y accéder rapidement sont souvent insuffisants. Quiconque a déjà " surfé " est à même de le constater. De plus, les serveurs offrent un débit d'accès très variable suivant leur localisation géographique et les périodes de la journée...(On constate en effet que beaucoup de sites, notamment américains sont inutilisables l'après-midi en Europe).
Pour résoudre ces problèmes, ARISEM a créé une application, basée sur sa technologie L4U, nommée DigOut4U, capable de récupérer automatiquement les pages Web dont le contenu sémantique correspond à une directive tapée en langage naturel par l'utilisateur, ceci en utilisant le maximum des capacités de sa connexion.
DigOut4U utilise, de façon paramétrable, les moteurs de recherche disponibles sur le Web (AltaVista, Hot Bot, ...) à la façon des " Méta-Searchers ", mais en générant une requête " explosée " à partir du contenu de la directive. (Par exemple, pour la directive " mafia en Amérique Latine ", le système générera automatiquement une requête en texte intégral du type (Argentine OU Brésil ...) ET (mafia OU drogue OU trafiquant...) dont la complexité dépend des possibilités du searcher, et ceci dans les différentes langues visées.
Ces searchers vont renvoyer des listes de réponses. DigOut4U rapatrie et analyse ensuite automatiquement les pages référencées dans ces listes, puis extrait les liens qu'elles contiennent pour obtenir de nouvelles références. L'opération est renouvelée sur ces nouvelles références.
Les pages récupérées sont classées en temps réel par ordre de pertinence et peuvent être consultées à tout moment (pendant la consultation, DigOut4U continue sa recherche).
Pour être efficace, ce système utilise une heuristique sémantico-pragmatique de calcul de poids de recherche utilisant schématiquement :
La pertinence de la page
La pertinence des documents qui référencent la page
La pertinence globale du serveur qui héberge la page
Le débit du serveur qui héberge la page
DigOut4U utilise la technologie du " multi-threading " de Windows NT et 95, afin d'effectuer plusieurs accès simultanés aux pages Web, ce qui permet d'exploiter au mieux le débit autorisé par la connexion. Dans le cas d'un modem, DigOut4U atteint soit la limite physique du modem, soit la bande passante allouée par le provider
DigOut4U est bilingue français/anglais et deviendra à terme multilingue. Le système analyse la requête en identifiant automatiquement la langue dans laquelle elle est formulée. A partir de cette analyse, il génère deux requêtes en texte intégral (une en français, une en anglais) en exploitant le contenu de la base de connaissance. Ces requêtes peuvent être modifiées indépendamment de la requête initiale avant d'être envoyées aux searchers.
DigOut4U autorise plusieurs recherches simultanées sur des requêtes différentes.
Il permet également de définir des stratégies de recherche, une liste personalisée des sites soit à " creuser " en priorité, soit au contraire à rejeter d'emblée, l'ajout de moteurs spécifiques. Il offre la possibilité de définir des alertes permettant d'avertir l'utilisateur lorsqu'un document pertinent a été récupéré.
Enfin, DigOut4U accélère le contrôle des résultats en permettant une visualisation directe les document pertinents rapatriés sur le disque à l'aide d'un browser HTML quelconque ou à l'aide du browser intégré natif. Pour finir, il propose d'exporter les résultats sous forme de liste par degré de pertinence décroissant, avec si on le souhaite un extrait du texte qui souligne la pertinence par rapport à la question de la recherche. |
|