Typologie : Catégorie : Langues : Organisme : Description : CorTeCs est un éditeur de segmentation et d'annotations de textes enrichis et encodés en SGML.
L'annotation des mots du texte suppose que chaque unité lexicale du texte soit définie (i.e. soit distinguée des autres dans le texte). C'est ce qu'on appelle la segmentation des unités lexicales dans CorTeCs. Une fois la segmentation établie, on peut alors associer à chaque segment une ou plusieurs informations. Dans CorTeCs une information associée à une unité lexicale prend la forme d'un couple (nom, valeur) appelé attribut. C'est à dire que chaque unité lexicale peut recevoir n'importe quelle information sous la forme d'un attribut pourvu que chaque information (ou attribut donc) se distingue des autres par un nom, si possible représentatif de ce qu'il désigne, et d'une valeur associée à ce nom.
En plus de la segmentation du texte en unités lexicales et leur annotation, les chercheurs de l'ENS se sont intéressés à un deuxième niveau de segmentation du texte s'appuyant sur le premier. Ce travail consiste au repérage des limites de phrases qui offrent une première approximation de contextes de cooccurrence d'unités lexicales plus intéressante que celle offerte habituellement par les techniques de fenêtres glissantes de n unités et de taille fixe. Donc, dans CorTeCs, un texte est toujours segmenté en deux niveaux imbriqués. D'une part le niveau des unités lexicales qui sont composées des caractères du texte, et d'autre part celui des phrases qui sont à leur tour composées des unités lexicales.
L'objet du programme CorTeCs est d'assister l'édition des deux niveaux de segmentation d'un texte et l'annotation des unités lexicales et donc, d'une part, d'assister la correction des erreurs de segmentation et d'étiquetage des divers outils de TAL appliqués à des textes pour réaliser les segmentations et annotations voulues mais dont les résultats ne sont jamais exempts d'erreurs, d'autre part, d'assister l'annotation manuelle des unités lexicales avec des informations liées à une recherche particulière et qui peuvent ne pas pouvoir encore bénéficier des résultats d'applications d'outils de TAL. |
|