Retour au format normal

NORMALANGUE - RNIL

18 novembre 2003

Technolangue.net

 

Ressources Normalisées en Ingénierie Linguistique

Fiche du 18 novembre 2003



Thème de l'action
Normes et standards
Début du projet
23 janvier 2003
Durée du projet
36 mois
 
Résumé
L'objectif principal du projet est de contribuer à définir des normes internationales dans le domaine de l'ingénierie linguistique au sein du nouveau comité TC37/SC4, ainsi qu'à les valider et à les diffuser. Il doit permettre en particulier à la communauté académique et industrielle impliquée dans la réalisation ou l'intégration de composants d'ingénierie linguistique de bénéficier de l'environnement nécessaire qui garantisse l'interopérabilité entre de tels composants. Plus précisément, il s'agit de mettre en place un véritable réseau national de coopération dans le domaine de la normalisation des ressources linguistiques, qui agisse à trois niveaux :
La participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques, sous la forme d'un groupe miroir français au TC37/SC4 qui regroupe équipes de recherche en traitement automatique des langues, grandes entreprises investissant dans les technologies concernées et sociétés de technologie développant des composants dans le domaine de l'ingénierie linguistique ;
La validation des propositions normatives par le développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l'industrie ainsi que la production de jeux de test ;
La diffusion d'informations vers la communauté nationale et plus largement francophone sur l'état d'avancement des travaux et les résultats obtenus au sein du TC37/SC4, par la production d'une lettre d'information électronique régulière et l'organisation de séminaires techniques ;

Objectifs
L'objectif principal du projet est de contribuer à définir des normes internationales dans le domaine de l'ingénierie linguistique au sein du nouveau comité TC37/SC4, ainsi qu'à les valider et à les diffuser. Il doit permettre en particulier à la communauté académique et industrielle impliquée dans la réalisation ou l'intégration de composants d'ingénierie linguistique de bénéficier de l'environnement nécessaire qui garantisse l'interopérabilité entre de tels composants. Plus précisément, il s'agit de mettre en place un véritable réseau national de coopération dans le domaine de la normalisation des ressources linguistiques, qui agisse à trois niveaux : La participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques, sous la forme d'un groupe miroir français au TC37/SC4 qui regroupe équipes de recherche en traitement automatique des langues, grandes entreprises investissant dans les technologies concernées et sociétés de technologie développant des composants dans le domaine de l'ingénierie linguistique ;
La validation des propositions normatives par le développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l'industrie ainsi que la production de jeux de test ;
La diffusion d'informations vers la communauté nationale et plus largement francophone sur l'état d'avancement des travaux et les résultats obtenus au sein du TC37/SC4, par la production d'une lettre d'information électronique régulière et l'organisation de séminaires techniques ;
Ces trois points font l'objet d'une description détaillée dans les sections suivantes.

Mise en œuvre et état de l'art
Normalisation des ressources linguistiques : rapide état des lieux

La présente proposition fait écho dans son analyse aux termes même de l'appel d'offre Technolangue dans son volet « Normes et standards » en ce qu'il identifie comme cruciale la normalisation effective des données manipulées en ingénierie linguistique. Aussi bien l'industrie spécialisée dans ce domaine (correction orthographique et grammaticale, traduction automatique, fournisseur d'outils d'extraction d'information, industrie de la localisation etc.) que les entreprises devant intégrer des étapes de traitement de la langue (pour la gestion de gros volumes documentaires par exemple) ou les chercheurs en linguistique ou en informatique linguistique doivent pouvoir disposer de ressources linguistiques directement exploitables ainsi que d'outils de traitement réutilisables, c'est-à-dire pour lesquels la quantité de ré-ingénierie nécessaire pour les intégrer dans des applications plus importantes ou connexes est faible, voire négligeable.

L'actualité dans le domaine de la normalisation des ressources linguistiques : mise en place du TC37/SC4

Dans la lignée des travaux effectués dans le domaine de la terminologie au sein de son comité technique 371, l'ISO a validé en août 2001 la création d'un nouveau sous-comité (TC37/SC4) entièrement dédié à la normalisation dans le domaine des ressources linguistiques. Ce comité, qui vise à couvrir le plus largement possible l'ensemble des besoins des industries identifiées ci-dessus, doit se mettre officiellement en place lors de sa réunion de lancement à la fin du mois de mai 2002. À partir de cette date, des groupes de travail se mettront progressivement en place au niveau international pour définir les futures normes du domaine, conformément au plan d'activité fourni en annexe à cette réponse2. Le secrétariat du TC37/SC4 est assuré par la Corée (Prof. Key-Sun Choi) et la présidence en a été confiée récemment à Laurent Romary.
La présente réponse à l'appel d'offre Technolangue vise donc à profiter de ces circonstances favorables pour mettre en place au niveau national une initiative d'accompagnement des travaux à venir au sein du TC37/SC4.

Méthodologie générale proposée

L'analyse menée dans la section précédente (qui reprend les éléments de discussion abordés lors des premières réunions de mise en place du TC37/SC4), ainsi que l'étude des initiatives existant dans le domaine de la standardisation des ressources linguistiques montrent qu'il n'est pas envisageable de normaliser de façon trop stricte des formats spécifiques de représentation. Bien sûr, XML apparaît comme le candidat idéal pour fournir une syntaxe de référence à tout format d'échange de données semi-structurées, et apporte avec lui un ensemble de mécanismes (liens et pointeurs, langage de transformation, schémas de contrôle des structures, etc.) qui correspond de très près aux besoins déjà identifiés dans le domaine des ressources linguistiques. Il n'est cependant pas possible d'imaginer qu'une DTD ou un schéma XML particulier, par exemple pour la représentation des annotations morpho-syntaxiques, pourra satisfaire l'ensemble des besoins académiques et industriels dans un niveau de représentation donné. Même une initiative aussi ambitieuse que MATE, qui prônait une extrême modularité, a montré ses limites, ses schémas d'annotation se révélant inapplicables à d'autres contextes.

Projets nationaux sur lesquels cette initiative doit s'appuyer

La mise en place d'un groupe miroir du TC37/SC4 et d'actions spécifiques afférentes à la définition et à la diffusion de normes dans le domaine des ressources linguistiques est bien sûr complémentaire de l'implication d'équipes françaises dans le cadre de nombreux projets nationaux et internationaux. Afin de garantir une implication effective d'experts et de sociétés aux travaux du groupe miroir, nous souhaitons cependant nous adosser à un certain nombre d'initiatives particulières qui serviront tout autant de sites de validation pour les propositions normatives en cours, que de lieux d'émergence de besoins et d'idées pour des normes à venir. Parmi ces initiatives, on peut citer l'action de développement sur le document mise en place par l'INRIA, les projets RNTL XMiner et Outilex, l'ARC RLT (Ressources linguistiques pour les TAG) de l'INRIA, les actions spécifiques Asila et Ananas du CNRS, ainsi que les propositions soumises dans le cadre des autres volets de l'appel Technolangue.
Enfin, le présent projet contribuera activement à mettre en place et à développer la plate-forme de services sur les standards et les normes (standardmedia) portée par l'AFNOR, qui fait l'objet d'une réponse spécifique à l'appel Technolangue pour le volet « veille technologique ».

Organisation
Par essence, il est difficile d'établir un plan de travail précis pour une activité qui s'adosse à une initiative internationale qui vient elle-même de se constituer. Les éléments suivants serviront à établir un tableau de bord des activités du groupe miroir, qui fournira en particulier un rapport annuel d'activité.
Année 1 : mise en place du groupe, accueil d'une réunion du WG1, mise en place des équipes de validation logicielle et de production de jeux de test, modèles généraux (UML, API), premiers jeux de test, workshop national de prospective autour de la normalisation des ressources linguistiques (si possible de façon conjointe à la conférence TALN)
Année 2 : accueil de la réunion plénière du TC37/SC4, accueil d'une réunion d'un WG, diffusion de notes de synthèse sur les normes en cours de définition, diffusion des premières interfaces logicielles et des suites de test associées.
Année 3 : accueil d'une réunion d'un WG, tests d'interopérabilité en lien avec les plates-formes e-linguist et Codex, organisation d'un tutoriel sur la normalisation des ressources linguistiques (probablement en lien avec la conférence TALN), production d'un rapport d'étape sur l'avancement du TC37/SC4.

Retombées du projet


Etat d'avancement


Partenaires du projet
  LORIA
INRIA
AFNOR
ATILF
LLF Jussieu
IRIN
LIMSI
CLIPS
RESO
CEA
XRCE
EDF R&D
SYSTRAN
France Telecom R&D
Systems & Defence Electronics
SOFTISSIMO
SINEQUA
LUCID-ID
J-WAY
 
Contact
  LORIA
Laurent ROMARY
03 83 59 20 37
laurent.romary@loria.fr
www.loria.fr