Constitution et exploitation d'un dictionnaire relationnel multilingue de noms propres
|
Fiche du 17 février 2005
|
|
|
|
Résumé
|
La production, la diffusion, le traitement automatisé et l'exploitation de l'information électronique sont très largement conditionnés par la disponibilité de ressources linguistiques adaptées et de composants
logiciels performants. L'importance de ces ressources linguistiques est indéniable. Cependant, l'effort essentiel de la communauté scientifique TAL a porté jusqu'à présent sur des ressources dictionnairiques de noms
communs et sur des ressources terminologiques spécialisées. Nous proposons, à travers ce projet, d'introduire des connaissances sur les noms propres, qui constituent, à eux seuls, 10 % des textes journalistiques et
qui sont porteurs d'une riche sémantique.
|
Objectifs
|
- La constitution d'un dictionnaire relationnel multilingue de noms propres, Prolexbase, dont la conception a
été réalisée à partir d'une ontologie des noms propres. L'implantation de cette base s'est faite sous MySQL et va donner
lieu à la définition d'un format d'échange XML. Pour gérer convenablement l'aspect multilingue, les noms propres sont
codés en Unicode (UTF-16). Différents outils de gestion de cette base ont été implantés (Tln_prolexbase) et la base Prolex
peut être consultée en ligne. Par la suite, nous comptons y ajouter la possibilité d'envoyer des requêtes automatiques par des fichiers XML.
- Une réflexion sur la manière dont les noms propres pourraient être intégrés à un kit de ressources linguistiques minimales, pour une langue donnée et, probablement, pour une période donnée. En effet, on peut
imaginer, à la lecture des journaux, qu'il existe une catégorie de noms propres dont la notoriété est liée à un patrimoine culturel national (Molière, Paris, Napoléon Bonaparte…), alors que d'autres
semblent avoir une notoriété liée à l'actualité : les noms propres indispensables pour l'étude d'un corpus journalistique d'une année donnée peuvent se révéler inutiles quelques années plus tard. Ce " BLARK " spécifique de noms propres serait donc constitué d'un noyau et de modules situés dans le temps.
- La réalisation d'outils d'extraction de noms propres sur des ressources journalistiques et sur la Toile
francophone (ou un sous-ensemble significatif prédéfini de ce dernier). Ces travaux ont été implantés par Exalead et sont aussi disponibles à l'université François-Rabelais de Tours pour les logiciels Intex et Unitex.
- Les travaux futurs vont porter sur la création de transducteurs destinés à la reconnaissance automatique des noms propres et à leur étiquetage sous un format XML.
- L'exploitation de ces ressources linguistiques dans le cadre de logiciels d'aide à la rédaction
(correcteurs d'orthographe), de systèmes de recherche d'information, de systèmes d'aide à la traduction ou de
traduction automatique, de système d'alignement de texte multilingue.
|
Mise en œuvre et état de l'art
|
Les ressources dictionnairiques sont en général indispensables au traitement automatique des langues, même si certains composants logiciels n'utilisent que des corpus d'apprentissage et des traitements statistiques. Ces dictionnaires contiennent des noms communs (comme le système DELA de dictionnaires électroniques) ou des termes spécifiques à un domaine, même si, dans ce cas, le dictionnaire sert souvent
d'amorce à un système de découverte de nouveau termes. Mais qu'en est-il des noms propres ? Bien qu'ils constituent, à eux seuls, plus de 10 % des textes journalistiques, ceux-ci sont souvent absents de ces dictionnaires, même dans les applications multilingues où prévaut parfois l'idée fausse que les noms propres ne se traduisent pas.
Faut-il associer les noms propres et les mots inconnus capitalisés (du moins pour le français) ? Cette association n'est vraie qu'une fois sur deux, à cause de la présence d'homographes et de mots polylexicaux. Or la recherche d'information, l'extraction d'information ou l'aide à la traduction nécessitent de délimiter précisément les noms propres, de les catégoriser et même, parfois, de les
relier entre eux. Faut-il alors n'utiliser pratiquement que des règles avec une liste minimum de noms propres ? Bien sûr, une liste exhaustive de noms propres est impossible, mais un juste équilibre entre listes et règles est certainement souhaitable. Nous avons choisi de développer les deux approches, dans le cadre d'une plate-forme technologique consacrée au traitement automatique des noms propres.
Précisons tout d'abord que nos entrées correspondent à la définition de Jonasson pour qui toute expression associée dans la mémoire à long terme à un particulier en vertu d'un lien dénominatif conventionnel stable est un nom propre. Cette définition inclut les noms propres descriptifs qui résultent souvent de la composition d'un nom propre avec une expansion, comme Tour Eiffel ou Musée Rodin, ou semblent
être des descriptions définies figées ou en cours de figement, comme Pont Neuf ou Médecins sans frontière. Elle est proche de celle des entités nommées, largement utilisée dans le monde du TAL depuis les conférences MUC (aux dates et unités chiffrées près).
Pour permettre une création et une gestion cohérente de ce dictionnaire, il est nécessaire d'identifier les
concepts et les relations du domaine des noms propres, tout en distinguant ce qui dépend de la langue de ce qui
en est indépendant. Cela nous a conduit à adopter une démarche ontologique.
|
Organisation
|
Lot 1 - Spécifications (réalisé)
Lot 2 - Constitution de ressources (en cours)
Lot 3 - Création d'outils (réalisé)
Lot 4 - Tests (à réaliser)
Lot 5 - Intégration
|
Retombées du projet
|
Le projet a pour but la réalisation d'une plate-forme technologique pour le traitement automatique des noms propres. A partir de notre ontologie, nous avons implanté une base de données relationnelle multilingue de noms propres, qui est accessible par Internet. Nous travaillons aussi sur la mise en place d'un format XML d'échange de données. Des accords pour l'utilisation ou la diffusion de cette base pourront être conclus. Les outils logiciels développés par l'Université de Tours pourront aussi être diffusés.
L'organisation de notre ontologie en deux parties, conceptuelle et morphologique, et la présence de
relations entre noms propres permettra le développement d'outils d'aide à l'utilisateur (pour la rédaction ou
la traduction) ou de traitement automatique des langues (étiquetage, traitement des coréférences, recherche
d'information, traduction automatique, alignement de textes multilingues…).
|
Etat d'avancement
|
Résultats obtenus à ce jour
|
Le but ultime de notre projet est de réaliser une plate-forme technologique pour le traitement automatique des noms propres. Il a fallu dans un premier temps définir une ontologie, puis créer un modèle conceptuel de donnée. Actuellement, notre base donnée relationnelle est en cours de remplissage. La base comprend plus de 51 000 prolexèmes et plus de 119 000 instances pour le français. Il existe dans la base plus de 44 000 relations de méronymie, plus de 2 000 relations de prédication et environ 200 relations de synonymie. Nous avons aussi dans notre base des noms de ville et de pays en allemand (743), anglais (786), espagnol (746), hollandais (691), italien (756), portugais (527). Nous sommes en train d'insérer des noms propres en serbe (actuellement, environ 900, sans compter les dérivés).
Cette base de données relationnelle multilingue est accessible par Internet (Prolex).
La première étape de la construction de notre dictionnaire multilingue de noms propres a consisté à modéliser le domaine des noms propres sous la forme d'une ontologie qui peut être divisée en deux parties (commune aux langues traitées et particulière à une langue donnée).
La partie commune aux langues traitées s'organise autour d'un concept que nous appellerons nom propre conceptuel ou pivot, correspondant à un certain point de vue sur le référent linguistique d'un nom propre (variété relative au temps, à la stratification socio-culturelle…). On retrouve cette approche par pivot dans de nombreux autres projets: Eurotra , EuroWordnet et Balkanet, Papillon, etc.
Chaque nom propre conceptuel est en relation d'hyponymie avec un type (classification des noms propres : Organisation, Pays…) et une essence (fictif, historique ou religieux). Autour du pivot se trouvent trois relations : synonymie, méronymie et accessibilité. Par exemple, France et République française sont en relation de synonymie diaphasique. La méronymie indique que la ville de Tours est dans l'Indre et Loire. La relation d'accessibilité permet de préciser que Paris est la capitale de la France.
La partie particulière à une langue donnée reflète les différents mécanismes morphologiques, dérivationnels et les variations sur les noms propres dans les différentes langues.
Le concept de prolexème représente le lemme correspondant aux différentes formes d'un nom propre que l'on peut trouver dans un texte. Les alias constituent les différentes variations possibles à partir du prolexème. A partir du prolexème et des alias, il est parfois possible de créer des formes dérivées : adjectif relationnel (français), nom relationnel (Français) ou préfixe (franco-) pour le cas du français. Dans d'autres langues comme le serbe, le même prolexème contient d'autres sortes de dérivés (des adjectifs possessifs, mais pas de préfixes). La relation entre les prolexèmes permet par exemple de traduire la phrase To je Beogradjaninov auto par c'est la voiture d'un habitant de Belgrade alors que le mot Beogradjaninov est un adjectif possessif. Les instances correspondent à l'ensemble des formes fléchies du prolexème, des alias et des dérivés.
La deuxième étape dans la construction de notre dictionnaire multilingue de noms propre a consisté à créer un modèle conceptuel de données à partir des différents concepts et relations définis dans l'ontologie.
En fonction de la langue, le prolexème peut être accompagné de quelques informations supplémentaires : l'hyperonymie par le lexique général (la Seine et la rivière Kwaï deviennent en anglais the river Seine et the river Kwai), l'éponymie (antonomase -un frigidaire-, figement -fort comme Hercule- et terminologie -théorème de Pythagore-), les règles de tri (le nom propre Mer d'Aral à la lettre A et non la lettre M), de flexion, d'aliasisation et de dérivation, etc.
Une fois que la phase de remplissage de cette base sera terminée, nous envisageons de développer des outils pour le traitement automatique des noms propres dans des textes. Nous pensons utiliser notre base de données sous forme de transducteurs à nombre fini d'états pour analyser un texte, puis insérer dans le texte un format d'étiquette XML, inspirée de la TEI, qui permettra à d'autres applications d'analyser les étiquettes. Nous envisageons aussi de développer des applications d'aide à la rédaction et à la traduction, la traduction automatique, la recherche d'information multilingue, l'alignement de textes multilingues, l'indexation des noms propres, etc.
|
Publications
|
Publications d'audience internationale :
- Grass T., Maurel D., Tran M. (2004), Prolexbase : Une ontologie pour le traitement multilingue des noms propres, Linguistica Antverpiensia, NS3:293-309.
- Tran M., Maurel D., Savary A. (2005), Implantation d'un tri lexical respectant la particularité des noms propres, Lingvisticae Investigationes, XXVIII-2 (à paraître).
|
Communications internationales avec comité de lecture :
- Grass T., Maurel D. (2004), A multilingual electronic dictionary of proper nouns for translation purposes, Third International Conference on International Translation, Barcelone, Espagne, 4-6 mars.
- Maurel D. (2004), Les mots inconnus sont-ils des noms propres ?, Septièmes Journées internationales d'Analyse statistique des Données Textuelles (JADT 2004), Louvain-la-Neuve, Belgique, 10-12 mars.
- Tran M., Grass T., Maurel D. (2004), An ontology for multilingual treatment of proper names, Ontologies and Lexical Resources in Distributed Environments (OntoLex 2004), in Association with LREC2004 (Actes p. 75-78), Lisbonne, Portugal, 29 mai.
- Krstev S., Vitas D., Maurel D., Tran M. (2005), Multilingual Ontology of Proper Names, Second Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznan, Poland, 21-23 avril.
- Bouchou B., Tran M., Maurel D. (2005), Towards an XML Representation of Proper Names and Their Relationships, Tenth International Conference on Applications of Natural Language to Information Systems (NLDB'2005), Alicante, Spain, 15-17 juin, in Lecture Notes in Computer Science, 3513.
- Tran M., Maurel D., Vitas D., Krstev S. (2005), A French-Serbian Web Collaborative Work on a Multilingual Dictionary of Proper Names, Papillon 2005 workshop on Multilingual Lexical Databases, in Association with the Sixth Symposium on Natural Language Processing (SNLP 2005), Chiang Rai, Thailande, 12-14 décembre.
|
|
Contact
|
|
Professeur Denis MAUREL
Laboratoire d'informatique (LI) de l'Université François-Rabelais de Tours (EA 2101)
EPU-DI, 64 avenue Portalis, 37200 Tours
Téléphone : 02.47.36.14.35
Site du Tln
|
|
|
|
|