17 février 2005
Technolangue.net
Constitution et exploitation d'un dictionnaire relationnel multilingue de noms propres
|
|||||||||||||
Fiche du 17 février 2005
|
|||||||||||||
Résumé | Objectifs | Mise en oeuvre et état de
l'art | Organisation | Retombées | Avancement | Publications | Partenaires | Contacts
|
|||||||||||||
|
|||||||||||||
Résumé | |||||||||||||
La production, la diffusion, le traitement automatisé et l'exploitation de l'information électronique sont très largement conditionnés par la disponibilité de ressources linguistiques adaptées et de composants logiciels performants. L'importance de ces ressources linguistiques est indéniable. Cependant, l'effort essentiel de la communauté scientifique TAL a porté jusqu'à présent sur des ressources dictionnairiques de noms communs et sur des ressources terminologiques spécialisées. Nous proposons, à travers ce projet, d'introduire des connaissances sur les noms propres, qui constituent, à eux seuls, 10 % des textes journalistiques et qui sont porteurs d'une riche sémantique. |
|||||||||||||
Objectifs | |||||||||||||
|
|||||||||||||
Mise en œuvre et état de l'art | |||||||||||||
Les ressources dictionnairiques sont en général indispensables au traitement automatique des langues, même si certains composants logiciels n'utilisent que des corpus d'apprentissage et des traitements statistiques. Ces dictionnaires contiennent des noms communs (comme le système DELA de dictionnaires électroniques) ou des termes spécifiques à un domaine, même si, dans ce cas, le dictionnaire sert souvent d'amorce à un système de découverte de nouveau termes. Mais qu'en est-il des noms propres ? Bien qu'ils constituent, à eux seuls, plus de 10 % des textes journalistiques, ceux-ci sont souvent absents de ces dictionnaires, même dans les applications multilingues où prévaut parfois l'idée fausse que les noms propres ne se traduisent pas. Faut-il associer les noms propres et les mots inconnus capitalisés (du moins pour le français) ? Cette association n'est vraie qu'une fois sur deux, à cause de la présence d'homographes et de mots polylexicaux. Or la recherche d'information, l'extraction d'information ou l'aide à la traduction nécessitent de délimiter précisément les noms propres, de les catégoriser et même, parfois, de les relier entre eux. Faut-il alors n'utiliser pratiquement que des règles avec une liste minimum de noms propres ? Bien sûr, une liste exhaustive de noms propres est impossible, mais un juste équilibre entre listes et règles est certainement souhaitable. Nous avons choisi de développer les deux approches, dans le cadre d'une plate-forme technologique consacrée au traitement automatique des noms propres. Précisons tout d'abord que nos entrées correspondent à la définition de Jonasson pour qui toute expression associée dans la mémoire à long terme à un particulier en vertu d'un lien dénominatif conventionnel stable est un nom propre. Cette définition inclut les noms propres descriptifs qui résultent souvent de la composition d'un nom propre avec une expansion, comme Tour Eiffel ou Musée Rodin, ou semblent être des descriptions définies figées ou en cours de figement, comme Pont Neuf ou Médecins sans frontière. Elle est proche de celle des entités nommées, largement utilisée dans le monde du TAL depuis les conférences MUC (aux dates et unités chiffrées près). Pour permettre une création et une gestion cohérente de ce dictionnaire, il est nécessaire d'identifier les concepts et les relations du domaine des noms propres, tout en distinguant ce qui dépend de la langue de ce qui en est indépendant. Cela nous a conduit à adopter une démarche ontologique. |
|||||||||||||
Organisation | |||||||||||||
Lot 1 - Spécifications (réalisé) Lot 2 - Constitution de ressources (en cours) Lot 3 - Création d'outils (réalisé) Lot 4 - Tests (à réaliser) Lot 5 - Intégration |
|||||||||||||
Retombées du projet | |||||||||||||
Le projet a pour but la réalisation d'une plate-forme technologique pour le traitement automatique des noms propres. A partir de notre ontologie, nous avons implanté une base de données relationnelle multilingue de noms propres, qui est accessible par Internet. Nous travaillons aussi sur la mise en place d'un format XML d'échange de données. Des accords pour l'utilisation ou la diffusion de cette base pourront être conclus. Les outils logiciels développés par l'Université de Tours pourront aussi être diffusés. L'organisation de notre ontologie en deux parties, conceptuelle et morphologique, et la présence de relations entre noms propres permettra le développement d'outils d'aide à l'utilisateur (pour la rédaction ou la traduction) ou de traitement automatique des langues (étiquetage, traitement des coréférences, recherche d'information, traduction automatique, alignement de textes multilingues…). |
|||||||||||||
Etat d'avancement | |||||||||||||
Résultats obtenus à ce jour | |||||||||||||
Le but ultime de notre projet est de réaliser une plate-forme technologique pour le traitement automatique des noms propres. Il a fallu dans un premier temps définir une ontologie, puis créer un modèle conceptuel de donnée. Actuellement, notre base donnée relationnelle est en cours de remplissage. La base comprend plus de 51 000 prolexèmes et plus de 119 000 instances pour le français. Il existe dans la base plus de 44 000 relations de méronymie, plus de 2 000 relations de prédication et environ 200 relations de synonymie. Nous avons aussi dans notre base des noms de ville et de pays en allemand (743), anglais (786), espagnol (746), hollandais (691), italien (756), portugais (527). Nous sommes en train d'insérer des noms propres en serbe (actuellement, environ 900, sans compter les dérivés). Cette base de données relationnelle multilingue est accessible par Internet (Prolex). La première étape de la construction de notre dictionnaire multilingue de noms propres a consisté à modéliser le domaine des noms propres sous la forme d'une ontologie qui peut être divisée en deux parties (commune aux langues traitées et particulière à une langue donnée). La partie commune aux langues traitées s'organise autour d'un concept que nous appellerons nom propre conceptuel ou pivot, correspondant à un certain point de vue sur le référent linguistique d'un nom propre (variété relative au temps, à la stratification socio-culturelle…). On retrouve cette approche par pivot dans de nombreux autres projets: Eurotra , EuroWordnet et Balkanet, Papillon, etc. Chaque nom propre conceptuel est en relation d'hyponymie avec un type (classification des noms propres : Organisation, Pays…) et une essence (fictif, historique ou religieux). Autour du pivot se trouvent trois relations : synonymie, méronymie et accessibilité. Par exemple, France et République française sont en relation de synonymie diaphasique. La méronymie indique que la ville de Tours est dans l'Indre et Loire. La relation d'accessibilité permet de préciser que Paris est la capitale de la France. La partie particulière à une langue donnée reflète les différents mécanismes morphologiques, dérivationnels et les variations sur les noms propres dans les différentes langues. Le concept de prolexème représente le lemme correspondant aux différentes formes d'un nom propre que l'on peut trouver dans un texte. Les alias constituent les différentes variations possibles à partir du prolexème. A partir du prolexème et des alias, il est parfois possible de créer des formes dérivées : adjectif relationnel (français), nom relationnel (Français) ou préfixe (franco-) pour le cas du français. Dans d'autres langues comme le serbe, le même prolexème contient d'autres sortes de dérivés (des adjectifs possessifs, mais pas de préfixes). La relation entre les prolexèmes permet par exemple de traduire la phrase To je Beogradjaninov auto par c'est la voiture d'un habitant de Belgrade alors que le mot Beogradjaninov est un adjectif possessif. Les instances correspondent à l'ensemble des formes fléchies du prolexème, des alias et des dérivés. La deuxième étape dans la construction de notre dictionnaire multilingue de noms propre a consisté à créer un modèle conceptuel de données à partir des différents concepts et relations définis dans l'ontologie. En fonction de la langue, le prolexème peut être accompagné de quelques informations supplémentaires : l'hyperonymie par le lexique général (la Seine et la rivière Kwaï deviennent en anglais the river Seine et the river Kwai), l'éponymie (antonomase -un frigidaire-, figement -fort comme Hercule- et terminologie -théorème de Pythagore-), les règles de tri (le nom propre Mer d'Aral à la lettre A et non la lettre M), de flexion, d'aliasisation et de dérivation, etc. Une fois que la phase de remplissage de cette base sera terminée, nous envisageons de développer des outils pour le traitement automatique des noms propres dans des textes. Nous pensons utiliser notre base de données sous forme de transducteurs à nombre fini d'états pour analyser un texte, puis insérer dans le texte un format d'étiquette XML, inspirée de la TEI, qui permettra à d'autres applications d'analyser les étiquettes. Nous envisageons aussi de développer des applications d'aide à la rédaction et à la traduction, la traduction automatique, la recherche d'information multilingue, l'alignement de textes multilingues, l'indexation des noms propres, etc. |
|||||||||||||
Publications | |||||||||||||
Publications d'audience internationale :
|
|||||||||||||
Communications internationales avec comité de lecture :
|
|
|