Ressources linguistiques monolingues et bilingues français - arabe, anglais, allemand, italien, espagnol, grec (European Arabic Dictionaries and Corpora)
|
Thème de l’action : Ressources linguistiques
|
|
|
Résumé
|
Les ressources linguistiques (dictionnaires et corpus) qu’il s’agit de mettre en forme et de développer (transcodage, reformatage, vérification et mise à jour, élaboration, ...) s’articulent autour du français pris comme « pivot ». Les ressources attendues sont les suivantes :
- Dictionnaires généraux monolingues d’au moins 80 000 lemmes en français, allemand, anglais, espagnol et italien
- Dictionnaires généraux bilingues d’au moins 90 000 couples de mots en français-allemand, français-anglais, français-arabe, français-espagnol, français-italien
- Enrichissement d’un dictionnaire de spécialité dans le domaine du sport en français, anglais, allemand, espagnol, grec et arabe
- Corpus : Corpus parallèle non apparié d’environ 2x100 000 mots français-arabes avec partie arabe voyellée.
|
Résultats
|
Les ressources linguistiques suivantes ont été développées :
- Dictionnaires monolingues français, anglais, espagnol, allemand, italien (désormais disponibles auprès d’ELRA, voir descriptions et liens ci-dessous)
- Dictionnaires bilingues français/anglais, espagnol, allemand, italien (désormais disponibles auprès d’ELRA, voir descriptions et liens ci-dessous)
- Dictionnaire bilingue français/arabe
- Dictionnaire des sports
- Base multilingue anglais – français – grec – arabe – allemand – espagnol – portugais
- Base bilingue anglais-français
- Base trilingue anglais-français + autre langue
- Corpus arabe
- Dictionnaires monolingues français, anglais, espagnol, allemand, italien
Un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …)
Une analyse de mots inconnus a été réalisée sur différents types de corpus, document de presse, base de données sur l’eau et le tourisme durable, site web de la direction de la recherche technologique du CEA, retranscription de journaux télévisés, groupes de news. Le dépouillement des listes de mots rejetés a permis de détecter un certain nombre d’erreurs. Ce travail est assez long du fait que la plupart des mots rejetés sont soit des fautes de frappe très nombreuses dans les sites web, soit des mots d’une autre langue, soit des noms propres.
Le vocabulaire manquant a été ajouté. D’autre part ces listes d’erreurs ont permis de trouver des erreurs ou manques dans les tables de fléchissement. Ces tables ont été corrigées.
Les tests d’analyse syntaxique ont permis de trouver des erreurs de catégories grammaticales attribuées aux mots. Ces erreurs ont été corrigées.
LES DICTIONNAIRES MONOLINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA :
- Dictionnaires bilingues français/anglais, espagnol, allemand, italien
Tout comme pour les dictionnaires monolingues, un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …) .
LES DICTIONNAIRES BILINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA :
- Dictionnaire bilingue français/ arabe
Un travail de contrôle a été réalisé par le laboratoire ICAR. Il a permis de dégager un ensemble de près de 900 entrées arabes erronées, dont 883 entrées non voyellées et 7 entrées partiellement voyellées. Les corrections nécessaires ont été effectuées.
Les mesures de couverture pour les textes français ont été effectuées sur les corpus du Monde diplomatique (journalistiques donc) et 4 textes de l’Unesco (scientifiques et culturels) :
|
Le Monde Diplomatique
|
Textes de l’Unesco
|
Comptages avec répétitions et sans ponctuation
Nombre de mots du texte :
Nombre de mots reconnus dans le texte
Nombre de lemmes
Nombres de traductions reconnues pour ces lemmes
Couverture du dictionnaire (Français Arabe)
Comptage sans répétition et sans ponctuation
Nombre de mots du texte (sans répétition)
Nombre de mots reconnus dans le texte
Nombre de lemmes
Nombre de traductions reconnues pour ces lemmes
Couverture du dictionnaire (Français Arabe)
|
93568 Mots
87596 Mots
101683
92235
90,70%
12618 Mots
10750 Mots
12780
11373
89,99 %
|
6646 Mots
6511 Mots
7627
6846
90 %
1955 Mots
1866 Mots
2265
2044
90,24 %
|
- Dictionnaire des sports
L’équipe responsable du projet a effectué une étude du besoin terminologique dans le domaine des sports. Cette étude, couvrant l’ensemble des catégories d’utilisateurs, a conduit à une refonte partielle de l’existant et à une réévaluation des options. Tous les choix effectués se fondent sur les résultats de cette étude du besoin, qui a notamment fait ressortir clairement l’impact des corpus ouverts (Internet) et des outils d’exploration sur la conception des dictionnaires et la conduite de l’activité terminographique.
La base existante (anglais-français) a fait l’objet d’une révision et mise à niveau systématique avec les objectifs suivants :
- Vérifications orthographiques
- Contrôle de la formation des termes
Les principes de formation des unités terminologiques étant modifiés pour tenir compte des progrès techniques, l’ensemble des entrées de la nomenclature a fait l’objet d’une révision systématique.
- Contrôle d’adéquation des équivalences
Les équivalences ont été systématiquement vérifiées et corrigées (7 044 corrections ou ajustements).
Dans un souci de rigueur scientifique (et de protection des droits) les sources et références exploitées pour chaque entrée du dictionnaire ont été systématiquement vérifiées (40 000 vérifications pour un total de 11 256 modifications).
Afin de fournir un premier dictionnaire pour les Jeux olympiques 2004, un dictionnaire français-anglais-grec a été mis en ligne en mode consultation.
Les résultats obtenus se présentent sous la forme de bases MS ACCESS. Il est prévu que ces bases soient mises en ligne par la société LCI-Maison du dictionnaire.
Les bases constituées sont les suivantes :
- Base multilingue anglais – français – grec – arabe – allemand – espagnol – portugais
La base multilingue anglais - français est destinée à la consultation sur l’Internet. Elle comporte une nomenclature de 37 500 pour l’anglais, le français, le grec, et l’arabe, 28 000 pour l’espagnol, 22 000 pour l’allemand et 10 000 pour le portugais. Les contenus sont, pour chaque langue :
- Informations obligatoires : terme, grammaire,
- Informations obligatoires sauf si indisponibles (pas de sources) : référence/source,
- Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
- Informations facultatives : définition et source, note linguistique et source, combinatoire, autre forme, synonyme
- Base bilingue anglais-français
La base bilingue anglais français comporte 63 161 entrées avec, pour chaque langue. Elle est téléchargeable sur demande – pour un traçage des éventuels collaborateurs. Elle comporte :
- Informations obligatoires : terme, référence/source, grammaire
- Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
- Informations facultatives : définition et source OU note linguistique et source, combinatoire, autre forme, synonyme, variante
Les requêtes permettent la consultation sur :
- terme français
- terme anglais
- sport (champ, domaine et spécificité ++)
- Base trilingue anglais-français + autre langue
Les bases trilingue anglais - français + autre langue sont destinée au téléchargement libre. Elles comportent un nombre variable d’entrées complètes selon les langues avec, pour chaque langue :
- Informations obligatoires : terme, référence/source, grammaire
- Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
- Informations facultatives : définition et source OU note linguistique et source, combinatoire, autre forme, synonyme, variante
Les requêtes permettent la consultation sur :
- terme français
- terme anglais
- terme autre langue
- sport (champ, domaine et spécificité ++)
- Corpus arabe
Le corpus comprend actuellement 55 paires de textes français arabe du Monde diplomatique.
Les opérations de téléchargement, reformatage, élagage, etc., ont été effectuées manuellement.
Les textes ont été ensuite édités sous différents formats (MS Word, XML, txt).
Les textes arabes ont été manuellement voyellés, lemmatisés, et étiquetés.
Le corpus arabe (étiqueté, voyellé et lemmatisé) contient les éléments suivants :
- 55 textes,
- 1 258 paragraphes,
- 943 phrases,
- 100 618 mots,
- 158 mots non reconnus,
- 535 880 caractères.
L’étiquetage manuel de ce corpus a été utilisé dans le cadre d’une étude critique des règles de succession les plus couramment mises en œuvre dans les étiqueteurs grammaticaux (bi et tri-grammes). Ce travail a donné lieu à une publication (voir plus bas).
|
Publications
|
-
Fathi Debili, Emna Souissi, « Y a-t-il une taille optimale des règles de succession intervenant dans l’étiquetage grammatical ? », Actes de la conférence TALN’2005, Dourdan, 6-10 Juin 2005.
|
|
Partenaires du projet
|
|
- Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M), CEA (Commissariat à l’Energie Atomique)/LIST/DTSI
- CNRS – FRE 2546 Analyses de corpus linguistiques, usages et traitements
- ELDA (Evaluations and Language resources Distribution Agency),
- SCIPER Sarl
- Université de Rennes II,
- La maison du dictionnaire
|
|
|
|
Responsable du projet
|
|
- Christian Fluhr
Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M)
CEA (Commissariat à l’Energie Atomique)/LIST/DTSI
Tél. 01 46 54 96 01 – e-mail christian.fluhr@cea.fr
- Valérie Mapelli
ELDA, 55/57 rue Brillat-Savarin, Paris 75013,
Tél. 01 43 13 33 33 – Fax 01 43 13 33 30 – e-mail mapelli@elda.org
|
|
|
|
Dates du projet
|
Date de début : 1er septembre 2003
Date de fin : 1er septembre 2005
|
 |
 |
|
 |
|