00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  EurADiC
vendredi 17 février 2006


Ressources linguistiques monolingues et bilingues français - arabe, anglais, allemand, italien, espagnol, grec (European Arabic Dictionaries and Corpora)

Thème de l’action : Ressources linguistiques

Contact
   

Résumé

Les ressources linguistiques (dictionnaires et corpus) qu’il s’agit de mettre en forme et de développer (transcodage, reformatage, vérification et mise à jour, élaboration, ...) s’articulent autour du français pris comme « pivot ». Les ressources attendues sont les suivantes :

  • Dictionnaires généraux monolingues d’au moins 80 000 lemmes en français, allemand, anglais, espagnol et italien
  • Dictionnaires généraux bilingues d’au moins 90 000 couples de mots en français-allemand, français-anglais, français-arabe, français-espagnol, français-italien
  • Enrichissement d’un dictionnaire de spécialité dans le domaine du sport en français, anglais, allemand, espagnol, grec et arabe
  • Corpus : Corpus parallèle non apparié d’environ 2x100 000 mots français-arabes avec partie arabe voyellée.

 

Résultats

Les ressources linguistiques suivantes ont été développées :

  1. Dictionnaires monolingues français, anglais, espagnol, allemand, italien (désormais disponibles auprès d’ELRA, voir descriptions et liens ci-dessous)
  2. Dictionnaires bilingues français/anglais, espagnol, allemand, italien (désormais disponibles auprès d’ELRA, voir descriptions et liens ci-dessous)
  3. Dictionnaire bilingue français/arabe
  4. Dictionnaire des sports
    1. Base multilingue anglais – français – grec – arabe – allemand – espagnol – portugais
    2. Base bilingue anglais-français
    3. Base trilingue anglais-français + autre langue
  5. Corpus arabe

  1. Dictionnaires monolingues français, anglais, espagnol, allemand, italien
  2. Un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …)

    Une analyse de mots inconnus a été réalisée sur différents types de corpus, document de presse, base de données sur l’eau et le tourisme durable, site web de la direction de la recherche technologique du CEA, retranscription de journaux télévisés, groupes de news.
    Le dépouillement des listes de mots rejetés a permis de détecter un certain nombre d’erreurs. Ce travail est assez long du fait que la plupart des mots rejetés sont soit des fautes de frappe très nombreuses dans les sites web, soit des mots d’une autre langue, soit des noms propres.

    Le vocabulaire manquant a été ajouté. D’autre part ces listes d’erreurs ont permis de trouver des erreurs ou manques dans les tables de fléchissement. Ces tables ont été corrigées.

    Les tests d’analyse syntaxique ont permis de trouver des erreurs de catégories grammaticales attribuées aux mots. Ces erreurs ont été corrigées.

    LES DICTIONNAIRES MONOLINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA :

  3. Dictionnaires bilingues français/anglais, espagnol, allemand, italien
  4. Tout comme pour les dictionnaires monolingues, un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …) .

    LES DICTIONNAIRES BILINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA :

  5. Dictionnaire bilingue français/ arabe
  6. Un travail de contrôle a été réalisé par le laboratoire ICAR. Il a permis de dégager un ensemble de près de 900 entrées arabes erronées, dont 883 entrées non voyellées et 7 entrées partiellement voyellées. Les corrections nécessaires ont été effectuées.

    Les mesures de couverture pour les textes français ont été effectuées sur les corpus du Monde diplomatique (journalistiques donc) et 4 textes de l’Unesco (scientifiques et culturels) :

     

    Le Monde Diplomatique 

    Textes de l’Unesco

    Comptages avec répétitions et sans ponctuation

    Nombre de mots du texte :

    Nombre de mots reconnus dans le texte

     

    Nombre de lemmes

    Nombres de traductions reconnues pour ces lemmes

    Couverture du dictionnaire (Français Arabe)

     

    Comptage sans répétition et sans ponctuation

    Nombre de mots du texte (sans répétition)

    Nombre de mots reconnus dans le texte

     

    Nombre de lemmes

    Nombre de traductions reconnues pour ces lemmes

    Couverture du dictionnaire (Français Arabe)

     

    93568 Mots

    87596 Mots

     

    101683

    92235

    90,70%

     

     

    12618 Mots

    10750 Mots

     

    12780

    11373

    89,99 %

     

    6646 Mots

    6511 Mots

     

    7627

    6846

    90 %

     

     

    1955 Mots

    1866 Mots

     

    2265

    2044

    90,24 %

     

  7. Dictionnaire des sports
  8. L’équipe responsable du projet a effectué une étude du besoin terminologique dans le domaine des sports. Cette étude, couvrant l’ensemble des catégories d’utilisateurs, a conduit à une refonte partielle de l’existant et à une réévaluation des options. Tous les choix effectués se fondent sur les résultats de cette étude du besoin, qui a notamment fait ressortir clairement l’impact des corpus ouverts (Internet) et des outils d’exploration sur la conception des dictionnaires et la conduite de l’activité terminographique.

    La base existante (anglais-français) a fait l’objet d’une révision et mise à niveau systématique avec les objectifs suivants :

    • Vérifications orthographiques
    • Contrôle de la formation des termes

    Les principes de formation des unités terminologiques étant modifiés pour tenir compte des progrès techniques, l’ensemble des entrées de la nomenclature a fait l’objet d’une révision systématique.

    • Contrôle d’adéquation des équivalences

    Les équivalences ont été systématiquement vérifiées et corrigées (7 044 corrections ou ajustements).

    Dans un souci de rigueur scientifique (et de protection des droits) les sources et références exploitées pour chaque entrée du dictionnaire ont été systématiquement vérifiées (40 000 vérifications pour un total de 11 256 modifications).

    Afin de fournir un premier dictionnaire pour les Jeux olympiques 2004, un dictionnaire français-anglais-grec a été mis en ligne en mode consultation.

    Les résultats obtenus se présentent sous la forme de bases MS ACCESS. Il est prévu que ces bases soient mises en ligne par la société LCI-Maison du dictionnaire.

    Les bases constituées sont les suivantes :

    1. Base multilingue anglais – français – grec – arabe – allemand – espagnol – portugais
    2. La base multilingue anglais - français est destinée à la consultation sur l’Internet. Elle comporte une nomenclature de 37 500 pour l’anglais, le français, le grec, et l’arabe, 28 000 pour l’espagnol, 22 000 pour l’allemand et 10 000 pour le portugais. Les contenus sont, pour chaque langue :

      • Informations obligatoires : terme, grammaire,
      • Informations obligatoires sauf si indisponibles (pas de sources) : référence/source,
      • Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
      • Informations facultatives : définition et source, note linguistique et source, combinatoire, autre forme, synonyme
    3. Base bilingue anglais-français
    4. La base bilingue anglais français comporte 63 161 entrées avec, pour chaque langue. Elle est téléchargeable sur demande – pour un traçage des éventuels collaborateurs. Elle comporte :

      • Informations obligatoires : terme, référence/source, grammaire
      • Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
      • Informations facultatives : définition et source OU note linguistique et source, combinatoire, autre forme, synonyme, variante

      Les requêtes permettent la consultation sur :

      • terme français
      • terme anglais
      • sport (champ, domaine et spécificité ++)

    5. Base trilingue anglais-français + autre langue

    Les bases trilingue anglais - français + autre langue sont destinée au téléchargement libre. Elles comportent un nombre variable d’entrées complètes selon les langues avec, pour chaque langue :

      • Informations obligatoires : terme, référence/source, grammaire
      • Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
      • Informations facultatives : définition et source OU note linguistique et source, combinatoire, autre forme, synonyme, variante

    Les requêtes permettent la consultation sur :

      • terme français
      • terme anglais
      • terme autre langue
      • sport (champ, domaine et spécificité ++)

  9. Corpus arabe
  10. Le corpus comprend actuellement 55 paires de textes français arabe du Monde diplomatique.

    Les opérations de téléchargement, reformatage, élagage, etc., ont été effectuées manuellement.
    Les textes ont été ensuite édités sous différents formats (MS Word, XML, txt).
    Les textes arabes ont été manuellement voyellés, lemmatisés, et étiquetés.

    Le corpus arabe (étiqueté, voyellé et lemmatisé) contient les éléments suivants :

    • 55 textes,
    • 1 258 paragraphes,
    • 943 phrases,
    • 100 618 mots,
    • 158 mots non reconnus,
    • 535 880 caractères.

    L’étiquetage manuel de ce corpus a été utilisé dans le cadre d’une étude critique des règles de succession les plus couramment mises en œuvre dans les étiqueteurs grammaticaux (bi et tri-grammes). Ce travail a donné lieu à une publication (voir plus bas).

Publications

  • Fathi Debili, Emna Souissi, « Y a-t-il une taille optimale des règles de succession intervenant dans l’étiquetage grammatical ? », Actes de la conférence TALN’2005, Dourdan, 6-10 Juin 2005.


Partenaires du projet
 
  • Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M), CEA (Commissariat à l’Energie Atomique)/LIST/DTSI
  • CNRS – FRE 2546 “ Analyses de corpus linguistiques, usages et traitements ”
  • ELDA (Evaluations and Language resources Distribution Agency),
  • SCIPER Sarl
  • Université de Rennes II,
  • La maison du dictionnaire

 
Responsable du projet
 
  • Christian Fluhr
    Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M)
    CEA (Commissariat à l’Energie Atomique)/LIST/DTSI
    Tél. 01 46 54 96 01 – e-mail