00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  NEOLOGOS
mardi 18 novembre 2003




Création de nouvelles bases de données vocales téléphoniques pour la langue française : base multilocuteurs pour voix d'enfants et d'adolescents et base de locuteurs de référence pour voix d'adultes.

Fiche du 18 novembre 2003



Thème de l'action
Ressources linguistiques
Début du projet
4 décembre 2002
Durée du projet
24 mois
 
Résumé
Dans le but de répondre à un besoin ressenti dans le milieu du traitement automatique de la langue, le projet NEOLOGOS se propose de constituer deux bases de données de parole identifiées sous les noms PAIDIALOGOS et IDIOLOGOS.
La première, PAIDIALOGOS, sera le résultat d'une collecte composée d'appels téléphoniques de 1000 enfants et adolescents âgés de 7 à 17 ans, 350 en GSM et 650 en RTC.
La seconde, IDIOLOGOS, est constituée de deux parties, la première partie se compose des enregistrements d'appels téléphoniques de 1000 adultes ayant effectué un appel chacun. La deuxième partie de la base est composée d'un échantillon de 200 personnes du panel de la première partie ayant effectué 10 appels téléphoniques supplémentaires dans le but de créer une base de locuteurs de référence.

Objectifs
PAIDIALOGOS : base de données de voix d'enfants et d'adolescents.

Le résultat de cette partie du projet consiste en une base de données vocales de 1000 voix d'enfants, autant de garçons que de filles, équirépartis géographiquement (en France métropolitaine), collectée sur le réseau RTC (650 locuteurs) et sur le réseau GSM (350 locuteurs), et pour la tranche d'âge allant de 7 ans à 17 ans. Le contenu linguistique enregistré est un ensemble de phrases courtes phonétiquement équilibrées.

IDIOLOGOS : Base de locuteurs de référence pour voix d'adultes.

Le résultat de cette partie du projet consiste en une base de données vocales appelée « locuteurs de référence » (200 locuteurs) issue d'un panel initial de 1000 locuteurs, hommes et femmes également représentés, équirépartis géographiquement (en France métropolitaine), collectée sur le réseau RTC. Le contenu linguistique enregistré est un ensemble composé d'énoncés lu ou spontané de mot de commande, de nombres, dates, numéros et de phrases phonétiquement équilibrées pour la première partie et uniquement un ensemble de phrases phonétiquement équilibrées pour la seconde partie.

Mise en œuvre et état de l'art
De nombreuses bases de données sont disponibles à ELDA, mais aucune ne propose une couverture suffisante de la population des jeunes.

Aucune ne possède non plus la dimension et la structure nécessaire pour répondre au besoin de disposer de « locuteurs de référence », car aucune ne contient suffisamment d'informations pour réaliser une cartographie cohérente de l'espace des locuteurs. Il existe des bases de données orientées vers le test de systèmes de vérification du locuteur, mais les bases accessibles publiquement sont insuffisamment structurées, et par ailleurs, elles privilégient une méthodologie de collecte permettant de capter voire d'amplifier les variations au cours du temps, lentes ou rapides, de la voix d'un locuteur (variation intra-locuteurs).

Concernant l'approche nouvelle de la base des « locuteurs de référence », les laboratoires et les industriels ont le même besoin fondamental d'accéder à des bases de données permettant d'une part de rendre la technologie plus performante, d'autre part d'expérimenter de nouvelles approches algorithmiques basées sur une connaissance plus fine de ce qui caractérise individuellement les locuteurs.

Pour la réalisation des différentes collectes de données vocales prévues par le projet, les industriels membres du consortium disposent des méthodologies et des plates-formes vocales de collecte téléphonique adéquates.

Retombées du projet
Le consortium du projet NEOLOGOS s'est donné comme objectif de répondre à deux besoins qui ne sont pas couverts actuellement par les bases de données disponibles pour la langue française.

La base de données de « locuteurs de référence » IDIOLOGOS ne suit pas une structure classique de type Speechdat, et elle est massive car elle contient 8000 appels téléphoniques soit quatre fois plus de données que la base PAIDIALOGOS. Cette base permettra de faire avancer de façon significative les performances des technologies de reconnaissance vocale ainsi que les connaissances scientifiques sur les caractéristiques des locuteurs, car elle contiendra un nombre suffisant de locuteurs pour représenter l'ensemble des voix possibles, et pour chacun des locuteurs, un nombre d'enregistrement suffisant pour permettre de fabriquer des modèles de reconnaissance phonétiques individualisés et précis, adaptés à sa voix. La base IDIOLOGOS constituera en quelque sorte la matérialisation du concept d'espace de locuteurs. Au-delà des besoins importants de la reconnaissance vocale, cette base de données sera également exploitée dans les autres domaines des technologies vocales pour lesquels la notion de caractéristiques du locuteur joue un rôle significatif : vérification du locuteur, identification du locuteur, transformation de voix, synthèse vocale.

Etat d'avancement
Le projet a démarré effectivement le 11 février 2003 (réunion de prélancement), soit plus de deux mois après la date de notification officielle du 4 décembre 2002. La coordination du projet a été assurée à travers plusieurs réunions physiques et de nombreuses réunions téléphoniques.

La base PAIDIALOGOS, base de données « enfants » similaires aux bases de données traditionnelles de voix « adultes », est composée d'enregistrements d'appels téléphoniques dont les spécifications ont été adaptées du modèle SpeechDat, largement utilisé à l'international. Le contenu linguistique des appels est composé d'un ensemble de trente-deux énoncés différents comprenant des mots de commande, des séquences de chiffres et de nombres, des dates et des heures, des épellations, des noms de villes et de personnes, des mots et phrases phonétiquement riches. A la différence de SpeechDat, les trois modes possibles de collecte des enregistrements seront utilisés : collecte de parole répétée, de parole lue et de parole spontanée.

La collecte des 1000 enfants est en cours. Environ 50 % de la base a été collectée.

L'objectif du sous-projet IDIOLOGOS est de constituer une base de 200 locuteu