Retour au format normal

Techniques et applications de traitement de la parole

12 avril 2006

Technolangue.net

 

Ci-après sont présentées quelques techniques et applications de traitement de la parole :

Quelques techniques de traitement de la parole :

-  Dynamic Time Warping
-  Les Modèles de Markov Cachés (Hidden Markov Models)
-  Les réseaux de neurones

Quelques applications de traitement de la parole :

-  La recherche documentaire Audio
-  La Reconnaissance Automatique du locuteur
-  La synthèse de la parole



Quelques techniques de traitement de la parole :

-  Dynamic Time Warping

Il s’agit d’une méthode apparue dans les années 80 dans le domaine du traitement de la parole et encore utilisée dans des systèmes de reconnaissance vocale disposant de ressources matérielles limitées. Dans les systèmes de reconnaissance basés sur la DTW, chaque mot du lexique est représenté par une réalisation de référence. Le processus de reconnaissance consiste à évaluer la distance d’une observation à chacune des références. Toute la difficulté du décodage réside dans cette mesure d’un degré de similarité entre des formes acoustiques variables à la fois au niveau spectral et temporel. En effet, les réalisations acoustiques d’un mot subissent des déformations spectrales liées à divers paramètres (locuteurs, contextes, conditions d’acquisition, etc.) mais aussi des déformations temporelles globales (vitesse d’élocution) ou plus locales (accent, dynamique des organes phonatoires, etc.). Pour comparer deux segments de parole soumis à cette double déformation, il faut préalablement leur appliquer un processus d’alignement temporel. L’algorithme DTW (Dynamic Time Warping) réalise cet alignement en recherchant, parmi tous les alignements possibles, celui qui minimise une fonction de coût intégrant l’écart spectral des données alignées et un coût de distorsion temporelle. La distance retenue est celle correspondant à l’alignement de coût minimal. Rapide dans des tâches à petit vocabulaire, cette technique a un certain nombre d’inconvénients importants qui limitent son champ d’application. D’une part, la modélisation des mots par une instance est très peu robuste à l’ensemble des variabilités acoustiques. Cette faiblesse peut être partiellement limitée par l’utilisation de plusieurs références par mot, par un choix plus fin des références ou encore par l’usage de distances spectrales robustes (type Malhabolis). Néanmoins, cette technique est plus adaptée à un contexte d’utilisation monolocuteur en environnement peu bruité. D’autre part, la complexité des modèles et du décodage sont proportionnels à la taille du lexique, ce qui exclut l’utilisation de la DTW dans des systèmes grand vocabulaire. Enfin, bien que diverses extensions à la reconnaissance de la parole continue aient été expérimentées, cette méthode ne permet, dans sa version standard, que la reconnaissance de mots isolés.

Georges Linares pour l’AFCP, le 17 novembre 2003.

Haut de la page

-  Les Modèles de Markov Cachés (Hidden Markov Models)

Le Modèle de Markov Caché (Hidden Markov Model) est une méthode statistique puissante pour caractériser les échantillons de données observés d’un processus à temps discret. Elle apporte non seulement un moyen efficace de construction de modèles paramétriques, mais elle incorpore aussi le principe de programmation dynamique pour unifier la segmentation et la classification de séquence de données variant dans le temps.

Dans la modélisation d’un processus par un HMM, les échantillons peuvent être caractérisés par un processus paramétrique aléatoire dont les paramètres peuvent être estimés dans un cadre de travail bien défini. La théorie de base des HMM a été publiée dans une série de papiers par L. Baum.

Les HMMs sont devenus la méthode la plus couramment utilisée pour la modélisation des signaux de parole dans les applications suivantes : reconnaissance automatique de la parole, suivi de la fréquence fondamentale et des formants, synthèse vocale, traduction automatique, étiquetage syntaxique, compréhension du langage oral, traduction automatique... Dans une chaîne de Markov, chaque état correspond à un événement à observation déterministe (la sortie de ses sources pour un état donné n’est pas aléatoire). Une extension naturelle à la chaîne de Markov introduit un processus non déterministe qui génère des symboles de sortie pour chaque état. L’observation est donc une fonction probabiliste de l’état. Le nouveau modèle est appelé HMM, pouvant être vu comme deux processus stochastiques imbriqués dont l’un (la séquence d’états) est non observable directement. Ce processus sous-jacent est donc associé de façon probabiliste à un autre processus produisant la séquence de trames, qui elle, est observable. Ci-dessous, nous présentons les trois problèmes de base à résoudre pour l’application de cette méthode :

-  Le problème d’évaluation : Quelle est la probabilité d’un modèle générant une séquence d’observation ? Ce problème est résolu par l’application de l’algorithme FORWARD.

-  Le problème de décodage : Quelle est la séquence d’états la plus probable pour un modèle et une séquence d’observation donnés ? On utilise l’algorithme VITERBI pour effectuer cette tâche.

-  Le problème d’apprentissage : Comment peut-on ajuster les paramètres du modèle pour maximiser la vraisemblance (probabilité jointe) de génération d’une séquence d’observation ? Les algorithmes de BAUM-WELCH et de VITERBI permettent d’effectuer l’apprentissage. Dans les applications de la parole, on utilise fréquemment les HMM continus, où l’observation n’appartient pas à un ensemble discret mais à une distribution (le plus souvent normale). Ainsi, une topologie gauche-droite pour un HMM continu permet de modéliser les états successifs d’un phonème pour un signal de parole. Plus généralement, l’objectif à atteindre est la détermination à partir de vecteurs acoustiques de la séquence phonétique prononcée.

Nicolas Scheffer pour l’AFCP, 18 novembre 2003

Haut de la page

-  Les réseaux de neurones

Depuis une vingtaine d’année, les réseaux de neuromimétiques constituent une technique utilisée dans les systèmes de reconnaissance automatique de la Parole. Ils sont basés sur une modélisation grossière du neurone biologique (neurone formel). Tout comme le neurone biologique, le neurone formel calcule sont activation en fonction des signaux qu’il reçoit d’autres neurones, pondérés par des « poids synaptiques » et d’une fonction d’activation plus ou moins complexe.

L’ensemble de ces neurones est organisé selon des architectures plus ou moins complexes matérialisées par les connexions entre ces neurones. Selon cette architecture, ainsi que le type de la fonction d’activation, les réseaux de neurones peuvent résoudre un certain nombres de problèmes tels que des problèmes de classification, de mémorisation et de résolution de contraintes. Une particularité des réseaux de neurones est qu’ils sont dotés d’algorithmes l’apprentissages qui leur permettent d’apprendre les formes, les classes à reconnaître et à classer ou bien les problèmes à résoudre. Ces algorithmes sont soit supervisés lorsque l’on connaît déjà les classes associées aux exemples du corpus d’apprentissage , soit non-supervisés. Le but recherché est de faire en sorte que les réseaux de neurones répondent correctement à des stimuli jamais rencontrés. Etant donné le large spectre des possibilités des réseaux neurometiques, ils peuvent être employés à de nombreux niveaux dans un système de traitement automatique de la parole. De nombreuses études ont été menées pour les utiliser pour le traitement de signal (filtrage, annulation d’échos, séparation de sources), la modélisation acoustique mais aussi pour des tâches de plus haut niveaux telles que la modélisation linguistique.

Pascal Nocera pour l’AFCP, le 17 novembre 2003

Haut de la page



Quelques applications de traitement de la parole :

-  La Reconnaissance Automatique du locuteur

1. Définitions

La Reconnaissance Automatique du Locuteur (RAL) vise à déterminer, automatiquement, si un échantillon de voix a été prononcé par une personne donnée. Les tâches courantes en RAL peuvent être classées en deux grandes catégories :
Les tâches relevant de l’identification du locuteur consistent à rechercher, parmi un ensemble de locuteurs connus, le locuteur possédant la référence la plus proche d’un message vocal donné. L’identification du locuteur peut être réalisée en ensemble fermé (le message vocal à identifier a été prononcé par un des locuteurs d’un ensemble, fermé et sont tous connus du système) ou en ensemble ouvert (un locuteur inconnu a pu prononcé le message).
La vérification du locuteur revient à évaluer l’hypothèse qu’un locuteur donné ait prononcé le message vocal considéré.
Une autre caractéristique importante concerne le mode de participation des locuteurs. Dans la majeure partie des applications et des travaux de recherche, les locuteurs collaborent avec le système automatique : ils prononcent ce que demande le système et/ou ils cherchent à être reconnus par celui-ci.
La nature des messages vocaux manipulés par le système peut également être plus ou moins contrainte : le système est dépendant du texte si les locuteurs sont tenus de prononcer un texte précis, indépendant du texte dans le cas contraire.

2. Structure d’un système de RAL

Un système de reconnaissance du locuteur comporte quatre éléments principaux :
Un module d’acquisition et de paramétrisation du signal. Celui-ci a en charge de produire une suite de vecteurs de paramètres, dits paramètres acoustiques, représentant le message vocal sous une forme exploitable par le système. Les méthodes employées dérivent des analyses de Fourier (FFT, analyse Cepstrale, PLP...)
Un modèle d’apprentissage. Celui-ci crée une référence vocale pour un locuteur à partir d’un échantillon de sa voix. L’approche statistique (GMM) est majoritairement utilisée.
Un module de calcul de ressemblance. Ce module est utilisé durant la reconnaissance. Il a en charge de calculer la ressemblance entre un échantillon de signal et une référence correspondant à une personne donnée.
Enfin, un module de décision utilise durant la phase de reconnaissance les sorties du module précédent pour prendre une décision.

3. Limites

La nature très variable du signal de parole est un facteur délicat à gérer. La voix évolue avec l’âge, l’état physiologique ou pathologique du locuteur. Le canal de transmission de l’information joue un rôle important en RAL : en diminuant la qualité du matériel de comparaison (bande passante, bruits...) et en influençant la décision (le système ne doit pas prendre en compte les caractéristiques du canal pour reconnaître une personne mais les spécificités du locuteur). Enfin, et ce n’est pas forcément la moindre des difficultés, l’évaluation des performances n’est pas aisée. Cette évaluation nécessite des bases de données spécifiques, de grande taille et contenant un sous ensemble représentatif des difficultés rencontrées. En particulier, simuler un imposteur capable " d’imiter " une personne donnée n’est pas trivial (actuellement les tests d’imposture sont majoritairement réalisés en confrontant un locuteur de la base de test à tous les autres locuteurs de la base, sans modifier les éléments de test).

4. Applications potentielles

Les applications potentielles de la RAL couvrent un spectre relativement large :
contrôle d’accès (serrure vocale),
protection d’équipements (systèmes antivol pour les téléphones portables),
vérificateur de présence (pointeuses biométriques),
authentification de l’appelant (services téléphoniques)
authentification de transactions,
personnalisation de services.

5. Le domaine judiciaire

Dans le domaine judiciaire, il existe une demande importante de méthodes scientifiquement testées (et de préférence automatiques) permettant d’identifier formellement une personne à partir d’un échantillon de sa voix. Le milieu scientifique international fait preuve d’une grande prudence dans ce domaine et de nombreuses publications attestent de l’impossibilité actuelle d’authentifier une personne par sa voix, au sens judiciaire : la tâche est intrinsèquement très difficile : le nombre de locuteurs potentiels est très grand, les conditions d’acquisition ne sont ni connues, ni contrôlées et les locuteurs peuvent ne pas être coopératifs, déterminer le niveau de performance d’une méthode manuelle ou automatique est très complexe, le nombre de variables intervenant étant élevé (nombre des locuteurs, coopération des locuteurs, ages et origines des locuteurs, durées des échantillons vocaux, écart temporel entre les différents enregistrements, manipulations volontaires ou non du signal, conditions d’enregistrement, canaux de transmission...). Pour évaluer les performances, une base comportant des centaines de milliers de locuteurs, représentative des différents contextes rencontrés est nécessaire.

Jean-François Bonastre pour l’AFCP, 17 novembre 2003.

Haut de la page

-  La recherche documentaire Audio

Pour faire face à l’augmentation de la quantité de données audio contenant de la parole, l’idée a été développée d’appliquer les techniques de recherche documentaire textuelle aux transcriptions de documents audio. Cette activité connue sous le nom de recherche documentaire audio (spoken document retrieval en anglais) consiste à indexer les documents audio par leur contenu et permettre ainsi de retrouver rapidement de l’information. La problématique principale est d’indexer un contenu erroné ; en effet, les performances des moteurs de reconnaissance de la parole se réduisent notablement dans des environnement aux conditions acoustiques et linguistiques variables et lorsque la parole est spontanée. Les erreurs de transcription provoquent la présentation de mauvaises réponses lors des recherches documentaires audio. Il a été prouvé dans le cadre des évaluations NIST Trec-9 que la recherche documentaire audio pouvait obtenir les mêmes performances que la recherche documentaire textuelle sur un contenu informatif (broadcast news) en utilisant des techniques d’expansion de requête sur des corpus parallèles textuels. Par exemple, une requête sur un événement donné pourra contenir des mots qui ont été transcrits de façon erronée. Le système va enrichir cette requête avec des mots extraits d’un corpus de documents textuels afin d’améliorer la couverture des résultats sur les documents audio.

Les techniques utilisées actuellement en recherche documentaire textuelle localisent et interprètent l’information de façon de plus en plus précise en faisant une analyse syntaxique puis sémantique du contenu. Ces techniques perdent en efficacité lorsque le contenu est une transcription erronée qui ne suit pas les règles de syntaxe et n’a pas un contenu sémantique cohérent. Les développements actuels de la recherche documentaire audio permettront d’adapter les techniques les plus avancées de la recherche documentaire textuelle à l’audio.

Les documents audio contiennent de la parole qui est transcrite ainsi que beaucoup d’autres informations comme la prosodie, l’identité du locuteur ou la structure de l’élocution qui peuvent être indexées et améliorer les recherches en utilisant la multi-modalité. De plus l’ensemble de ces informations peuvent être utilisées dans un système de recherche documentaire multimédia conjointement aux informations extraites d’une vidéo ou d’images fixes par exemple.

La présentation des résultats d’une recherche documentaire audio à l’utilisateur pose problème car de nombreux documents sont retrouvés que l’utilisateur ne peut appréhender rapidement. La nature temporelle du signal sonore empêche une assimilation complète et instantanée du contenu du média comme avec les images ou le texte. Les résultats sont longs à consulter et l’utilisateur n’a aucun moyen de les discriminer rapidement comme il le fait lors d’une recherche sur le web. Les travaux sur le résumé automatique de parole et la navigation dans le signal audio ont pour objectif de remédier à ce problème.

Benoit Favre pour l’AFCP, 14 novembre 2003.

Haut de la page

-  La synthèse de la parole

Les premiers systèmes de synthèse de parole à partir du texte sont apparus il y a plus de trente ans. Cependant les systèmes de synthèse ne sont réellement sortis des laboratoires pour des applications commerciales que depuis environ une vingtaine d’années. Avec la diffusion des potentialités de l’ordinateur, la popularisation d’Internet et l’émergence de la Société de l’Information, la communication homme-machine voit croître la part de la parole. En particulier, de nouvelles technologies donnent un regain d’intérêt à la synthèse de la parole à partir du texte, pour répondre aux besoins :

-  des applications embarquées (automobile, traducteurs automatiques de poche) ;
-  des télécommunications (services de consultation de courrier électronique par téléphone, serveurs vocaux interactifs, livres et journaux parlants)
-  et du multimédia (jeux informatiques, aide aux handicapés, " machines à lire " avec scanner et OCR pouvant servir aux aveugles et mal-voyants).

De nos jours la qualité de synthèse atteinte est acceptable pour de nombreuses applications, mais en contrecoup l’exigence de qualité et de naturel s’accroît. La synthèse à partir du texte se combine également à des techniques émergentes comme la synthèse d’images, la linguistique informatique et la reconnaissance de la parole pour la réalisation d’applications diverses : majordomes électroniques (visages parlants), traduction parole à parole, accès à des bases de connaissances en langage naturel. Ainsi, l’exigence de qualité porte sur des phénomènes de plus en plus subtils et difficiles, comme la prononciation correcte des patronymes et toponymes, l’expressivité de la synthèse, ou encore le style de voix et la variété des locuteurs/locutrices virtuelles. Sans entrer dans les détails de l’histoire de la synthèse de la parole, on peut remarquer que ces 5 dernières années ont été marquées par le développement de la synthèse par sélection et concaténation. Les nouvelles techniques de synthèse de la parole reposent sur les progrès de l’étiquetage automatique et sur l’utilisation de grosses bases de données de parole enregistrée. L’idée est de sélectionner dans celle-ci des unités sonores de tailles variables (diphones, syllabes, mots, voire incises), et de les concaténer, pour obtenir de la parole d’une qualité plus naturelle. Si cette technique résoud de manière élégante le problème de la "naturalité" du signal de synthèse, elle laisse encore de larges perspectives de recherche, notamment dans le domaine de l’égalisation des signaux (difficile de maintenir une qualité vocale homogène sur une longue durée), de l’étiquetage (permettant de qualifier de manière précise l’usage potentiel de chaque unité sonore ; cela allant de la qualité vocale au contexte de communication) ainsi que de la conception de paradigmes de recueil de corpus adaptés au style de communication désiré (posant notamment le problème du recueil de parole expressive - voire émotionnelle - spontanée).

Collectif EVASY - Evaluation des Systèmes de Synthèse de Parole
Campagne d’évaluation EVALDA/TECHNOLANGUE, le 11 décembre 2003.

Haut de la page