Retour au format normal

NORMALANGUE - Technovox

18 novembre 2003

Technolangue.net

 

Réseau d'interaction entre les acteurs français des technologies vocales et les instances de normalisation internationale de ce domaine.

Fiche du 18 novembre 2003



Thème de l'action
Normes et standards
Début du projet
23 janvier 2003
Durée du projet
36 mois
 
Résumé
Le sous-projet Technovox a pour objectif de renforcer la contribution française aux organismes internationaux de normalisation dans le domaine des technologies vocales, et de répercuter les travaux des comités de normalisation dans la communauté française industrielle et universitaire, en organisant une information régulière de cette communauté. Pour réaliser cet objectif, le consortium du projet réunit sept partenaires industriels et universitaires, acteurs dans le domaines des technologies vocales sous quatre angles complémentaires : recherche amont, vendeurs de technologies vocales, vendeurs de plates-formes vocales, vendeurs de composants. Ce sous-projet se déroule en 2 phases : la première, plus généraliste, couvre l'ensemble des normes pertinentes pour les technologies vocales, pendant 1 an ; la seconde concentre les efforts sur la norme principale, VoiceXML, sur une durée de 2 ans.

Objectifs
Comme on peut le voir dans l'état de l'art, les normes existantes ont certaines limites. Les membres du sous-projet se proposent de promouvoir certains axes dans ces normes et d'accentuer les convergences pour faire progresser les applications vocales en performances et en ergonomie. Il s'agira également de porter en France l'utilisation de la norme enrichie auprès des acteurs importants du marché.

Enrichissements de la norme VoiceXML
Nous considérons qu'il y a plusieurs axes sur lesquels la norme VoiceXML gagnerait à être complétée par rapport aux usages du marché en matière de consultation de l'information vocale et mobile :
Axe télécoms
Axe ergonomie
Axe SSML
Axe test
Axe mixité des médias

Enrichissements de la norme UNL

« Pont » entre XML et UNL

Ajout d'une « couche vocale » à l'UNL

Enrichissements des autres normes
AURORA  : contribution à des tests poussés de la normes, expérimentation de la norme en situation réelle, contribution aux protocoles de transmission des coefficients, contribution aux nouveaux thèmes de travaux, tels que la transmission de l'information de fréquence fondamentale.
3GPP : adoption de la norme AURORA pour les réseaux et services de 3eme génération.
IETF : contribution à la définition des API de reconnaissance vocale et de synthèse vocale distribuée

Dissémination d'information en France sur les normes
Publication par le consortium d'un document à destination de la communauté française d'information sur les normes.
Les membres du sous-projet proposeront un « plan de communication » pour proposer les vecteurs les plus pertinents de diffusion des normes liées aux applications vocales. Une étude, menée dans l'année 1 du sous-projet, permettra de recommander des moyens de diffusion de la norme en proposant des partenaires, un planning et des actions à mettre en oeuvre. Il pourra s'agir de :

Créer un forum de développeurs français
Organiser un événement de démonstration des débouchés des applications vocales
Créer un outil média (site web) autour de cette thématique
S'associer à un événement existant qui mettrait bien en valeur notre sujet

Dans tous les cas, plusieurs solutions pourraient être combinées.
Le financement du plan de communication ou de l'opération retenue pourrait alors faire l'objet de sponsoring et éventuellement de complément de financement dans le cadre d'un autre appel d'offre.

Mise en œuvre et état de l'art
Nous nous proposons ici de présenter l'état d'avancement des normes significatives pour faire évoluer le marché des applications vocales.

- Etat d'avancement de la norme VoiceXML
L'utilisation de VoiceXML facilite et réduit le coût de développement d'applications Web innovatrices accessibles par la voix. Grâce à VoiceXML, il est possible de développer des services pilotés par la voix en mettant en oeuvre les mêmes outils et techniques que ceux utilisés pour le développement de sites Web visuels HTML.

VoiceXML est un standard promu par le Forum VoiceXML (www.voicexml.org) dont les membres fondateurs sont AT&T, Lucent Technologies, IBM et Motorola. Le consortium compte à ce jour 62 membres « promoters » (qui interviennent dans la norme) et plus de 500 « supporters ». VoiceXML permet de 'baliser' du contenu le rendant ainsi manipulable par la voix et par le téléphone. VoiceXML autorise un dialogue entre l'homme et la machine en terme de diffusions d'enregistrements vocaux, de la lecture automatique de textes écrits, de l'enregistrement de messages, de la reconnaissance de la parole et de la saisie d'information via les touches du téléphone (DTMF).

Le W3C est également à l'initiative de la norme CCXML qui traite des aspects Call Control pour des plateformes vocales VoiceXML ou des IVRs traditionnelles.

Le VoiceXML est un standard qui a plusieurs avantages :  standard international pérenne, norme ouverte, outil de flexibilité permettant de capitaliser sur des infrastructures communes existantes. Cependant le VoiceXML n'a pas encore pris en compte certaines évolutions liées à l'ergonomie vocale des services, à l'interface avec le monde télécoms et à la possibilité d'une utilisation mixte des médias pour accéder aux informations en mobilité. Ces éléments qui nous semblent décisifs sur le marché français, sont présentés en partie III 1.

2.2.3 Etat d'avancement du projet AURORA
Dans le projet « AURORA » le concept étudié est celui de reconnaissance de la parole distribuée (DSR : Distributed Speech Recognition), les travaux étant actuellement menés au sein de l'ETSI (European Telecommunications Standard Institute).
Ces travaux ont déjà donné lieu à la normalisation de l'étage de prétraitement des systèmes de reconnaissance, une première norme publiée en 2001 correspondant à un système de base autour d'un codage MFCC (Mel Frequency Cepstrum Coefficients) standard à un débit de 4.8 kb/s, et une deuxième norme en cours de publication (été 2002) correspondant à un système amélioré nettement plus robuste aux environnements bruyants.
On peut ajouter :
les travaux menés à l'IETF par le groupe de travail CATS (Control of ASR and TTS Resources) pour normaliser le protocole permettant de contrôler des ressources vocales distribuées.
les travaux menés au 3GPP pour intégrer le concept DSR dans les réseaux de télécommunication de 3eme génération

2.2.4 Etat d'avancement de la norme UNL
En 1996, en s'inspirant des méthodes mises au point dans le domaine d'application de la traduction automatique, l'Université des Nations Unies lance, sous l'impulsion de Hiroshi Uchida, un projet de langage-pivot international : UNL (Universal Networking Language). L'objectif d'UNL est de fournir une représentation formelle du sens des phrases exprimables dans les langues naturelles. À partir de cette représentation formelle, et en quelque sorte interne à la machine, du sens, on peut engendrer automatiquement des versions anglaise, française, japonaise, etc., du même texte.

État actuel
Avec la norme UNL, on peut modéliser le sens de toutes les phrases avec une complexité logique ne dépassant pas celle d'un langage de prédicats modaux de premier ordre. Pour remplir ce cadre, et étendre les possibilités d'expression d'UNL tout est question de développement du lexique. Un effort est actuellement mené en parallèle par les laboratoires de recherche impliqués dans le projet UNL (notamment l' « UNL Centre » à Genève) pour enrichir l'ontologie de concepts (« UNL Knowledge Base ») afin de représenter le plus de domaines sémantiques possibles ; afin également de pouvoir représenter avec finesse le maximum de nuances sémantiques, et de pouvoir prendre ainsi en compte les possibilités d'expression différentes de différentes langues.

Points forts
Le point fort majeur d'UNL, en comparaison avec d'autres langages de représentation ad hoc utilisés localement dans divers projets de traduction automatique, est naturellement son acceptation par différentes équipes de recherche de par le monde, et le travail commun dont il a d'ores et déjà été l'objet. Cette dimension internationale lui permet de disposer dès maintenant d'outils qui lui donnent des débouchés pratiques dans différentes langues. Avec des expressions UNL comme celle donnée en exemple ci-dessus, on peut, en utilisant les outils applicatifs des différents partenaires, obtenir des transcriptions comme « koshka vypila
moloko » ou « mao he le niunai » aussi bien que « le chat a bu le lait ».

L'esprit dans lequel UNL a été conçu le destine à être utilisé comme format de représentation invisible à l'utilisateur dans des applications d'information multilingue. Un serveur web pourrait ainsi contenir de l'information encodée en UNL, et chaque utilisateur, par l'intermédiaire d'un serveur « proxy » spécifique, verrait cette information dans sa propre langue.

Cette ouverture et cette dimension inter-linguistique lui permettront probablement de faire face aux besoins de quantité d'applications de serveur d'information multilingue, dans tous les domaines où la sémantique de l'application est clairement définie et où la qualité stylistique de la langue n'est pas une composante majeure.

Limites
Dans son état actuel, le lexique d'UNL est encore trop limité pour permettre à cette norme de servir à tout type d'application.

En ce qui concerne le présent sous-projet, nous noterons qu'UNL ne prend aucunement en compte la dimension prosodique du langage. Le formalisme a été conçu au départ sur la base de préoccupations concernant purement le langage écrit, et la façon dont les attributs, notamment, ont été développés, le reflètent encore. Les attributs qu'UNL représente sont seulement ceux qui peuvent influencer la structure grammaticale de la phrase, en aucun cas sa structure prosodique. Ainsi, parmi les attributs qui pourraient influer sur la structure prosodique d'une phrase prononcée, on trouve bien un attribut '@emphasis' (concept mis en avant) ou un attribut '@qfocus' (qui précise quel est le focus d'une question) ; non pas parce que ces structures informatives ont une influence sur l'oral, mais parce qu'elles peuvent dans certaines langues (anglais, japonais) avoir une influence sur la structure syntaxique de la phrase. Dans la perspective de ce sous-projet, c'est à cette lacune qu'il convient avant tout de remédier.

2.2.5 Etat d'avancement des travaux sur la multimodalité
les travaux menés dans le consortium SALT (Speech Applications Language Tags) promu par Microsoft pour la conception de dialogues vocaux ou multimodaux basés sur Internet.
Les travaux menés au W3C dans le groupe de travail Multimodal Interaction Activity dont l'objectif est de définir un standard de programmation Web pour les réseaux de 3eme génération.


Organisation
Ce sous-projet se déroule en 2 phases : la première, plus généraliste, couvre l'ensemble des normes pertinentes pour les technologies vocales, pendant 1 an ; la seconde concentre les efforts sur la norme principale, VoiceXML, sur une durée de 2 ans.
Phase 1
Toutes les tâches se déroulent en parallèle.
Tâche 1.0 : Gestion du sous-projet
Tâche 1.1 : Participation au comité de normalisation AURORA de l'ETSI
Tâche 1.2 : Participation au comité de normalisation du 3GPP
Tâche 1.3: Participation au comité de normalisation VoiceXML du W3C
Tâche 1.4 : Participation au comité de normalisation de l'IETF
Tâche 1.5 : Participation au SALT Forum
Tâche 1.6 : Participation au VoiceXML Forum
Tâche 1.7 : Participation à la fondation UNL
Tâche 1.8 : Diffusion vers la communauté française
Phase 2
Toutes les tâches se déroulent en parallèle.
Tâche 2.0 : Gestion du sous-projet
Tâche 2.3: Participation au comité de normalisation VoiceXML du W3C
Tâche 2.6 : Participation au VoiceXML Forum
Tâche 2.7 : Participation à la fondation UNL
Tâche 2.8 : Diffusion vers la communauté française


Retombées du projet
Deux fois par an, le consortium publie un document récapitulatif à destination de la communauté française.

Etat d'avancement


Partenaires du projet
  SIEMENS
TELISMA
IDYLIC
ELAN Speech
ST Microelectr.
LORIA
ENST Paris
 
Contact
  SIEMENS
Xavier PRIEM
02 96 48 74 30
xavier.priem@siemens.com
www.siemens.com