Laboratoire de phonétique

Relations production-perception et robotique de la parole

De façon simplifiée, la parole est produite par un système sensori-moteur, contrôlé par divers paramètres représentés par les organes articulatoires (degrés de liberté). Développée à l'Institut de la communication parlée (ICP) de Grenoble, et directement inspirée de la robotique cognitive telle qu'étudiée par R. Brooks (MIT), la robotique de la parole est une approche computationnelle au coeur de laquelle se situe le lien production-perception. Selon Abry et Badin (1996) et Laboissière (1992), les principes de ce programme se résument ainsi: "embodiment, multimodality, development, interaction".

Apprendre à parler, une histoire de perception et d'action

Comment le petit humain apprend-il à mouvoir ses organes articulatoires afin de produire les sons de sa langue? Quelles sont les étapes impliquées dans la transition entre, d'une part, le contrôle cyclique de l'oscillation mandibulaire seule (telle qu'observée par le babillage canonique vers 6-7- mois de vie), et d'autre part, le contrôle fin des coordinations interarticulatoires (vers l'âge de 10 ans)? Autant de questions qui guident nos réflexions et orientent nos travaux.

Les expériences sur les capacités perceptives du bébé ont montré que ce dernier était en mesure, très tôt, de discriminer des contrastes acoustiques et de percevoir des distinctions de manière catégorielle (Eimas et al., 1971). Par le "magnet effect", les catégories perceptives propres à la langue maternelle émergent dans l'espace (Kuhl et Meltzoff, 1988; 1995; 1996, Kuhl, 1992; 1995). En revanche, les habiletés motrices se manifestent d'abord par le contrôle cyclique de l'oscillation mandibulaire (processus endogène). Ce "cadre syllabique", selon MacNeilage et Davis (1990), est à la base de l'organisation des unités de la parole chez l'adulte. Au cours du développement, le contenu segmental est intégré par le contrôle indépendant des articulateurs linguaux et labiaux, permettant ainsi de produire les séquences de consonnes et de voyelles d'une langue donnée. Or ces consonnes et voyelles produites par l'enfant constituent des "catégories" perceptives qui sont la manifestation des liens sensori-moteurs construits par l'enfant, entre autres par le biais de l'imitation (processus exogène) (Kuhl et Meltzoff, 1996; Locke 1983). Le rôle de la perception est donc crucial ici, et peut être défini ainsi, conformément à Schwartz et al. (2001) : "perception is the set of tools, processing and representations that enable to control action".

Imiter, oui, mais quoi?

L'imitation suppose la comparaison entre le signal du locuteur et celui de son entourage, et la reproduction de ce dernier. Comment peut-on caractériser ce que l'enfant doit reproduire? Quelle est l'invariance ou la "monnaie d'échange"? À ce chapitre, les tenants des théories motrices supposent que l'invariance réside dans le geste articulatoire (Liberman et Mattingly, 1985), alors que les représentants des théories auditives plaident pour l'existence d'une invariance de type acoustique (Stevens, 1996). La théorie de la variabilité adaptative (Lindblom, 1990), en revanche, propose plutôt l'existence d'un ajustement entre économie articulatoire (locuteur) et contraste maximal (récepteur). Schwartz et al. (2002), dans une théorie de la perception pour le contrôle de l'action, attribuent au système perceptif la tâche de retrouver les catégories phonologiques du message, mais également de contrôler l'action du récepteur. L'invariance n'est toutefois pas uniquement acoustique, mais comporte aussi un ancrage articulatoire important, comme en témoignent les expériences sur les compensations aux perturbations (Savariaux et al., 1995; 1999).

Dans un récent travail (Ménard, 2002; Ménard et al., 2002), nous avons proposé des critères acoustiques qui caractérisent les gabarits perceptifs des voyelles du français. Un ensemble de 490 voyelles synthétiques générées par un modèle articulatoire simulant la croissance du conduit vocal (Growth, conçu par Shinji Maeda et intégré dans une interface Matlab à l'ICP), a été soumis à 43 auditeurs adultes du français lors d'un test de perception. Les dix voyelles du français étaient associées à sept stades de croissance différents, de même qu'à sept valeurs différentes de fréquence fondamentale. Les résultats montrent que, en ce qui concerne l'aperture, la différence entre la fréquence du premier formant (F1) et la fréquence fondamentale (F0), en bark, permet de distinguer les voyelles perçues fermées, mi-fermées, et ouvertes (incluant les mi-ouvertes). La différence entre les second et premier formants (F2 et F1) est associée aux voyelles perçues antérieures et postérieures (lieu d'articulation). Le second formant effectif (F2'), calculé par une somme non linéaire pondérée des second, troisième et quatrième formants, permet de distinguer les voyelles perçues arrondies et non arrondies. Ces gabarits perceptifs permettent de guider la tâche de production de la parole au cours de la croissance. En ayant comme objectif de respecter ces gabarits, l'enfant doit développer la stratégie articulatoire adaptée à chaque catégorie de sa langue.

Vers l’âge de 14 mois, la coarticulation consonne-voyelle dans des suites syllabiques, mesurée par le degré d’anticipation des formants cibles dès le début de la réalisation de la voyelle, témoigne du contrôle fin acquis à ce stade (Sussman et al., 1999). Cependant, les capacités motrices de l’enfant sont encore immatures, et ne deviennent similaires à l’adulte que vers la fin de la première décennie de vie.

Des outils qui se modifient...

Le conduit vocal de l'homme adulte n'est pas une reproduction exacte du conduit vocal du nouveau-né. Les structures sont soumises à des rythmes de croissance différents. Par exemple, alors que, pour le nouveau-né, le pharynx est beaucoup plus court que la cavité buccale, chez l'homme adulte, la cavité pharyngale est plus longue que la cavité buccale:

conduitvocal1 conduitvocal2
Nouveau-né Homme adulte

Cette croissance non uniforme du conduit vocal a d'importantes conséquences sur les patrons formantiques résultant d'une position articulatoire similaire, pour l'enfant et l'homme adulte. Nous avons montré, à l'aide de simulations par un modèle articulatoire, d'analyses acoustiques et de tests perceptifs, que l'enfant adopte des positions linguales plus antérieures dans le cas de certaines voyelles, afin de compenser les effets du petit pharynx (Ménard et al., en préparation).

Des gestes vus et entendus

La parole n'est pas seulement audible, mais elle est également visible. Les chercheurs de l'ICP ont montré l'importance de la vision dans la récupération des cibles de la parole. Au cours du développement, la vision joue un rôle essentiel dans l'acquisition des liens sensori-moteurs. L'enfant n'imite pas seulement ce qu'il entend, mais également ce qu'il voit. Les travaux visant à simuler l'émergence de la parole par l'exploration articulatoire prennent d'ailleurs en charge la vision afin de contraindre les processus d'inversion des commandes articulatoires à partir du signal acoustique (Serkhane, 2002). Les informations sensorielles haptiques sont aussi importantes et un simulateur de capteurs palataux a été développé à l'ICP.


Références bibliographiques

Abry, C. et Badin,P. (1996) : « Speech Mapping as a framework for an integrated approach to the sensori-motor foundations of language », 1st ESCA Tutorial and Research Workshop on Speech Production Modeling-4th Speech Production Seminar, Autrans, 175-184.

Eimas, P. D., Siqueland, E. R., Jusczyk, P. et Vigorito, J. (1971) : « Speech perception in infants », Science, 171, 303-306.

Kuhl, P. K. (1992) : « Speech prototypes : Studies on the nature, functions, ontogeny and phylogeny of the « centers » of speech categories », in Tohkura, Y., Vatikiotis-Bateson, E. et Sagisaka, Y. (eds), Speech perception, production and linguistic structure, Tokyo, Ohmsha, 239-264.

Kuhl, P. K. (1995) : « Mechanisms of developmental change in speech and language », Proceedings of the International Congress of Phonetic Sciences, Stockholm, 2, 132-139.

Kuhl, P. K. et Meltzoff, A. N. (1988) : « Speech as an intermodal object of perception », in Yonas, A. (ed), Perceptual Development in Infancy : The Minnesota Symposia on Child Psychology, Hillsdale (NJ), Erlbaum, Vol. 20, 235-266.

Kuhl, P. K. et Meltzoff, A. N. (1995) : « Vocal learning in infants : development of perceptual-motor links for speech », Proceedings of the International Congress of Phonetic Sciences, Stockholm, 1, 146-149.

Kuhl, P. K. et Meltzoff, A. N. (1996) : « Infant vocalizations in response to speech : Vocal imitation and developmental change », Journal of the Acoustical Society of America, 100, 2425-2438.

Locke, J. L. (1983) : Phonological Acquisition and Change, New-York, Academic Press.

Laboissière, R. (1992) : Préliminaires pour une robotique de la communication parlée: inversion et contrôle d'un modèle articulatoire du conduit vocal, Thèse de docteur de l'INPG, Signal-Image-Parole, Grenoble, France.

Liberman, A. M. et Mattingly, I. G. (1985) : « The motor theory of speech production revised », Cognition, 21, 1-36.

Lindblom, B. (1990) : « Explaining phonetic variation : a sketch of the H&H theory », in Hardcastle, W. J. et Marchal, A. (eds), Speech production and speech modelling, Dordrecht, The Netherlands, Kluwer Academic Publishers, 403-439.

MacNeilage, P.F. et Davis, B. L. (1990) : « Acquisition of speech production : Frames then content », in Jannerod, M. (ed), Attention and Performance XIII : Motor Representation and Control, Hillsdale (NJ), Lawrence Erlbaum, 453-475.

Ménard, L. (2002) : Production et perception des voyelles au cours de la croissance du conduit vocal: variabilité, invariance et normalisation, Thèse de doctorat de l'Université Stendhal Grenoble III, Institut de la communication parlée, Grenoble, France.

Ménard, Lucie, Schwartz, Jean-Luc et Boë, Louis-Jean (en préparation) : « Production abilities of vowel contrasts with a small vocal tract : a perceptual study of synthesized French vowels during vocal tract growth ».

Ménard, Lucie, Schwartz, Jean-Luc et Boë, Louis-Jean (en préparation) : « Acoustic variability and adaptive articulatory strategies during vocal tract growth revealed by the rounding contrast in French ».

Ménard, Lucie, Schwartz, Jean-Luc, Boë, Louis-Jean, Kandel, Sonia et Vallée, Nathalie (2002) : « Auditory Normalization of French Vowels Synthesized by an Articulatory Model Simulating Growth from Birth to Adulthood », Journal of the Acoustical Society of America, 111(4), pp. 1892-1905.

Savariaux, C. Perrier, P. et Orliaguet, J.-P. (1995) : « Compensation strategies for the perturbation of the rounded vowel [u] using a lip-tube : A study of the control space in speech production », Journal of the Acoustical Society of America, 98, 2428-2442.

Savariaux, C., Perrier, P., Orliaguet, J.-P. et Schwartz, J.-L. (1999) : « Compensation strategies for the perturbation of French [u] using a lip tube. II. Perceptual analysis », Journal of the Acoustical Society of America, 106, 381-393.

Schwartz, J.-L., Abry, C., Boë, L.-J. et Cathiard, M. (à paraître) : « Phonology in a Theory of Perception-for-Action-Control », in Durand, J. et Laks, B. (ed.), Phonology : from Phonetics to Cognition, Oxford University Press.

Schwartz, J.-L., Boë, L.-J. et Bessière, P. (2002) : « Speech robotics, a computational framework for the study and modelling of speech acquisition and evolution », in Steels, L. (ed.),

Serkhane, J. (2002) : « Premiers pas vers une modélisation du développement de la parole », DES de Sciences cognitives, INPG, Institut de la communication parlée, Grenoble, France.

Stevens, K. N. (1996) : « Articulatory-Acoustic-Auditory Relationships », in Hardcastle, W. J. et Laver, J. (ed), Handbook of Phonetic Sciences, Oxford, Blackwell Publishers, 462-506.


Retour aux axes de recherche

UQAM - Université du Québec à Montréal  ›  Mise à jour : 28 juin 2010