Le rôle de la vision dans la perception de la parole a été abondamment décrit. Puisque la parole est de nature sensori-motrice, la vision influence également les sons produits. Que se passe-t-il lorsqu’un locuteur n’a pas accès à ces indices visuels? Nous menons depuis 15 ans un programme de recherche qui vise à étudier l’impact de la cécité congénitale sur la production de la parole, chez les enfants et chez les adultes. Nous avons montré que, bien que les adultes aveugles produisent des voyelles qui sont aussi intelligibles que leurs pairs voyants, ils utilisent dans une moindre mesure les contrastes labiaux (visibles) que les voyants. En contrepartie, les aveugles réalisent de plus grands contrastes linguaux (non visibles) que les voyants. Nous étudions également une population d’enfants aveugles congénitaux au Québec et en France. Les premiers résultats montrent que les enfants aveugles de 6 à 8 ans ont un développement moteur moins mature que les enfants voyants.
De façon simplifiée, la parole est produite par un système sensori-moteur, contrôlé par divers paramètres représentés par les organes articulatoires (degrés de liberté). Développée à l’Institut de la communication parlée (ICP) de Grenoble, et directement inspirée de la robotique cognitive telle qu’étudiée par R. Brooks (MIT), la robotique de la parole est une approche computationnelle au coeur de laquelle se situe le lien production-perception. Selon Abry et Badin (1996) et Laboissière (1992), les principes de ce programme se résument ainsi: « embodiment, multimodality, development, interaction ».
Apprendre à parler, une histoire de perception et d’action
Comment le petit humain apprend-il à mouvoir ses organes articulatoires afin de produire les sons de sa langue? Quelles sont les étapes impliquées dans la transition entre, d’une part, le contrôle cyclique de l’oscillation mandibulaire seule (telle qu’observée par le babillage canonique vers 6-7- mois de vie), et d’autre part, le contrôle fin des coordinations interarticulatoires (vers l’âge de 10 ans)? Autant de questions qui guident nos réflexions et orientent nos travaux.
Les expériences sur les capacités perceptives du bébé ont montré que ce dernier était en mesure, très tôt, de discriminer des contrastes acoustiques et de percevoir des distinctions de manière catégorielle (Eimas et al., 1971). Par le « magnet effect », les catégories perceptives propres à la langue maternelle émergent dans l’espace (Kuhl et Meltzoff, 1988; 1995; 1996, Kuhl, 1992; 1995). En revanche, les habiletés motrices se manifestent d’abord par le contrôle cyclique de l’oscillation mandibulaire (processus endogène). Ce « cadre syllabique », selon MacNeilage et Davis (1990), est à la base de l’organisation des unités de la parole chez l’adulte. Au cours du développement, le contenu segmental est intégré par le contrôle indépendant des articulateurs linguaux et labiaux, permettant ainsi de produire les séquences de consonnes et de voyelles d’une langue donnée. Or ces consonnes et voyelles produites par l’enfant constituent des « catégories » perceptives qui sont la manifestation des liens sensori-moteurs construits par l’enfant, entre autres par le biais de l’imitation (processus exogène) (Kuhl et Meltzoff, 1996; Locke 1983). Le rôle de la perception est donc crucial ici, et peut être défini ainsi, conformément à Schwartz et al. (2001) : « perception is the set of tools, processing and representations that enable to control action ».
Imiter, oui, mais quoi?
L’imitation suppose la comparaison entre le signal du locuteur et celui de son entourage, et la reproduction de ce dernier. Comment peut-on caractériser ce que l’enfant doit reproduire? Quelle est l’invariance ou la « monnaie d’échange »? À ce chapitre, les tenants des théories motrices supposent que l’invariance réside dans le geste articulatoire (Liberman et Mattingly, 1985), alors que les représentants des théories auditives plaident pour l’existence d’une invariance de type acoustique (Stevens, 1996). La théorie de la variabilité adaptative (Lindblom, 1990), en revanche, propose plutôt l’existence d’un ajustement entre économie articulatoire (locuteur) et contraste maximal (récepteur). Schwartz et al. (2002), dans une théorie de la perception pour le contrôle de l’action, attribuent au système perceptif la tâche de retrouver les catégories phonologiques du message, mais également de contrôler l’action du récepteur. L’invariance n’est toutefois pas uniquement acoustique, mais comporte aussi un ancrage articulatoire important, comme en témoignent les expériences sur les compensations aux perturbations (Savariaux et al., 1995; 1999).
Dans un récent travail (Ménard, 2002; Ménard et al., 2002), nous avons proposé des critères acoustiques qui caractérisent les gabarits perceptifs des voyelles du français. Un ensemble de 490 voyelles synthétiques générées par un modèle articulatoire simulant la croissance du conduit vocal (Growth, conçu par Shinji Maeda et intégré dans une interface Matlab à l’ICP), a été soumis à 43 auditeurs adultes du français lors d’un test de perception. Les dix voyelles du français étaient associées à sept stades de croissance différents, de même qu’à sept valeurs différentes de fréquence fondamentale. Les résultats montrent que, en ce qui concerne l’aperture, la différence entre la fréquence du premier formant (F1) et la fréquence fondamentale (F0), en bark, permet de distinguer les voyelles perçues fermées, mi-fermées, et ouvertes (incluant les mi-ouvertes). La différence entre les second et premier formants (F2 et F1) est associée aux voyelles perçues antérieures et postérieures (lieu d’articulation). Le second formant effectif (F2′), calculé par une somme non linéaire pondérée des second, troisième et quatrième formants, permet de distinguer les voyelles perçues arrondies et non arrondies. Ces gabarits perceptifs permettent de guider la tâche de production de la parole au cours de la croissance. En ayant comme objectif de respecter ces gabarits, l’enfant doit développer la stratégie articulatoire adaptée à chaque catégorie de sa langue.
Vers l’âge de 14 mois, la coarticulation consonne-voyelle dans des suites syllabiques, mesurée par le degré d’anticipation des formants cibles dès le début de la réalisation de la voyelle, témoigne du contrôle fin acquis à ce stade (Sussman et al., 1999). Cependant, les capacités motrices de l’enfant sont encore immatures, et ne deviennent similaires à l’adulte que vers la fin de la première décennie de vie.
Des outils qui se modifient…
Le conduit vocal de l’homme adulte n’est pas une reproduction exacte du conduit vocal du nouveau-né. Les structures sont soumises à des rythmes de croissance différents. Par exemple, alors que, pour le nouveau-né, le pharynx est beaucoup plus court que la cavité buccale, chez l’homme adulte, la cavité pharyngale est plus longue que la cavité buccale:
Cette croissance non uniforme du conduit vocal a d’importantes conséquences sur les patrons formantiques résultant d’une position articulatoire similaire, pour l’enfant et l’homme adulte. Nous avons montré, à l’aide de simulations par un modèle articulatoire, d’analyses acoustiques et de tests perceptifs, que l’enfant adopte des positions linguales plus antérieures dans le cas de certaines voyelles, afin de compenser les effets du petit pharynx (Ménard et al., en préparation).
Des gestes vus et entendus
La parole n’est pas seulement audible, mais elle est également visible. Les chercheurs de l’ICP ont montré l’importance de la vision dans la récupération des cibles de la parole. Au cours du développement, la vision joue un rôle essentiel dans l’acquisition des liens sensori-moteurs. L’enfant n’imite pas seulement ce qu’il entend, mais également ce qu’il voit. Les travaux visant à simuler l’émergence de la parole par l’exploration articulatoire prennent d’ailleurs en charge la vision afin de contraindre les processus d’inversion des commandes articulatoires à partir du signal acoustique (Serkhane, 2002). Les informations sensorielles haptiques sont aussi importantes et un simulateur de capteurs palataux a été développé à l’ICP.
Références bibliographiques
- Abry, C. et Badin,P. (1996) : « Speech Mapping as a framework for an integrated approach to the sensori-motor foundations of language », 1st ESCA Tutorial and Research Workshop on Speech Production Modeling-4th Speech Production Seminar, Autrans, 175-184.
- Eimas, P. D., Siqueland, E. R., Jusczyk, P. et Vigorito, J. (1971) : « Speech perception in infants », Science, 171, 303-306.
- Kuhl, P. K. (1992) : « Speech prototypes : Studies on the nature, functions, ontogeny and phylogeny of the « centers » of speech categories », in Tohkura, Y., Vatikiotis-Bateson, E. et Sagisaka, Y. (eds), Speech perception, production and linguistic structure, Tokyo, Ohmsha, 239-264.
- Kuhl, P. K. (1995) : « Mechanisms of developmental change in speech and language », Proceedings of the International Congress of Phonetic Sciences, Stockholm, 2, 132-139.
- Kuhl, P. K. et Meltzoff, A. N. (1988) : « Speech as an intermodal object of perception », in Yonas, A. (ed), Perceptual Development in Infancy : The Minnesota Symposia on Child Psychology, Hillsdale (NJ), Erlbaum, Vol. 20, 235-266.
- Kuhl, P. K. et Meltzoff, A. N. (1995) : « Vocal learning in infants : development of perceptual-motor links for speech », Proceedings of the International Congress of Phonetic Sciences, Stockholm, 1, 146-149.
- Kuhl, P. K. et Meltzoff, A. N. (1996) : « Infant vocalizations in response to speech : Vocal imitation and developmental change », Journal of the Acoustical Society of America, 100, 2425-2438.
- Locke, J. L. (1983) : Phonological Acquisition and Change, New-York, Academic Press.
- Laboissière, R. (1992) : Préliminaires pour une robotique de la communication parlée: inversion et contrôle d’un modèle articulatoire du conduit vocal, Thèse de docteur de l’INPG, Signal-Image-Parole, Grenoble, France.
- Liberman, A. M. et Mattingly, I. G. (1985) : « The motor theory of speech production revised », Cognition, 21, 1-36.
- Lindblom, B. (1990) : « Explaining phonetic variation : a sketch of the H&H theory », in Hardcastle, W. J. et Marchal, A. (eds), Speech production and speech modelling, Dordrecht, The Netherlands, Kluwer Academic Publishers, 403-439.
- MacNeilage, P.F. et Davis, B. L. (1990) : « Acquisition of speech production : Frames then content », in Jannerod, M. (ed), Attention and Performance XIII : Motor Representation and Control, Hillsdale (NJ), Lawrence Erlbaum, 453-475.
- Ménard, L. (2002) : Production et perception des voyelles au cours de la croissance du conduit vocal: variabilité, invariance et normalisation, Thèse de doctorat de l’Université Stendhal Grenoble III, Institut de la communication parlée, Grenoble, France.
- Ménard, Lucie, Schwartz, Jean-Luc et Boë, Louis-Jean (en préparation) : « Production abilities of vowel contrasts with a small vocal tract : a perceptual study of synthesized French vowels during vocal tract growth ».
- Ménard, Lucie, Schwartz, Jean-Luc et Boë, Louis-Jean (en préparation) : « Acoustic variability and adaptive articulatory strategies during vocal tract growth revealed by the rounding contrast in French ».
- Ménard, Lucie, Schwartz, Jean-Luc, Boë, Louis-Jean, Kandel, Sonia et Vallée, Nathalie (2002) : « Auditory Normalization of French Vowels Synthesized by an Articulatory Model Simulating Growth from Birth to Adulthood », Journal of the Acoustical Society of America, 111(4), pp. 1892-1905.
- Savariaux, C. Perrier, P. et Orliaguet, J.-P. (1995) : « Compensation strategies for the perturbation of the rounded vowel [u] using a lip-tube : A study of the control space in speech production », Journal of the Acoustical Society of America, 98, 2428-2442.
- Savariaux, C., Perrier, P., Orliaguet, J.-P. et Schwartz, J.-L. (1999) : « Compensation strategies for the perturbation of French [u] using a lip tube. II. Perceptual analysis », Journal of the Acoustical Society of America, 106, 381-393.
- Schwartz, J.-L., Abry, C., Boë, L.-J. et Cathiard, M. (à paraître) : « Phonology in a Theory of Perception-for-Action-Control », in Durand, J. et Laks, B. (ed.), Phonology : from Phonetics to Cognition, Oxford University Press.
- Schwartz, J.-L., Boë, L.-J. et Bessière, P. (2002) : « Speech robotics, a computational framework for the study and modelling of speech acquisition and evolution », in Steels, L. (ed.),
- Serkhane, J. (2002) : « Premiers pas vers une modélisation du développement de la parole », DES de Sciences cognitives, INPG, Institut de la communication parlée, Grenoble, France.
- Stevens, K. N. (1996) : « Articulatory-Acoustic-Auditory Relationships », in Hardcastle, W. J. et Laver, J. (ed), Handbook of Phonetic Sciences, Oxford, Blackwell Publishers, 462-506.
Nous avons récemment acquis un système de réalité virtuelle Oculus Rift (c) ainsi que les mondes virtuels de la compagnie InVirtuo. Ces environnements sont destinés au traitement de l’anxiété et des phobies. Dans le cadre d’un projet initié par Anne-Moïse Richard (orthophoniste au Centre de Réadaptation Marie-Enfant), nous avons testé les effets de l’immersion en classe virtuelle chez des adolescents qui bégaient. Les résultats montrent que ce contexte génère un niveau d’anxiété comparable à une situation réelle. Il offre la flexibilité, pour l’orthophoniste, de créer en clinique des situations proches des situations réelles, et de micrograduer les éléments anxiogènes afin d’adapter la situation à l’adolescent. Celui-ci peut ainsi appliquer les stratégies enseignées par l’orthophoniste dans des contextes qui se rapprochent de son environnement quotidien.
Nous avons aussi développé un avatar animé en temps réel par l’Optotrak. Les mouvements des lèvres du participant sont ensuite modifiés graduellement, afin de perturber le retour visuel. Nous pouvons ainsi évaluer dans quelle mesure la production est guidée par l’input visuel de ses propres articulateurs.
L’essor considérable des techniques informatiques a donné lieu, au cours de la dernière décennie, au développement de nouveaux outils expérimentaux. Grâce à la synthèse de la parole, dorénavant facilement accessible, des hypothèses relatives à l’importance de phénomènes segmentaux ou suprasegmentaux sont évaluées par la technique de l’analyse-resynthèse. (Bien sûr, la synthèse de la parole peut également être exploitée afin de tester les modèles de production articulatoire). Des stimuli naturels sont d’abord analysés, puis resynthétisés après quelques modifications du signal acoustique. Des stimuli comparables sont ainsi disponibles, et l’effet unique du paramètre en question peut être évalué.
Dans la foulée des nouveaux besoins pour un tel synthétiseur en français québécois, nous avons participé au développement d’un système de synthèse à diphones de cette variété. Ce système, conçu principalement par Vincent Arnaud et Johanna-Pascale Roy, s’inscrit dans le projet plus large MBROLA (Version québécoise ici), de l’Université Polytechnique de Mons, qui vise à développer une plate-forme de synthèse multilingue accessible à tous. La base de données de diphones en français québécois est dorénavant diponible sur le site de MBROLA, et sera exploitée afin de déterminer l’importance perceptive de certaines marques prosodiques (contours de fréquence fondamentale, durée, etc.) dans la perception de l’appartenance dialectale du français.