SONS
Le mot « son » désigne à la fois une sensation auditive et le phénomène physique susceptible de lui donner naissance. Un son est un être à double face: face physique – c’est un ébranlement, une perturbation dans un milieu matériel élastique – et face perceptive – c’est un signal perçu par le sens de l’ouïe (cf. ACOUSTIQUE - Acoustique physiologique). On parle ainsi d’infrasons ou d’ultrasons pour désigner des vibrations de fréquence respectivement trop basse ou trop élevée pour être audibles. L’acoustique traitait à l’origine de ce qui relevait de l’ouïe, elle étudie maintenant ce qui est relatif aux sons et aux vibrations mécaniques de fréquence quelconque [cf. ACOUSTIQUE].
Un ébranlement sonore est en général produit par une vibration mécanique, par un mouvement matériel. Le son pourra être entendu si les ondes sonores se propagent jusqu’à l’oreille de l’auditeur. Dans des cas extrêmes, la sensation sonore peut exister en l’absence de son en tant que phénomène physique (entre autres, hallucinations auditives, expériences de stimulation directe du nerf auditif).
Dans le présent article, l’accent est mis sur la double face physique et perspective des sons. Les propriétés spécifiques des vibrations sonores et de leur propagation seront brièvement rappelées; elles aideront à comprendre certaines particularités du sens de l’ouïe et de la perception auditive, indispensables à la survie des espèces et à la communication entre les hommes. Enfin, on traitera de la synthèse des sons – particulièrement des sons de la parole et de la musique. Une étude séparée est réservée à l’enregistrement et à la reproduction du son [cf. ENREGISTREMENT].
1. Le point de vue physique: l’émission et la propagation du son
Le son est une perturbation d’un milieu matériel élastique. Cette perturbation modifie la pression dans le milieu, et aussi le déplacement et la vitesse des particules du milieu. Les sons se propagent dans les milieux élastiques, qui transmettent l’état de compression ou de dilatation de proche en proche, sans qu’il y ait transport de matière à distance.
Émission
Un son prend naissance dans l’air quand les molécules qui le composent sont mises en mouvement d’une quelconque façon. Ainsi, le va-et-vient périodique d’une membrane de haut-parleur provoque la transmission dans l’air d’ébranlements successifs de compression et de dépression. Les instruments de musique donnent de bons exemples de différents types d’émission sonore. Les cordes d’un violon reçoivent de l’énergie de l’archet qui y entretient des oscillations de relaxation: ces oscillations mettent en vibration la caisse, et les vibrations de la caisse sont rayonnées dans l’atmosphère; le piano, la harpe, les tambours, les cymbales – et les haut-parleurs – rayonnent également le son par vibration d’une surface solide. Dans le cas de la trompette, le jet d’air émis par les poumons de l’instrumentiste est périodiquement haché par les vibrations de ses lèvres – il s’agit là encore d’oscillations de relaxation, dont la fréquence dépend à la fois de la tension des lèvres de l’instrumentiste et des caractéristiques du tube de la trompette; les instruments à anche (hautbois, clarinette) et la voix humaine émettant des sons « sonores » ou « voisés » (comme les voyelles usuelles) fonctionnent aussi par interruption quasi périodique d’un jet d’air.
Les caractéristiques plus ou moins directives du rayonnement dépendent à la fois de la source sonore et de la fréquence: généralement, une source donnée est moins directive pour les fréquences graves que pour les fréquences aiguës qu’elle émet.
Propagation et effet des obstacles
Une onde « plane » se propage dans une direction, sans affaiblissement. Une onde « sphérique » se propage dans toutes les directions: s’il n’y a pas de pertes dans le milieu de transmission, l’énergie qu’elle transmet à un récepteur décroît comme l’inverse du carré de la distance, en raison de l’augmentation de la surface.
La vitesse de propagation, ou célérité, d’un son dans un milieu élastique possède une propriété remarquable: elle ne dépend que du milieu considéré et de son état de température et de pression; elle ne dépend pas du son qui se propage, de sa nature, de sa fréquence ou de son intensité (sauf dans le cas d’ébranlements très violents, comme les explosions). Dans l’air à la température ordinaire, la célérité du son est de l’ordre de 340 m/s.
La propagation des ondes sonores en champ libre est un cas idéal dont on peut se rapprocher dans une « chambre sourde », suffisamment spacieuse et aux parois très absorbantes. Tout objet perturbant cette propagation provoque des phénomènes de réflexion, de réfraction ou de diffraction interprétables en termes de sources secondaires de Huygens.
Comme en optique, il y a réfraction lorsque le son passe d’un milieu à un autre dans lequel la célérité est différente. En acoustique, ce phénomène ne joue pas un grand rôle: une faible proportion seulement de l’énergie du son est réfractée, la plus grande partie étant réfléchie. Mais il est aussi possible que, dans un milieu déterminé, la célérité du son varie d’un point à un autre, en raison par exemple de la présence d’un gradient de température. Alors, la propagation des ondes, au lieu de se faire en ligne droite, est courbée par réfraction, comme dans le cas des mirages optiques. C’est parce que le vent est cause d’une célérité inhomogène qu’il « porte » le son.
L’effet d’un obstacle sur la propagation des sons n’est facile à décrire que pour des sons simples, correspondant à des vibrations sinusoïdales et ayant, dans un milieu donné, une longueur d’onde bien déterminée. Le théorème de Fourier permet en principe de prévoir le comportement d’un son quelconque si l’on connaît le comportement de sons simples, moyennant l’hypothèse de linéarité, généralement valide. Les indications qui suivent, sauf mention du contraire, sont données pour des sons simples.
Le son se réfléchit sur un obstacle rigide et massif dont la dimension est très supérieure à sa longueur d’onde. Comme en optique, l’onde réfléchie paraît émaner d’une « image » de la source sonore. Si un auditeur reçoit l’onde directe et l’onde réfléchie, il entend un écho quand le retard de l’onde réfléchie est suffisant (supérieur à 50 millisecondes). Si la surface de l’obstacle n’est pas dure et rigide, une partie du son peut être absorbée. Ainsi, le son pénètre dans les petits orifices de matériaux poreux: la viscosité de l’air provoque une perte d’énergie sonore sous forme de chaleur. Enfin, on notera qu’un mur n’est pas parfaitement rigide, surtout vis-à-vis des sons de basse fréquence: il se comporte en transmission comme un filtre passe-bas acoustique dont la fréquence de coupure est d’autant plus basse que la masse est plus grande. Il transmet donc en partie les sons, surtout ceux de fréquence grave; on exprime en décibels sa perte en transmission (variable avec la fréquence). Cependant, les ondes sonores peuvent aussi « contourner » les obstacles, ce qui correspond au phénomène ondulatoire de diffraction. Si la longueur d’onde de la vibration est grande par rapport à l’obstacle, cet obstacle perturbe à peine la propagation. La longueur d’onde des sons audibles varie entre 17 mètres (pour un son de 20 Hz) et 17 millimètres (pour un son de 20 000 Hz): un obstacle de dimensions intermédiaires peut donc porter « ombre acoustique » sur les sons de fréquence élevée, il peut être « contourné » par les sons de fréquence grave. Les composantes de fréquence élevée d’un son complexe sont le plus facilement arrêtées par des obstacles.
2. L’ouïe et la perception auditive
Il semble que l’évolution de l’ouïe ait tendu à tirer un parti efficace des propriétés des sons pour fournir des informations utiles sur l’environnement. Les sons se propagent à distance et contournent les obstacles: mieux que la vue ou le toucher, l’ouïe joue un rôle d’alerte. Si l’on adopte ce point de vue, on ne s’étonnera pas que la perception auditive soit spécialement sensible aux modifications de l’environnement sonore, et qu’elle tende à éliminer de la conscience les sons stables ou permanents, les « bruits de fond ». Il est normal aussi que l’audition comporte un mécanisme élaboré de détection de la direction des sons, fondé sur les différences entre signaux sonores reçus par les deux oreilles et pouvant indiquer d’où vient le danger. Ce mécanisme ne fonctionne pas qu’en champ libre: l’effet dit de précédence inhibe efficacement la perturbation que pourraient apporter les échos dans le repérage de la direction de la source du son. La localisation des sons favorise l’écoute sélective d’un contexte sonore trop riche (ce qui permet de suivre à volonté l’une de plusieurs conversations simultanées). D’autres caractéristiques de l’audition peuvent s’interpréter dans cette même perspective. L’oreille est très sensible aux aspects fréquentiels des sons, qui ne sont modifiés entre source sonore et auditeur que de façon exceptionnelle (par exemple par effet Doppler). L’oreille est remarquablement insensible aux déphasages entre harmoniques d’un son périodique: en champ libre, ces déphasages varient avec la distance de la source sonore, et, en champ réverbéré, les relations de phase sont complètement noyées; une sensibilité aiguë à la phase compliquerait l’interprétation d’un signal auditif. L’attribut de timbre, qui aide à identifier la source sonore, est associé non pas, comme on l’a longtemps pensé, à la structure exacte d’un spectre, qui serait facilement modifiée dans des conditions d’écoute courante, mais à des caractères spectraux ou temporels plus élaborés et plus résistants aux distorsions. De telles propriétés tendent à préserver dans le « percept » auditif la « constance des choses réelles » (Koffka), ce qui est nécessaire pour que l’audition donne des indications utiles sur l’environnement.
Des animaux de multiples espèces doivent à leur ouïe de pouvoir trouver leur proie, ou au contraire d’avoir une chance d’échapper à leurs prédateurs. Étonnante est la variété de comportements liés aux signaux sonores que les animaux émettent et perçoivent: signaux d’alerte, de possession territoriale, d’appel sexuel, les sons permettent une véritable communication animale. Et, bien sûr, la parole est le mode de communication privilégié des groupements humains.
Il importe de souligner que les mécanismes auditifs diffèrent de simples processus de mesure. L’auditeur ne saurait être considéré comme un récepteur physique brut pourvu de « courbes de réponse », comme pourraient le laisser croire certains résultats psychoacoustiques obtenus avec des stimuli sonores simples dans des conditions bien déterminées. Même l’évaluation d’attributs apparemment élémentaires comme la hauteur ou la direction du son, qu’une vue hâtive assimilerait à un simple repérage de la fréquence ou de l’azimut du signal, fait intervenir chez le sujet des processus cérébraux, qui peuvent être influencés par le contexte – par exemple, par les messages d’autres sens – aussi bien que par le conditionnement du sujet, son état, ses dispositions d’attention. L’audition humaine (et celle des animaux supérieurs) est apte à puiser dans un signal sonore des formes et, par exemple, à classer des stimuli auditifs en catégories, chaque catégorie étant caractérisée non par des valeurs physiques des stimuli, mais par des relations entre leurs parties (on peut reconnaître une mélodie après transposition, identifier des mots prononcés de façon différente, etc.). Il semble que l’information sensorielle soit combinée, dans les centres cérébraux, avec l’information a priori, en vue de tests d’hypothèse permettant des décisions sur les événements d’où est issue l’information. Ces décisions se font suivant des modalités très spécifiques, qui transparaissent dans les illusions auditives. L’organisation perceptive peut scinder un signal sonore complexe en diverses unités composantes; elle tend ainsi à regrouper, en fonction de leur proximité spectrale, des sons qui se succèdent rapidement: ce mécanisme paraît largement indépendant du sujet et de sa volonté. L’audition tient compte de l’incohérence vibratoire pour séparer des sons simultanés dont les partiels se recouvrent – pour reconnaître, par exemple, deux instruments de musique jouant à l’unisson. Dans ce cas comme dans bien d’autres, le passé du sujet, son attention, sa capacité à anticiper telle hypothèse peuvent jouer un grand rôle. L’espèce humaine se distingue par ses capacités linguistiques et phonétiques. On comprend aisément un signal de parole imprécis: en présence d’une forme distordue ou incertaine, l’audition est apte à tenir compte d’un contexte très riche (linguistique ou sémantique), à passer inconsciemment d’un niveau à un autre, à procéder à une exploration ou à une synthèse des données sensibles, pour corriger une erreur ou lever une ambiguïté. La « restauration phonémique » (qui fait percevoir à l’auditeur des phonèmes physiquement absents) illustre bien ces aptitudes de l’audition, utiles et remarquables: que l’on songe aux difficultés considérables que rencontre depuis trente-cinq ans la mise au point de systèmes artificiels de reconnaissance de la parole.
La parole assume une fonction de communication. Le rôle de la musique n’est pas si clair: sa fonction rituelle et incantatoire, manifeste dans les civilisations primitives, s’est étiolée dans la civilisation occidentale, où la musique se réduit souvent à un « art d’agrément ». On a distingué dans le plaisir musical trois aspects: cérébral, sensible, émotionnel. Le premier aspect impliquerait une perception élaborée de relations, une recherche de structures, de formes au sein du discours musical; le deuxième ferait appel à une appréhension plus vague, végétative et sensuelle, et le troisième à des associations qui seraient souvent, à l’origine, extérieures à la musique elle-même. Le jugement esthétique s’articule sur une communication expressive au sein de laquelle ces aspects sont délicats à distinguer. Utilisant le vocabulaire de la « théorie de l’information », dont les transpositions dans le domaine de la perception sont pourtant dangereuses (cf. théorie de l’INFORMATION; MUSIQUE; MUSIQUE CONTEMPORAINE), il paraît nécessaire à l’efficacité et à l’agrément de la communication sensorielle que le « débit d’information » de la musique soit bien équilibré entre deux pôles, l’un d’excessive pauvreté (rengaine), l’autre d’excessive richesse (musique inintelligible, bruit): à la frontière de l’ordre et du chaos.
Il est certain qu’une explication purement physique des jugements musicaux est tout à fait insuffisante, même dans le seul ordre sensible. La musique introduit des « systèmes » qui sont à la fois ancrés dans la « nature » – les propriétés des sons, de l’audition, de la pensée – et dans la « culture » – l’environnement sonore, la tradition musicale du milieu, l’ontogenèse de l’individu. La notion de consonance musicale, dont on a proposé des interprétations purement naturelles, au niveau des sons eux-mêmes (de Hermann von Helmholtz à Reiner Plomp) ou de la perception intrinsèque des rapports de fréquence (de Leibniz à Robert Tanner), paraît dépendre beaucoup de l’acculturation de l’auditeur et du contexte, du style musical. Un auditeur écoutant des mélodies utilisant un système d’intervalles d’une autre civilisation musicale que la sienne tend à « naturaliser » ces mélodies (Robert Francès), c’est-à-dire à assimiler l’échelle des hauteurs à une échelle qui lui est familière (ce phénomène joue aussi pour le rythme). L’acculturation semble constituer chez l’auditeur un ensemble de structures de référence, qui affinent mais particularisent ses modes de perception musicale. Cependant, un auditeur exercé est loin d’identifier toutes les articulations typiques d’une forme musicale; son plaisir peut résider dans la découverte, la prise de conscience d’articulations ou de formes nouvelles, latentes dans le discours musical. Ainsi prend naissance, à divers niveaux, un jeu d’attentes comblées ou déçues, dont la dialectique consonance-dissonance de la musique tonale classique n’apparaît que comme un cas particulier.
3. Synthèse des sons
L’enregistrement permet de capter les sons naturels [cf. ENREGISTREMENT]. Mais diverses techniques permettent de produire les sons artificiellement.
Historique
Au XVIIe siècle, bien avant le métier à tisser de Jacquard, Athanasius Kircher décrivit des machines à musique dont le programme était enregistré sur une bande perforée. Ces machines connurent une grande vogue: pianos mécaniques, mais aussi orgues, violons, instruments à vent et à percussion automatiques, et même machines-orchestres comme le panharmonicon de Johann Maelzel, pour lequel Beethoven composa en 1813 la Bataille de Vittoria .
Vers la fin du XVIIIe siècle, von Kempelen construisit à Vienne une remarquable machine parlante, dans laquelle une anche vibrante excitait des cavités de forme variable.
La maîtrise du son connut un nouvel essor après 1875, à la suite de deux inventions majeures. L’enregistrement permet de reproduire le son en l’absence de sa cause mécanique initiale. Avec le téléphone, les transducteurs électroacoustiques ouvrent au traitement des sons les ressources de l’électricité, de l’électronique, du codage numérique et de l’ordinateur [cf. ÉLECTRO-ACOUSTIQUE].
Thaddeus Cahill réalisa vers 1900, aux États-Unis, une « centrale électrique à sons », comportant nombre d’alternateurs envoyant dans différents haut-parleurs des tensions alternatives de diverses fréquences. À la suite de l’invention de la lampe triode, on vit apparaître divers instruments de musique électronique, en particulier le Theremin, les ondes Martenot, l’ondioline de Jenny, le sphaerophon de Mager, le trautonium de Trautwein, ainsi que les orgues électriques (électromagnétiques, électrostatiques ou électroniques). L’interprète utilisait un clavier ou un autre mode de jeu (déplacement d’un ruban, mouvement de la main au voisinage d’une boucle) pour modifier les circuits produisant les ondes électriques – le son émanant, bien entendu, d’un haut-parleur.
Vers 1938, Homer Dudley réalisa le voder, machine électronique commandée manuellement et pouvant produire une parole intelligible, grâce à un opérateur humain entraîné pendant des mois à moduler de façon adéquate des paramètres comme la fréquence fondamentale et le spectre.
Récemment, avec le progrès des circuits électroniques et numériques, les travaux sur la synthèse des sons de la musique et de la parole se sont multipliés et ont souvent abouti à des résultats significatifs.
Synthèse des sons musicaux
La synthèse des sons musicaux vise principalement à étendre et à renouveler le matériau sonore à la disposition des compositeurs, à réaliser en somme le souhait formulé dès 1917 par Edgard Varèse: « Je rêve les instruments obéissant à la pensée et qui, avec l’apport d’une floraison de timbres insoupçonnés, se prêtent aux combinaisons qu’il me plaira de leur imposer et se plient à l’exigence de mon rythme intérieur. » Elle vise aussi à la construction de nouveaux instruments économiques et faciles à jouer. Plus généralement, elle fournit un instrument irremplaçable d’étude du son: seule la synthèse permet d’expérimenter avec des sons élaborés, dont la structure physique est contrôlable, ce qui est essentiel pour étudier les corrélations entre structure physique et aspects sensibles des sons.
Vers 1948, Pierre Schaeffer, détournant vers la création les moyens de reproduction sonore, introduisit à Paris la musique concrète. En 1950 est apparue à Cologne la musique électronique, qui faisait appel à des sons produits à l’aide d’appareils électroniques manipulés manuellement (oscillateurs, générateurs de bruit, filtres), le produit fini étant enregistré sur bande magnétique [cf. MUSIQUE CONTEMPORAINE].
En 1957, Max V. Mathews mit en œuvre aux États-Unis le procédé de synthèse des sons le plus général dont on dispose actuellement: la synthèse directe des sons par ordinateur, qui permet en principe de produire tout son susceptible d’être émis par un haut-parleur. Dans ce procédé, l’ordinateur commande pour ainsi dire directement le mouvement du haut-parleur: il calcule l’onde sonore dans tous ses détails temporels (les échantillons successifs calculés sont transformés en tension électrique variable à l’aide d’un convertisseur numérique analogique). Suivant le programme utilisé, le son peut être synthétisé selon des modalités très diverses: ce procédé de synthèse a servi à expérimenter différents modes de synthèse ou de traitement de la parole (cf. infra ) aussi bien qu’à étudier la perception de la hauteur, du timbre et de l’espace sonore. Un programme comme Music V permet à l’utilisateur d’agencer à son gré divers modules virtuels pour produire une grande variété de sons: la description de la structure physique des sons voulus doit être formulée dans un langage propre au programme. On peut ainsi mettre en œuvre diverses méthodes de synthèse: synthèse additive, dans laquelle on spécifie séparément l’évolution des composantes élémentaires du son; synthèse soustractive, où l’on stipule le filtrage sélectif d’un son complexe; méthodes globales, comme la modulation de fréquence (John Chowning) ou la distorsion non linéaire (Daniel Arfib, Marc Le Brun), qui permettent de façonner économiquement des évolutions spectrales; méthodes simulant numériquement des mécanismes vibratoires (Pierre Ruiz, Claude Cadoz), etc. Les sons obtenus sont reproductibles, et l’on peut « archiver » tous les détails de leur structure physique. Aussi le procédé aide-t-il à développer les connaissances psychoacoustiques qui sont nécessaires pour en tirer le meilleur parti: il faut savoir quelle description physique du son donne lieu à tel effet sensible recherché. Par ce procédé, on a déjà produit de la parole d’excellente qualité, des imitations ou métamorphoses de sons d’instruments de musique, des sons en quadriphonie dont le trajet virtuel est contrôlé avec précision, des sons impossibles à réaliser autrement et donnant lieu à des illusions acoustiques. Le procédé permet d’envisager une musique aux sons plus riches que ceux de la musique électronique, mais se prêtant mieux à un contrôle musical que ceux de la musique concrète. Mais, à moins d’utiliser un ordinateur très puissant, il ne fonctionne pas en « temps réel » (il faut plus d’une seconde à l’ordinateur pour « calculer » une seconde d’un son complexe), ce qui empêche l’utilisateur de réagir au fur et à mesure de la production du son.
Vers 1964, Don Buchla, Paolo Ketoff et Robert Moog ont introduit indépendamment la commande par tension des appareils de musique électronique: le réglage manuel est remplacé par l’envoi d’une tension appropriée. L’appareil peut alors être programmé par un signal électrique – produit par un clavier, un ruban, un potentiomètre, mais aussi par un autre appareil, un ordinateur, un capteur biologique. Ce principe a permis la construction de synthétiseurs électroniques compacts et multivalents, populaires dans les années 1970.
À partir de 1969 sont apparus des dispositifs hybrides de synthèse, dans lesquels l’ordinateur commande un synthétiseur de son: sa tâche étant allégée, on peut commander la fabrication du son en « temps réel », en jouer comme d’un instrument (Peter Zinovieff). Max Mathews et Richard Moore ont étudié spécialement la relation souhaitable entre le musicien et le système: ce peut être celle d’un chef à son orchestre plutôt que celle d’un instrumentiste à son instrument. Le musicien peut agir par gestes sur des claviers, des potentiomètres, des « capteurs » ou « accès » d’un type nouveau, mais aussi choisir par programme l’aspect du son ou de la musique qui sera modifié par tel ou tel geste: paramètre sensible du timbre, tempo, dosage des voix, conduite du phrasé, et même agencement compositionnel des sons. Les possibilités de mémorisation, de modification, de combinaison peuvent faire de tels systèmes plus que des instruments, des outils de création d’un type nouveau. Mais les possibilités sonores sont limitées – parfois sévèrement – par le synthétiseur.
Depuis 1975, on a construit de puissants processeurs numériques, ordinateurs ultrarapides spécialisés dans les opérations utiles à la synthèse et au traitement des sons (Hal Alles, Sydney Alonso, Peppino di Giugno, Andy Moorer, Peter Samson). Couplés à un mini-ou un micro-ordinateur, ces processeurs permettent le « temps réel » tout en préservant en partie la généralité et la précision propre à la synthèse directe par ordinateur. Les plus puissants sont utilisés pour la création musicale dans le cadre d’institutions comme le C.C.R.M.A. à Stanford, l’I.R.C.A.M. à Paris ou le C.N.M.A.T. à Berkeley. On parle de station de travail musical. Cependant, chaque station a ses idiosyncrasies, et il est généralement difficile et coûteux de « porter » sur un autre type de station les œuvres musicales dont l’exécution nécessite une station particulière. Cela pose un grave problème pour la pérennité de ces œuvres, car la microélectronique numérique évolue très vite, et un modèle donné est bientôt périmé et abandonné. Heureusement, l’accroissement régulier de la puissance des ordinateurs permet d’espérer qu’on pourra bientôt assurer par logiciel les traitements sonores les plus exigeants en temps réel, sans qu’il faille adjoindre à l’ordinateur des circuits spécialisés.
Le développement explosif et la démocratisation de la microÈlectronique tendent à accroître la place du numérique dans la musique telle qu’elle est faite et écoutée. Depuis 1983, les synthétiseurs numériques ont envahi le marché privé: la plupart des instruments à clavier vendus aujourd’hui sont numériques. Les studios pratiquent l’enregistrement numérique, et les disques compacts remplacent les microsillons. Sur les CD-ROM, le son est accessible au même titre que l’image et le texte. La prolifération des techniques numériques peut être la meilleure et la pire des choses: les pentes commerciales peuvent induire une régression redoutable des possibilités musicales. Mais, si l’informatique peut être un agent d’uniformisation, de normalisation, elle peut aussi offrir des outils raffinés et personnalisés. Si l’on arrive à définir et à réaliser des systèmes numériques individuels offrant des possibilités sonores et musicales riches et variées, ces véritables « outils d’expression » pourront aider à un renouveau de la pratique musicale.
Au-delà de la synthèse, le traitement numérique est utilisé pour modifier de façon ductile les sons numérisés, en recourant à des processus d’analyse-synthèse (vocodeur de phase, codage prédictif, transformations de Gabor et en ondelettes). Il permet aussi d’améliorer l’acoustique des salles et de simuler non seulement des sources sonores, mais aussi des environnements acoustiques, ce qui participe des « réalités virtuelles ». Sa précision permet de mettre en œuvre les techniques d’absorption active du bruit, qui atténuent un son non désiré par l’interférence destructrive d’un son en opposition de phase.
Synthèse de la parole
La synthèse de la parole présente pour les phonéticiens un intérêt d’ordre scientifique, celui de mettre à l’épreuve un modèle de production de la parole. Mais elle présente aussi un intérêt pratique considérable: si les ordinateurs pouvaient « comprendre » et « parler », on pourrait communiquer par téléphone avec un ordinateur: le combiné téléphonique serait le terminal d’ordinateur le plus économique et le plus répandu, permettant un accès facile à de multiples banques de données. Aussi un effort important est-il accompli aux États-Unis, au Japon, en Suède et en France, notamment, pour mettre en œuvre la reconnaissance et la synthèse automatique de la parole. Le problème de la reconnaissance est très difficile: on ne trouve actuellement que des systèmes fonctionnant avec un vocabulaire limité dans des conditions bien déterminées. Mais on peut coder une question sur les touches du combiné et écouter une réponse vocale synthétique.
Il existe déjà des réalisations techniques dans lesquelles un certain nombre de réponses possibles sont enregistrées sous une forme plus ou moins condensée dans l’ordinateur, qui les restitue en cas de nécessité. Mais l’enregistrement exige une mémoire de grande capacité pour ne fournir qu’un petit nombre de messages. Aussi cherche-t-on à mettre au point la « synthèse par règles » de la parole, dans laquelle ne sont mis en mémoire que les paramètres physiques correspondant aux éléments phonétiques (en petit nombre dans une langue) et les règles pour les combiner en vue de former des phrases intelligibles. Le problème de trouver des règles satisfaisantes est difficile. La parole humaine n’est pas une succession d’états stables correspondant aux phonèmes, elle n’est pratiquement constituée que de transitions entre des positions articulatoires correspondant aux phonèmes et qui ne sont même pas toujours atteintes: les règles doivent être déduites d’un bon modèle de ces transitions. La synthèse de la parole est plus facile si l’on part d’éléments phonétiques « moléculaires » comme les diphonèmes: une partie des règles est déjà contenue implicitement dans la structure des diphonèmes (si l’on part de ma , on n’a pas à chercher les règles pour la concaténation de m et de a ).
Les diverses méthodes de synthèse diffèrent par les paramètres physiques que l’on commande (dans toutes les méthodes, on contrôle la fréquence fondamentale ou « mélodie », responsable de l’intonation; l’accent paraît dépendre des modulations de la fréquence et de la durée plus que de l’intensité). Les valeurs des paramètres de synthèse sont souvent déduites d’analyses de parole (on parle de « vocodeur » pour désigner la chaîne analyse-synthèse). Dans un synthétiseur à canaux, on commande l’énergie dans un certain nombre de bandes de fréquence permettant d’approcher les configurations spectrales de la parole. Dans un synthétiseur à formants, on ne retient de ces configurations spectrales que les fréquences (et parfois les largeurs de bande) des formants, pics spectraux correspondant aux résonances du conduit vocal. Dans le codage prédictif, les configurations spectrales sont approchées en ajustant les paramètres d’un filtre récursif. La synthèse par simulation du conduit vocal contrôle la configuration de ce conduit, parfois à partir d’un modèle articulatoire de la production de la parole.
Depuis 1980, la synthèse de la parole a été mise en œuvre sous forme de circuits intégrés économiquement accessibles: délicats à utiliser, ils sont intégrés dans des produits industriels « grand public » (jouets éducatifs, réponses ou annonces vocales). On développe aussi des techniques pour réduire l’espace mémoire nécessaire à stocker la voix parlée numérisée, et pour permettre d’en abouter des fragments pour produire des réponses vocales appropriées – sans atteindre à la même flexibilité que la synthèse.
Depuis la fin des années 1980, les ordinateurs sont souvent équipés d’entrées et de sorties sonores, et l’on voit apparaître des serveurs interactifs qui marquent les débuts de la messagerie vocale et de la télématique sonore.
Encyclopédie Universelle. 2012.