Le son multicanal : une autre écoute, plus naturelle

Par Bergame Périaux, ingénieur du son, formateur à l’Ina, et Patrick Thévenot, spécialiste en acoustique, formateur à l’Ina

small

Bergame Périaux est formateur à l’Ina, responsable de la filière « Son multicanal ». Cette filière de formation propose des stages sur l’exploitation des nouvelles technologies propres au multicanal : la prise de son, le mixage, la création sonore, le son et l’interactivité, l’exploitation des technologies binaurales, l’écoute, le son pour la TVHD, le codage et la diffusion… Il collabore d’autre part en tant qu’ingénieur du son sur des projets musicaux 5.1 pour l’image HD, par la captation et le mixage, ce qui lui permet d’enrichir son enseignement par des applications concrètes de productions. Il a écrit divers articles, parus dans Réalisason, sur l’écoute binaurale spatialisée ou encore le système MMAD (Multiphonic Microphone Array Design), et organise des ateliers  d’écoute multicanal, notamment au Festival Longueur d’Ondes à Brest…
 

small

Spécialiste en acoustique, électroacoustique et psychoacoustique Patrick Thévenot est formateur à l’Ina. Il participe à l’élaboration des stages d’une manière transversale sur différentes filières. En particulier, il a mis au point une méthode d’apprentissage d’écoute professionnelle unique, utilisée systématiquement en formation et donnant rapidement d’excellents résultats sur les stages courts. Il partage une partie de son temps entre ingénierie systémique et formation. Il s’est spécialisé dans le calibrage et l’optimisation des écoutes multicanal, ainsi que l’étude et la conception de cabines de prise de son multicanal, ce qui lui permet d’actualiser en permanence la pertinence et la richesse de son enseignement. Il a écrit de nombreux articles dans des revues spécialisées : Sono Mag, Haute Fidélité magazine, Actualité de la scénographie, Prestige Audio Vidéo…, et organise des conférences dans le cadre de diverses manifestations : Satis, CST, Imagina, AAE, AES (voir « How to widen the sweet spot in monitoring 5.1 », AES Paper, mai 2008)…

_____________________________________
 

Depuis plusieurs années, les nouvelles technologies numériques apportent de nombreuses possibilités de capter et restituer le son, et pas forcément toujours, comme on peut le croire, avec une qualité tellement meilleure qu’auparavant, notamment avec la haute fidélité. Le son multicanal, que beaucoup décrivent comme étant le format audio le plus proche de l’écoute naturelle, est l’une des possibilités les plus sophistiquée. Bergame Périaux et Patrick Thévenot, formateurs à l’Ina, sont parmi les spécialistes les plus réputés de ces technologies faisant appel à des prises de son dite « acoustique naturelle ». Ils expliquent de manière très pointue et pédagogique comment fonctionne ce système d’écoute multicanal et en décrivent toutes les étapes de la fabrication et de la restitution, de la prise de son à la postproduction et à la diffusion, en prenant soin de lister à chaque fois les types d’outils à la disposition des professionnels.

______________________________________
 

DU VINYLE AU "HOME CINĖMA 5.1"


Les années 1960 ont vu naître la haute fidélité (hi-fi) associée à la stéréophonie. Les débuts de cette technologie se bornaient souvent à enregistrer en multipistes et recréer des sources réelles localisées dans les enceintes. Assez rapidement, les mélomanes et amateurs éclairés souhaitèrent une reproduction plus naturelle, avec l'envie d'être au concert, poussant en avant les technologies de plus en plus sophistiquées et faisant appel à des prises de son dite « acoustique naturelle ». Les sources réelles firent place à une imagerie sonore reproduisant des sources virtuelles beaucoup plus riches en émotions. L'espace stéréophonique s'étalait non seulement en largeur, mais aussi en profondeur. L'équilibre spectral et dynamique devint de plus en plus grand devant l’auditeur, mais celui-ci observait toujours le spectacle à travers une fenêtre ! Le besoin d’être immergé dans la scène sonore poussa le monde de l’audiovisuel à développer la technologie multicanal composées de 5+1 canaux (trois à l’avant, deux à l’arrière, plus un caisson de grave). Cette configuration représente la base du multicanal actuel et peut se complémenter par l’ajout de voies supplémentaires.

Poussé par le label de qualité THX, la montée en puissance du "home cinéma" fut alors inévitable dans les salons de particuliers, ravis d’être ainsi immergés chez eux dans l’environnement sonore. Les audiophiles (voire 
« audiopathes » !) cédèrent la place peu à peu aux cinéphiles. Mais ces deux mondes ont eu bien du mal à s'unifier : en effet, les qualités recherchées semblaient assez incompatibles, les audiophiles recherchant avant tout la qualité et les nuances musicales, alors que les cinéphiles étaient sensibles au niveau et à la dynamique. Les matériels dédiés à ces deux segments commerciaux n'avaient ainsi rien en commun et paraissaient même incompatibles.

Actuellement, grâce aux progrès des mesures électroacoustiques, les systèmes "Home Cinema" et les systèmes hi-fi se sont réconciliés grâce à l’utilisation de processeurs numériques de plus en plus évolués. La télévision HD (Haute Définition) et 3D facilite sans doute le développement et la réunification de ce marché qui sera relayé dans les années à venir par les systèmes multimédias, intégrant aussi les jeux vidéo et Internet. Les supports Blu Ray permettent également de satisfaire les mélomanes les plus exigeants, ainsi que les cinéphiles avertis.

Cependant, il est à craindre que l'évolution de ces technologies génèrent deux marchés différents et divergents : le multimédia de masse avec des sons très compressés privilégiant la quantité à la qualité et l'audiovisuel "high-tech" de haut de gamme visant un public socialement plus érudit, à l'image d'une société élitiste à deux vitesses…

Il est important de comprendre que le fait d'habituer les jeunes générations à écouter des sons compressés avec une fausse dynamique (MP3, smartphone, ordinateur, etc.) modifie l'apprentissage du langage (la manière de s’exprimer dans la vie de tous les jours) en l'appauvrissant et, par voie de conséquence, risque de modifier la manière de penser et le développement de l'esprit critique ! Des études très sérieuses mais peu connues ont été menées sur ce sujet (travaux ou articles extraits de thèses dans le domaine médical dans les années 1990 à 2000).
 

L’IMAGE SONORE 


•    Pourquoi apprendre à écouter ?



L’ingénieur du son a besoin, pour travailler, d’analyser ce qu’il entend d’une manière sûre et objective. Or, l’écoute d’un son, d’un objet sonore, d’une scène sonore est étroitement liée à notre culture auditive, mais aussi à notre humeur du moment. En bref, nous restons constamment dans le domaine affectif « j’aime… / je n’aime pas… » lors de la caractérisation d’une écoute. Nous avons donc besoin d’apprendre à analyser objectivement ce que nous entendons afin d’enregistrer, mixer les sons, mais aussi afin d'évaluer notre système d’écoute. Il s’agit là de l’écoute professionnelle, à laquelle tout ingénieur du son s’est exercé, bien souvent seul et sans méthodologie, d’où une efficacité très moyenne et, surtout, sans transmissibilité possible de cette méthode à ses confrères. C’est un peu le même problème que pour deux personnes ne parlant pas la même langue. Il est donc nécessaire, avant tout test auditif devant être comparé à la mesure, d’acquérir une méthodologie d’écoute objective et professionnelle fiable.

Ces critères sont également bien adaptés à la caractérisation d’un système d’écoute (enceintes + salle) en 2.0, 5.1 & 7.1. En stéréophonie, notre expérience auditive peut relativement "corriger" les défauts en s'adaptant au système d'écoute utilisé. Par contre, dès que le nombre de canaux augmente, notre audition "intelligente" devient impuissante devant le nombre de paramètres à gérer : par conséquent, il est impératif d'acquérir une technique d'écoute objective et systématique.


•    Les critères objectifs d’une écoute



Dans le cadre de nos formations à l’Ina (pour la plupart, des stages intégrant un contenu « son » voir le catalogue des formations d’Ina Expert 2013 1 ), nous distinguons plusieurs familles de critères :

-    les critères de construction,
-    les critères d’équilibre,
-    les critères de définition,
-    les critères de stabilité,
-    les critères de réverbération.

Ces critères découlent de la convergence d’expérimentations rigoureuses menées au Conservatoire national supérieur de musique de Paris (CNSM) et à Radio France (par Guy Laporte), au Conservatoire national des Arts et Métiers (Cnam) par Jacques Jouhaneau et à l’Institut national de l’audiovisuel (Ina) par Patrick Thévenot et Sébastien Noly.

Cette méthode quantifiée d’analyse sonore permet de s’affranchir en grande partie de ses goûts et de sa culture d’écoute grâce à une prise en conscience de celle-ci. Il n’est évidement pas question de ne plus prendre de plaisir à écouter, mais de pouvoir rapidement séparer le côté esthétique et affectif de l’écoute avec son côté neutre et objectif, ceci dans des phases différentes et séparées.

L’apprentissage de ces critères n’est pas intellectuel, mais sensitif : il n’y a donc rien à comprendre, mais des distinctions à ressentir, tout comme la distinction des goûts (salé, sucré, amer…) ! Aussi, cet apprentissage doit se faire grâce à un support audiovisuel spécialement élaboré dans ce but. C’est ce que nous proposons dans le cadre des stages et formations de l’Ina. Par conséquent, les définitions qui suivent sont données à titre informatif, mais sont insuffisantes pour l’acquisition de ce savoir-faire, ne pouvant être abordées que par une mise en situation effective, matérialisée par le cursus de formation.
 

LE SYSTÈME D’ÉCOUTE 5.1


•    Domaine artistique et domaine objectif


Les systèmes d’écoute sont omniprésents à beaucoup d’endroits de la chaîne audiovisuelle. Ces écoutes ont des finalités très différentes suivant qu’elles se trouvent dans le domaine artistique ou le domaine objectif. Il faut donc analyser les différents types de systèmes d’écoute en fonction de ces deux domaines.
 

large

Les différents types de systèmes d'écoute, © Patrick Thévenot.
 
 

Nous devons également examiner le circuit de production / diffusion en fonction de ces deux domaines.


large


Phases objectives et artistiques d'un circuit de production, © Patrick Thévenot.
 



•    Problématique spécifique au multicanal

En diffusion stéréophonique à deux canaux, les oreilles très aiguisées de l’ingénieur du son  lui permettent de s’adapter et de compenser en grande partie les défauts d’une écoute, ce qui explique que l’on trouve d’excellents enregistrements, y compris très anciens, alors que les systèmes d’écoute de l’époque, comparés à leurs homologues actuels étaient d’une neutralité contestable, voire très « colorés ».

L’introduction du multicanal, avec l’augmentation du nombre de canaux (5.1 et 7.1), ne permet plus à une oreille, même très entraînée, d’interpréter et de compenser les défauts d’un système d’écoute multidirectionnel. En effet, les paramètres deviennent trop nombreux et trop complexes pour être extrapolés et analysés afin d’assurer la transportabilité de l’enregistrement ou du mixage jusqu’à l’auditeur final.

Il devient donc indispensable de mettre en œuvre une méthodologie de réglage, ainsi que des corrections acoustiques et électroniques permettant de maîtriser enfin ce que l’on entend. Cette éventualité, tout simplement impensable il y a 20 ans, est maintenant possible, grâce à l’introduction de mesures informatisées basées sur la réponse impulsionnelle, sur une meilleure connaissance de notre perception, ainsi que sur des outils de corrections numériques très puissants.

•    Les mesures avancées

Nous abordons en formation les principes fondamentaux, les différentes mesures possibles, leurs avantages et leurs limites. Le tableau ci-après permet de comparer les signaux de mesure les plus utilisés avec leurs possibilités d'analyse, de calcul.

large 

Les différentes méthodes de mesure, © Patrick Thévenot.



•    Les différents types d’écoute

Pour une utilisation en monitoring, il faut distinguer les enceintes de proximité, les enceintes de mixage principales et les écoutes « client ». Ces dernières peuvent être très « typées » et différentes en fonction de l’utilisation finale et de la culture d’écoute.

Sans être exhaustif, trois cultures d’écoute se partage la scène audiovisuelle en production 5.1 : la télévision et multimédia, le CD et DVD et le cinéma. Les différences seront souvent dans la taille, le niveau et la dynamique, la directivité et la neutralité.

•    Mesures et interprétations auditives


Nous citerons ici les mesures les plus pertinentes et significatives des impressions d’écoute selon les critères d’analyse précédents :

-    courbe de réponse en fonction de la fréquence,
-    courbes de directivité,
-    courbes de retard en fonction de la fréquence,
-    rapidité d’écoulement d’énergie (Waterfall),
-    analyse par ondelettes,
-    distorsion et linéarité,
-    rendement et sensibilité.

•    Choix de l’écoute pour le multicanal


Toutes les courbes doivent être les plus régulières possibles et sans accident, le but d’une écoute monitoring n’étant pas d’embellir le son, mais de jauger rapidement un enregistrement ou un mixage sans se tromper et avec un minimum de fatigue auditive.
Les conditions de fidélité varient en production en fonction du type d’utilisation et nous distinguerons :

- l’écoute de proximité,
- l’écoute principale,
- l’écoute « client ».

L’étude du choix des enceintes en fonction de ces paramètres nécessite un approfondissement non abordé ici.

•    L’influence du local

Dans le grave : le couplage physique

Dans les fréquences graves (en dessous de 200 Hz), la courbe de réponse de l’enceinte est complètement tributaire du local d’écoute, ceci en fonction de son type, de la dimension du local et de son positionnement dans ce local. Espérer une courbe droite sans mesure ni réglage spécifique relève d’une parfaite utopie, telle espérer gagner le gros lot au Loto avec un seul billet !
Par conséquent, seul un réglage par égalisation électronique et, optionnellement, un traitement acoustique additionnel permet d’obtenir une courbe de réponse plate et régulière au point d’écoute dans cette plage de fréquence.


large


Exemple d'égalisation d'un Sub à la position d'écoute, © Patrick Thévenot.
 

Dans le médium-aigu : le couplage psychoacoustique et la balance tonale


Au-dessus de 200 Hz, la dimension de la salle devient très grande par rapport à la longueur d’onde, par conséquent, l’enceinte se comporte comme en champ libre et la salle n’a plus d’influence physique sur celle-ci.
Par contre, les premières réflexions (avant 20 ms) modifient notre perception de la source (son direct) : l’enceinte acoustique ne change pas, mais notre perception modifie le timbre, la localisation, la stabilité et la transparence de la source sonore initiale ; il s’agit de « l’effet de fusion ».

large

Principe de l'effet de fusion, © Patrick Thévenot).


Dans l’extrême aigu, nous sommes capables de séparer facilement les réflexions du son direct à toutes les fréquences (pas d’effet de fusion). Quand la fréquence diminue, les premières réflexions sont progressivement amalgamées au son direct (effet de fusion partiel) et nous percevons un détimbrage variable en fonction des accidents aux fréquences considérées ; il s’agit du « couplage psychoacoustique ». Dans le grave, nous amalgamons toutes ces réflexions à la source initiale (effet de fusion total). Ces accidents, parfaitement mesurables, peuvent être corrigés ou compensés grâce à une méthode d’égalisation dite « physiotemporelle » et suivant une courbe qui tient compte du temps et de la fréquence, obtenue à la suite d’études effectuées en chambre anéchoïque à l’Ina sur plus de 150 sujets.

Cette égalisation particulière est très différente de celle obtenue par « bruit rose » (signal de mesure normalisé couramment utilisé et ressemblant au bruit d’une cascade en montagne) qui ne tient absolument pas compte de cet effet de fusion. 

•    L’influence du champ réverbéré tardif : balance tonale et transmissibilité des mixages


Les réflexions tardives (après 20 ms), donc en dehors de l’effet de fusion, ne modifient plus le timbre ni l’identité du son direct, mais altèrent la balance tonale globale du mixage et les plans sonores. La maîtrise de ce paramètre  (mesuré par le C20) est donc déterminante pour assurer la transportabilité du mixage chez le client et, ainsi, éviter les mauvaises surprises !

•    Les différents types de cabines de mixage

Nous citerons les types de cabine suivants, sans les définir ici :

-    type « Tom Hidley »,
-    type Lede,
-    type à amortissement réparti,
-    type à diffusion répartie.

Certaines cabines sont plus ou moins bien, ou pas du tout, adaptées au multicanal.


large

Les choix et arbitrages de cabines de mixage, © Patrick Thévenot.
 

•    Normalisation d’une écoute multicanal

Un système d’écoute monitoring se doit d’être réglé selon la norme ITU (International Telecommunication Union) pour ce qui est de la production télévisuelle ou DVD et selon la norme ISO (International Organization for Standardization) ou SMPTE (Society of Motion Picture & Television Engeneers) pour ce qui est de la production cinématographique.

Nous ne mentionnerons ici que les différences concernant l’implantation géométrique.
 

large

Implantation géométrique du système d'écoute en 5.1 avec cinq ou sept enceintes, © Patrick Thévenot.
 

large

Implantation du système de diffusion, © préconisations CST.
 



En fait, le niveau d’alignement, le type d’enceinte et l’égalisation sont totalement différents entre les deux normes, ce qui fait qu’un mixage cinéma doit être réalisé dans un auditorium spécifique, très différent d’une cabine de mixage musique ou télévision.

•    L’écoute au casque multicanal


L’écoute au casque se différencie de l’écoute stéréophonique sur enceintes par son impossibilité à reproduire une localisation identique en largeur et en profondeur. En effet, en perception binaurale naturelle, chaque oreille reçoit un signal de la source sonore. 

Ces deux signaux sont caractérisés par une différence de niveau, une différence de temps, mais aussi des déformations en amplitude et en phase très complexes dans le médium aigu, étudiées et connues sous le nom de fonctions HRTF (Head-Related Transfer Function). 

Ces déformations sont dues à la forme particulière de notre oreille, tête et torse, et donnent une signature sonore différente pour chaque angle solide (horizontalement et verticalement).
Un casque ne génère qu’un seul son par oreille avec un angle fixe de 90° par rapport à l’axe de notre tête et se trouve donc incapable de restituer cet espace, d’où l’impossibilité de l’utiliser pour caractériser une prise de son en construction.
Il est évident qu’en multicanal à cinq ou sept canaux, le problème est encore plus insoluble.
La seule solution était de refabriquer les fonctions HRTF correspondant aux angles de restitution réels des enceintes, ce qui est à présent possible grâce aux processeurs de plus en plus puissants. 
Très récemment, des fabricants ont proposé des processeurs associés (ou non) à un casque dédié permettant de reproduire une localisation correcte et compatible à l’écoute sur enceintes.

•    Calibrage d’une écoute et optimisation par corrections électroniques


Les différents moyens électroniques existants

Dans les différentes solutions de correction et/ou compensation, nous distinguerons les filtres analogiques et les filtres numériques. Les filtres analogiques, un peu obsolètes à l’heure actuelle, ne sont plus beaucoup utilisés, au bénéfice des filtres numériques.
Dans les filtres numériques, il nous faut distinguer les filtres IIR (Infinite Impulse Response) et les filtres FIR (Finite Impulse Response).


large

Corrections et compensations par moyens électroniques, © Patrick Thévenot.
 


Ces filtres sophistiqués peuvent être associés à un simple microphone de mesure omnidirectionnel, une sonde tridimensionnelle, qui est en fait assimilable à une sonde intensimétrique. Dans ce dernier cas, nous pouvons parler de correction de champ acoustique ou de correction et compensation spatiale. La différence entre la pression acoustique et le champ acoustique réside dans le pouvoir séparateur de ce dernier, suivant la provenance et la direction de la source.

large


Mesure et calcul d'un champ acoustique © Patrick Thévenot.
 


La mesure du champ acoustique permet une correction sélective suivant la direction et, même, de synthétiser celui-ci. Cette application est fortement intéressante dans les cars régie ou les cabines exiguës, où le placement des enceintes est très restrictif.


Prise en compte des circuits de production et des cultures d’écoute


Les compensations et corrections en vue de rendre neutre le système d’écoute (enceintes + salle) ne sont pas suffisantes en enregistrement et mixage. Une deuxième phase de traitement est nécessaire afin de garantir la compatibilité descendante avec l’utilisateur final, compatibilité qui dépendra du type et du circuit de production.

On peut distinguer différents circuits de production :

- la production musicale sur support CD, DVD ou Blu Ray,
- la production télévisuelle,
- la production cinématographique,
- les productions spécifiques (muséographie, parcs d’attraction, planétarium…)
- les productions « média global ». 

Grâce aux mesures par réponse impulsionnelle et aux processeurs FIR, il devient possible de mesurer et de reproduire une courbe cible correspondant aux circuits de production type, ceci d'une manière statistique.

•    Diagnostic et test d’un système d’écoute 5.1 par méthode entièrement auditive à l’intention des ingénieurs du son


Il existe de nombreux CD et DVD de réglage destinés aux amateurs de hi-fi, aux cinéphiles et, aussi, aux ingénieurs du son. Ces productions sont en général assez ludiques ou complexes, ou les deux, et traitent souvent en plus du réglage de l’image. Dans tous les cas observés dans les applications professionnelles, il est nécessaire de disposer d’un sonomètre étalonné pour faire les réglages afin de régler le niveau d'alignement absolu.

Ina Expert propose à ses stagiaires une méthode sur support DVD ou Protools qui n’utilise que notre audition et fait appel aux caractéristiques physiologiques de celle-ci. En effet, notre sensation de niveau sonore varie avec la fréquence du son (cf. courbes d'isosonies de « Fletcher et Munson » ou « Datson et Robinson »). Cette variation est donc incluse et compensée dans le contenu audio de la session de test. Le niveau de référence est important puisqu'il détermine la courbe d'isosonie utilisable pour les compensations auditives. Un instrument de musique coutumier des exploitants son a été utilisé pour ce faire. Le seul instrument nécessaire est donc l’oreille exercée de l’ingénieur du son.

Par ailleurs, celui-ci ne disposant en général que de peu de temps, la méthode privilégie ici l’efficacité et la rapidité d’analyse plutôt que l’aspect ludique, la finalité de ce test étant de diagnostiquer rapidement l’outil d’écoute et de se rassurer quant au niveau de confiance du mixage réalisé.

•    Perspectives et évolutions

À l’avenir, on peut tabler sur l’augmentation du nombre de canaux (7.1 à 23.1… ou plus !). Partant du principe de base du multicanal en 5.1 et sans être exhaustif, on peut citer :

-    le format 7.1 (Dolby, DTS),
-    le format 22.2 (NHK),
-    le format 23.1 (Imm Sound),
-    le format Dolby Atmos (maxi 64 voies).

Chacun de ceux-ci présentent des avantages et évolutions par rapport au 5.1 mais restent pour la plupart, basés sur le principe de la stéréophonie et de la création de sources acoustiques virtuelles rendues de plus en plus stables et précises grâce au rapprochement des enceintes entre elles.

Le système Atmos  développé récemment par Dolby est basé sur la reproduction d’une imagerie sonore formée d’objets ponctuels ou diffus et met en œuvre de multiples enceintes supplémentaires (jusqu’à 64 voies !), permettant aussi la reproduction de sources sonores dans le plan de la hauteur. Il vise donc à une immersion naturelle en 3D dans le champ acoustique.

•    L’après multicanal ? Le transaural et le WFS (Wave Field Synthesis) 


La technologie transaurale


Il s'agit de recréer exactement les stimuli d'origine perçu par les oreilles lors d'une écoute naturelle. Celle-ci permet la localisation des sources sonores grâce à l'utilisation par notre cerveau des fonctions HRTF. La solution la plus simple est de reproduire au casque un enregistrement effectué à l'aide d'une tête artificielle de type binaural.

Une autre solution est possible avec deux haut-parleurs, il s'agit des techniques transaurales dont le principe repose sur une annulation des chemins croisés (« crosstalk » ou « cancelling »).

Le traitement des signaux binauraux permet une restitution 3D par la technique de l’annulation de ces chemins croisés. Le réalisme de reproduction par cette technique peut être tout à fait étonnant : on peut parfaitement entendre des sources placées dans tout l'espace, y compris à l'arrière avec des enceintes placées en avant !

L'utilisation des techniques transaurales peut également être appliquée à l'enregistrement et au mixage en complément de systèmes multicanal en 5.1, en particulier afin de stabiliser la localisation des sources latérales surround et ainsi agrandir sensiblement la zone d'écoute pour l'auditeur. Des études pratiques ont été réalisées entre autres, au CNSM (Conservatoire national supérieur de musique de Paris).
 

Le principe WFS

Le principe de base, assez simple, est radicalement différent de celui de la stéréophonie qui vise à la création d’images sonores et de champs acoustiques virtuels. Il s’agit ici de recréer des champs acoustiques réels à partir de sources sonores qui peuvent, elles, être virtuelles selon le principe d'Huygens, le tout étant géré par un ordinateur contrôlant chaque haut-parleur séparément, avec autant de voies d’amplification.



large

Principe d'Huygens, © Patrick Thévenot.



La conséquence de ce qui précède est que l'on sort du paradigme qui prévaut le plus souvent en sonorisation et qui consiste à disposer d'une source par canal de restitution (une enceinte pour le canal gauche, une pour le canal droit, etc.). Dans le cas de la WFS, on s'appuie sur un réseau de transducteurs d’espacement calculé, puis on place les sources sonores virtuelles désirées. Le champ sonore se déploie alors sur la zone de public avec une précision de localisation identique quelle que soit la place.



large

Principe du WFS, © publication Sonic Emotion.


L'intérêt immédiatement constaté est une absence de fatigue auditive liée au fait qu'on ne localise plus les enceintes, mieux : de l'avis des spectateurs et des musiciens, « on oublie la sonorisation… » ; Les applications sont très nombreuses, en théâtre, concert live, parcs d'attraction, mais aussi cinéma 3D et ce système représente sans doute l'avenir du son multicanal !

LA PRISE DE SON 


Le multicanal redéfinit le concept de prise de son car, comme pour le couple stéréophonique, le système de prise de son multicanal, constitué de plusieurs microphones, donne une représentation de la scène sonore très homogène, en prenant en compte l’acoustique du lieu, telle une photographie.

Nous définissons la prise de son multicanal par l’utilisation d’un système de captation prévu pour alimenter les enceintes du dispositif de restitution, généralement les cinq enceintes du 5.1. Nous utilisons donc un ensemble de microphones spatialisés, afin de capter l’acoustique d’une salle ou l’ambiance d’un lieu. La scène sonore doit être spatialisée dans une salle suffisamment réverbérante ou dans un environnement ayant des propriétés sonores enveloppantes. La construction d’une scène sonore sur les trois canaux frontaux, donne généralement des résultats satisfaisants.

Il existe un grand nombre de systèmes travaillant à trois, quatre ou cinq microphones. Il est important de faire la différence entre un système principal et un système d’ambiance. Le système principal est comparable au couple stéréophonique, il donne l’image sonore principale avec une spatialisation des sources et un rapport champ direct sur champ réverbéré adéquat, de telle sorte que les éléments sonores soient suffisamment timbrés. C’est une photo de la scène qui apporte l’information de localisation des sources et qui donne un point de vue. En général, on construit le reste de l’image sonore à partir de ce système principal. Le système d’ambiance ne comporte pas de sources directes, il pose en quelque sorte le décor, l’atmosphère d’une scène, en restituant une certaine distance. On travaille en général ensuite le reste de l’image en intégrant le son direct en frontal, ou parfois tout autour de l’auditeur, capté en mono, en stéréo ou à partir de trois ou cinq canaux.

Certains preneurs de son à l’image travaillent avec des systèmes LCR, pour la restitution de la scène sonore sur le frontal, certains travaillent avec des systèmes 4.0, ou 5.0 ou en format codé. Chacun trouve sa méthode, et il n’y a pas vraiment de solutions toutes faites, car tout dépend de l’écriture de l’œuvre et de la réalisation.

Le principe de la prise de son multicanal repose sur deux notions : la localisation, définie par la construction des différents secteurs de l’image sonore et l’obtention d’une bonne impression spatiale. Si l’on considère un système constitué de cinq microphones, chaque paire de microphones adjacents se comporte comme un couple stéréophonique qui restitue un angle de prise de son sur l’image fantôme correspondante. La difficulté est d’optimiser la configuration pour obtenir un lien parfait entre les cinq images fantômes issues des cinq angles de prise de son,  sans qu’il n’y ait de trou ou de superposition d’angles de prise de son. En effet, on doit faire rentrer dans 360 degrés quatre ou cinq angles de prise de son qui découpent l’espace en secteurs complémentaires.

Dans cette approche des couples stéréophoniques adjacents, il existe une certaine diaphonie acoustique mais celle-ci dépend de la directivité des microphones, de leurs orientations et de la distance entre eux. Il existe dans cette première famille un grand nombre de systèmes : les systèmes principaux et les systèmes d’ambiance. 
Parmi les systèmes principaux, il y a les systèmes espacés et les systèmes matricés. 

•    Systèmes principaux espacés

Le MMAD (Multiphonic Microphone Array Design), conçu par Michael Williams et Guillaume Le Dû, repose sur la théorie des angles de prise de son, il comporte une infinité d’abaques dépendant de la directivité des microphones (omnidirectionnels, hypocardioïdes, cardioïdes, supercardioïdes, hypercardioïdes) et du placement des capsules. C’est l’un des rares systèmes compatibles avec la philosophie artisanale de la prise de son : choix du microphone, de sa directivité, de l’orientation des capsules… Il existe le support pour la salle, l’étoile, et le support pour le reportage, le parapluie. L’Ina possède ces systèmes très polyvalents et les met en application sur différentes expérimentations, au cours de stages de prise de son.
large

Parapluie MMAD utilisé pour le reportage et le documentaire, ici testé par Frédéric Ullmann au cours d’un stage de prise de son multicanal, © Vincent Magnier.
 


L’arbre Decca est un système couramment utilisé pour la prise de son d’orchestre notamment pour le film, il est constitué de cinq microphones omnidirectionnels et ne repose pas sur une théorie particulière.

D’autres théories visent à réduire la diaphonie acoustique, en utilisant des directivités sélectives  afin de minimiser l’interaction entre les microphones. L’OCT Surround, conçu par Günther Theile (IRT, Schoeps), est un système principal qui utilise deux microphones supercardioïdes orientés à -90° et +90° par rapport au centre, en interaction avec un microphone central cardioïde, orienté vers l’avant avec un certain avancement. Ce système donne des résultats de localisation frontale saisissants mais la restitution des timbres reste peu convaincante, compte tenu de la directivité supercardioïde utilisée.


large

L’OCT Surround, un système pour la captation en salle, © Bergame Périaux.




•    Systèmes principaux matricés

Le double MS et le Soundfield (système ambisonique d’ordre 1) sont les systèmes matricés, quasi coïncidents. Ce sont deux systèmes très proches, ils matricent des directivités virtuelles dont on peut faire varier les angles. Le coefficient de directivité est aussi variable dans le double MS. Chacune des deux solutions sont accompagnées d’algorithmes de décodage.

Ces systèmes ont l’avantage d’être compacts, donc pratiques pour le tournage. Mais la coïncidence des capsules implique un effet d’internalisation des sources, donc un rendu de l’espace assez limité.

Parmi les systèmes d’ambiance, on trouve la croix IRT, le carré Hamasaki, le Double ORTF, l’ORTF Surround. La croix IRT et le DORTF utilisent des directivités cardioïdes, l’ORTF Surround utilise des directivités supercardioïdes, et le carré Hamasaki, des bidirectionnels. Ce sont généralement des systèmes 4.0 utilisés en fond de salle pour la captation d’orchestre, ou pour le reportage. Les rendus sonores diffèrent en fonction des directivités utilisées : la croix IRT donne une image plus dirigée vers les enceintes, tandis qu’un carré Hamasaki donne une perception du champ sonore plus diffuse et plus homogène. L’impression spatiale de ces systèmes est généralement bien restituée.
 

large

L’ORTF Surround Schoeps utilisé pour le reportage, © Vincent Magnier.


large

La croix IRT à la foire du Trône, © Vincent Magnier.
 

L’holophone H2 Pro et le Dpa 5100 sont des systèmes d’ambiances à cinq microphones utilisés pour la captation d’événements sportifs, ils sont généralement placés sur le bord du terrain (football, rugby, tennis).


 large

Le Dpa5100 utilisé pour le sport, le reportage, © Bergame Périaux.
 


Il existe aussi, dans l’évolution des technologies d’analyse du champ sonore, des concepts de prise de son à haute résolution spatiale. Ces concepts permettent de fabriquer des directivités de microphones très sélectives, classées par ordres (ordre 0, 1, 2, 3, 4, 5…). Plus l’ordre est élevé, plus la directivité est fine. L’ordre 0 est représenté par la directivité omnidirectionnelle, l’ordre 1 concerne les autres directivités usuelles (cardioïde, infracardioïde, supercardioïde, bidirectionnelle, hypercardioïde). Afin de fabriquer des systèmes à ordres supérieurs, ce qu’on ne sait pas faire à partir d’une seule capsule, on utilise des réseaux de microphones, placés sur une sphère ou sur un plan horizontal. Nous avons deux types de systèmes : les systèmes HOA (High Order Ambisonics) et Trinnov SRP.


large

Système de captation haute résolution spatiale SRP, © Bergame Périaux.
 

large

Système HOA Eigenmike, © MH Acoustics.
 


Pour la captation binaurale spatialisée (restitution de l’écoute spatialisée au casque stéréo), on utilise des têtes artificielles ou des microphones miniatures que l’on place dans le creux des oreilles. Dans les deux cas, le système reproduit les fonctions de transfert HRTF sur lesquelles l’oreille s’appuie pour identifier la provenance des sources. On trouve différentes têtes artificielles, parmi les plus connues, la tête Neumann KU100, la Head Acoustics HMS3, et le mannequin Kemar.
 

large

Tête Neumann KU100, © Bergame Périaux.
 

Tous ces systèmes ont été expérimentés, comparés dans différentes situations, ils donnent des rendus sonores très différents. Généralement, l’utilisation d’une distance entre les microphones permet d’obtenir une bonne impression spatiale, avec perception d’enveloppement, tandis que le système coïncident ramène les plans sonores en interne, on parle alors d’effet d’internalisation.
 

LA POSTPRODUCTION

La spatialisation en multicanal fait appel aux mêmes règles qu’en stéréophonie, le mixeur réalise la balance des sources (les équilibres), il travaille leurs intelligibilités, leurs couleurs, il gère l’espace avec les réverbérations et les ambiances et affine l’évolution temporelle du mixage par l’automation. La seule grande différence consiste à gérer trois fois plus de données (en pistes, en routing, réverbérations et autres effets) et à créer une nouvelle image sonore. Il est très courant d’avoir des sessions d’une centaine de pistes pour le film, voire même plus, car la musique est mixée en général à part, c’est pourquoi les outils informatiques très souples sont de plus en plus sollicités. En effet, la multiplication des directions du 5.1 complexifie la gestion des sources, et une automation et un total recall instantané comme proposés par le Pro Tools, ou par d’autres logiciels équivalents, vont bien simplifier la démarche et faciliter le travail. 
D’une façon générale, les outils 5.1 présentent quelques subtilités, comme la gestion du monitoring, le « bass management », la divergence centrale, le manager multicanal, la mesure des six canaux, le Downmix, l’Upmix, le traitement dynamique 5.1, la réverbération... À cela s’ajoute la gestion des métadonnées (metadata) qui préparent l’encodage.

Le montage constitue une étape où convergent différents formats de sons, mono, stéréo, LCR, quad, 5.0, 5.1. À cette étape, les sons sont généralement déjà spatialisés sous forme de stems 5.1 séparés (prémix), qui seront repris par le mixeur. Le monteur travaille en salle de montage équipée en 5.1, il  reçoit le fichier OMF (Open Media Framework) du monteur image et les rushes de la prise de son, issus d’enregistreurs Cantar, Deva, Sound Devices. Le monteur organise sa session Pro tools avec des stems de monitoring de différents formats qu’il utilise pour son propre travail et livre ensuite sa ou ses sessions Pro tools au mixeur avec des stems déjà regroupés, ces derniers seront réutilisés au mixage. Le contenu s’organise sous forme de sons « directs » (synchrones), généralement les dialogues, les post-synchro, les bruitages, les ambiances, les FX et la musique. Ces stems sont généralement au format 5.1, et sont repris à l’étape de mixage, ils constituent au final le « multi », depuis lequel seront fabriquées toutes les versions PAD 5.1 et stéréo.

La gestion du multicanal dans une station audionumérique est tout d’abord conditionnée par la compatibilité des formats, les stations sont généralement toutes compatibles 5.1, certaines acceptent les formats 6.1, 7.1, ou 10.2. Les formats supérieurs étant rares, ils sont implémentés dans les logiciels de création sonore, ceux-ci étant d’ailleurs assez spécifiques. 

Il est usuel de créer des pistes en 5.1, ceci facilite le mixage et le montage, mais il faut pouvoir gérer les différents canaux contenus dans cette piste, on utilise pour cela un manager, lequel permet d’isoler les différents canaux dans le monitoring, de retoucher leurs niveaux, leurs phases, les délais…

La plupart des consoles de mixage gèrent aujourd’hui le multicanal, en 5.1, et en 7.1 pour certaines, ce qui suppose l’intégration d’un pan-pot dédié permettant d’acheminer le signal vers un bus multicanal  et d’une section monitoring multicanal adaptée. 

Le pan-pot est le merveilleux outil que l’on utilise pour spatialiser les sources autour de nous, il en existe de différentes technologies : le VBAP (vector base amplitude panning), le DBAP (distance base amplitude panning), l’ambisonique, le pan-pot évolué avec des fonctions HRTF intégrées… Ces différents outils seront identifiés par le mixeur afin de faire le bon choix de l’environnement de travail. Le pan-pot utilise des notions de divergences pour régler la spatialisation. Dans la gestion du centre, il est possible de combiner image fantôme gauche et droite et centre physique, grâce à la divergence centrale. La divergence vers les autres canaux permet de recorréler les canaux du multicanal. Le pan-pot est généralement représenté par un point que l’on déplace avec un joystick dans l’espace, identifié par un carré ou un cercle délimité par les enceintes. Il comporte un départ LFE (Low Frequency Effect) et des possibilités de divergences vers les autres canaux afin de resserrer l’espace.
large

Pan-pot Pro Tools, © Avid.
 

On peut aussi gérer la spatialisation avec des plug-ins ou des applications spécifiques comme le font le spatialisateur de l’Ircam (Institut de recherche et coordination Acoustique/Musique), ou AudioStage de Longcat. Ce sont des solutions de spatialisation acoustiques évoluées, intégrant différentes lois de pan-pot, avec différents paramètres propres à l’acoustique des salles. AudioStage a la particularité innovante de pouvoir modéliser de façon numérique l’écriture 3D de scènes sonores animées. On ne bouge plus la source, mais on déplace le spectateur et son point de vue avec des trajectoires automatisées, le moteur de lecture audio calcule en temps réel les modifications du champ sonore.
large

Application de modélisation de scène sonore AudioStage, © Longcat.


Il y a aussi les pan-pots compatibles mixage objets, ceux-ci permettent de spatialiser les sources dans des formats généralement évolués intégrant la notion d’élévation, en utilisant des métadonnées de localisation. C’est le cas de la WFS ou du Dolby Atmos. Le Dolby Atmos est un système de diffusion avec son 3D redonnant à l’image sonore toute sa décorrélation, il est compatible 128 canaux et 64 enceintes, et repose sur un ensemble de sources orientées « channel » et de sources objets.  Les sources orientées « channel » sont appelées les 
« beds », ils contiennent les premix usuels au format 7.1 + 2 canaux pour la notion d’élévation. Les autres sources, les objets, peuvent être spatialisées sur n’importe quelle enceinte de diffusion. Le concept d’« objet » permet d’être compatible avec toutes les salles de diffusion, car la spatialisation est recréée dans la salle de cinéma par le processeur qui reçoit les sources séparées et leurs métadonnées (metadata) de localisation. Cela permet une meilleure compatibilité avec les salles, qui sont généralement hétérogènes. Le processeur peut générer des Downmix 7.1 ou 5.1 pour les salles traditionnelles.
large

Panner Avid Dolby Atmos, © Dolby.



EXPLOITATION BROADCAST, CODAGE ET DIFFUSION

La phase de mixage multicanal s’accompagne depuis quelques années de métadonnées (metadata) qui facilitent la diffusion et qui permettent une meilleure maîtrise de celle-ci chez le particulier. Ces métadonnées, associées principalement au flux Dolby Digital, se retrouvent sur le support home cinéma DVD, Blu Ray et sont notamment présentes dans le broadcast, mais elles ne touchent pas le secteur du cinéma. Ces métadonnées transportent la mesure « loudness » du programme, afin d’harmoniser les niveaux entre différents programmes ou différentes chaînes. Elles permettent l’adaptation au lieu d’écoute domestique à travers des profils dynamiques que l’on peut attribuer au programme et elles traitent de la compatibilité stéréo et mono par des coefficients de Downmix. La première métadonnée, le Dialnorm, porte la valeur de loudness du programme, la deuxième, les DRC (Dynamic Range Control), intègre des profils de compression dynamique et la troisième, le Downmix, gère la compatibilité stéréo et mono du signal.

Les métadonnées sont transportées dans chacune des trames, à travers les interfaces AES (Audio Engineering Society) ou SPDIF (Sony Philips Digital InterFace). Elles jouent un rôle de description du contenu audio et servent aussi à contrôler le signal audio lors du décodage. Ces métadonnées sont renseignées par le mixeur et sont utilisées au décodage, combinées  avec le réglage de l’écoute de l’utilisateur sur l’amplificateur AV home cinéma (bass management, ajustement optionnel des métadonnées loudness et DRC). 

Le Dialnorm est la métadonnée qui porte la valeur de loudness du programme, c’est-à-dire le niveau moyen mesuré sur toute la durée du programme. Le plus souvent, c’est le niveau de la parole qui sert de référence, d’où le nom de « dialog level », proposé par Dolby. Mais, depuis 2011, la nouvelle norme européenne EBU R128 préconise l’utilisation d’un algorithme universel, utilisant la notion de « gate ». Donc, le Dialnorm est renseigné depuis cette nouvelle norme par la valeur mesurée avec le « gate », compatible R128, qui doit être égale à -23.0 LUFS © 1 LU (Loudness Unit Full Scale) pour les directs et -23.0 LUFS pour la postproduction. Ces dernières années, le -23.0 LUFS est le nouveau centre de l’univers dans le domaine du son Broadcast ! En France, cette norme fait l’objet d’une publication référencée CST RT17 v3. Nous disposons alors de nouveaux outils de mesures, capables d’analyser l’excursion de loudness du programme, le LRA (Loudness Range, compris entre 5 LU et 20 LU), ainsi que le « max short term loudness », qui est un paramètre à prendre en compte pour les produits de courte durée (-20 LUFS). La notion de crêtes numériques est plus précise, on mesure maintenant les « true peaks », c’est-à-dire les crêtes entre deux échantillons car l’algorithme fonctionne à quatre fois la fréquence d’échantillonnage. Ceci permet de garantir un signal sans écrêtage, après conversion numérique analogique. La norme précise de ne pas dépasser -3 dB TP (True Peak).
large 

Algorithme R128, © EBU/UER.



De l’analyse des films les plus délicats, Dolby préconise une valeur moyenne de loudness de –31 LKFS (mesure Dolby sans gate) ou LUFS (31 dB en-dessous du niveau de loudness maximal 0 dBFS). Cette valeur permet d’exprimer pleinement toute la dynamique du programme, notamment sur les passages d’action (forts transitoires, explosions).

Lorsqu’on mesure le loudness d’un programme, prenons – 24 LUFS par exemple, le décodeur Dolby Digital appliquera alors à la diffusion une atténuation de 7 dB pour restituer le programme à la valeur moyenne de – 31 LUFS. Pour un programme de –21 LUFS, le décodeur appliquera une atténuation de 10 dB, ainsi de suite. Les programmes à –31 LUFS ne seront pas atténués et seront diffusés tels quels.
On définit donc le Dialnorm ainsi : 31 + Dialnorm = atténuation appliquée.

Les divers environnements d’écoute domestiques introduisent de nombreuses contraintes pour la dynamique de reproduction. La dynamique acceptable dans un salon est limitée par sa taille, son isolation, les bruits environnants. D’autre part, suivant la nature du programme, l’heure, les conditions d‘écoute ou simplement ses goûts personnels, un auditeur ne désirera pas bénéficier de la même dynamique. Au lieu de compresser le signal audio pour qu’il se comporte au mieux sur les plus mauvais systèmes d’écoute, une métadonnée appelée DRC est véhiculée dans le flux Dolby Digital jusqu’au décodeur, ce dernier applique alors le profil de compression renseigné par le mixeur afin de réduire la dynamique du signal.

Les profils de traitement dynamique, associés à la métadonnée DRC, compressent à des taux variables les hauts niveaux et relèvent les bas niveaux. Le seuil de compression est la valeur renseignée dans le Dialnorm, d’où l’importance de bien le renseigner pour éviter une détérioration du signal. Il existe six profils DRC : film standard, film light, music standard, music light, speech et none.
largeProfils Dolby DRC, © EBU/UER.



La plupart des décodeurs Dolby Digital offrent la possibilité d’activer ou de désactiver les DRC, mais certains ne le permettent pas. Tous les décodeurs avec sorties 5.1 discrètes le proposent généralement. Les décodeurs avec sorties stéréo, mono, ou RF remodulée sur les lecteurs DVD ou set-top boxes activent automatiquement la métadonnée DRC en sortie analogique. On peut cependant récupérer le flux Dolby Digital numérique et le décoder sur un ampli home-cinéma plus complet.

Le flux Dolby Digital transporte deux profils de compression suivant les deux modes Line mode et RF mode. Ces modes sont identifiés par le type de sortie que le décodeur alimente. Généralement, le Line Mode gère les sorties de niveaux lignes sur les décodeurs en 5.1 ou stéréo, le RF mode est associé aux décodeurs qui alimentent une entrée mono RF/antenne d’un téléviseur. 

La métadonnée Downmix permet la diffusion à travers le flux Dolby Digital vers tous les formats d’écoute : stéréo, mono et LtRt (Left total Right total) compatible Dolby Surround. Le flux Dolby Digital est transmis en 5.1, il assure une compatibilité stéréo par une opération de « Downmix » qui consiste à sommer les canaux arrière en phase dans le mode LoRo (Left only Right only) ou hors phase dans le mode LtRt. Le LtRt peut être alors écouté tel quel, en stéréo, ou redirigé vers un décodeur Dolby Prologic pour une écoute multicanal matricée. Le choix du mode de Downmix est fait par le mixeur, en conformité avec le cahier des charges du diffuseur télévisuel.

À la diffusion chez le particulier, le flux Dolby Digital est décodé en 5.1 ou s’adapte au mode de diffusion grâce à la métadonnée Downmix :
-    les modes LoRo ou LtRt pour les formats stéréo,
-    la sommation Lo+Ro ou Lt+Rt pour le format mono,
-    le décodage Dolby ProLogic du LtRt pour le mode Dolby Surround.
 

large

Les différents Downmix issus du Dolby Digital, © Bergame Périaux.
 

Le mode de Downmix est renseigné dans la métadonnée « preferred Downmix », il utilise les coefficients de réduction pour le canal central et les canaux arrière, associés au mode choisi. On trouve ainsi les coefficients Center et Surround pour les modes LoRo et LtRt. Par défaut, ces coefficients sont -3 dB, mais ils peuvent être modifiés si les Downmix stéréo ou mono ne fonctionnent pas de façon optimale. Le changement se fait par pas de 1,5 dB, ce qui donne des coefficients de -6 dB, -4,5 dB, -3 dB, -1,5 dB, 0 dB, +1,5 dB, +3 dB ou -©.

Le mixage 5.1 pour un programme télévisuel doit par conséquent être compatible stéréo et mono, car la stéréo est dérivée obligatoirement du flux Dolby Digital 5.1, le mixeur doit donc assurer un compromis entre l’image sonore multicanal et l’image stéréo. Les difficultés portent essentiellement sur les critères d’homogénéité, d’intelligibilité et d’impression spatiale.

On retrouve ces métadonnées dans les autres codecs pour la diffusion et le support, l’HeAAC (High Efficiency Advanced Audio Coding) reprend les mêmes que Dolby, elles ont été définies récemment par Fraunhofer. DTS intègre aussi ces métadonnées, mis à part les DRC qui sont gérés par une courbe d’automation de niveau que le mixeur exporte vers l’application d’authoring Blu Ray. Aujourd’hui, après les essais du SACD, du DVD audio, du DVD vidéo, les supports pour le multicanal sont le Blu Ray compatible avec la vidéo HD et le pure audio Blu Ray (son seul). Ils sont compatibles jusqu’au format 7.1, et intègrent des formats codés évolués comme le DTS HD Master ou Dolby True HD (codecs sans perte, comportant des métadonnées), et, pour certains, ils comportent une piste 5.1 ou 7.1 en PCM, sans métadonnée. Il existe déjà des formats supérieurs, comme l’Auro 3D 9.1, pour la musique par exemple, compatible avec le pure audio Blu Ray, le premier exemplaire est sorti à l’été 2012.

Dans la diffusion multicanal, notamment pour les nouveaux médias (Internet, mobile, tablette numérique type Ipad), le binaural spatialisé prend tout son sens. Il touche tous les auditeurs et, d’autre part, il est compatible avec le 5.1. En effet, l’Ipad peut diffuser le son 5.1 d’un film ou d’une émission radio vers l’ampli home cinéma via l’interface HDMI ou bien synthétiser une version binaurale, généralement en 2D, avec des fonctions HRTF embarquées dans le lecteur. L’écoute binaurale utilise les fonctions HRTF pour spatialiser les directions du format multicanal, avec tout type de casque stéréo. Ce mode de diffusion arrive plus vite qu’on ne le pense, Radio France lance par exemple sa plate-forme NouvOson début 2013, elle contiendra les productions multicanal du groupe en 5.1 et en binaural pour le mobile et la tablette, grâce à une application programmée par Orange Labs. Imaginez redécouvrir au casque l’environnement naturel d’un lieu à travers ses ambiances, profiter de l’écriture spatialisée d’un film, se remettre dans la situation de la salle de concert, ou tout simplement jouer à un jeu vidéo et suivre l’interactivité des sources en son 3D !
 

ÉCOUTER DU SON SPATIALISÉ : DIFFICILE DE REVENIR EN ARRIÈRE

La spatialisation du son prend son essor depuis une dizaine d’années, à travers le 5.1 aujourd’hui démocratisé et de nouvelles technologies de diffusion ou de captation apparaissent, notamment la WFS, la prise de son haute résolution spatiale, et le binaural. Ces modes de fabrication sont certainement ceux qu’on utilisera demain. Le son 3D arrive en France en 2012 dans la salle de cinéma en Dolby Atmos ou Auro 3D, et le broadcast s’ouvre vers d’autres possibilités de diffusion autour des nouveaux médias. Ces contenus apportent tout simplement une autre écoute, plus naturelle, avec plus d’émotions, mais ils nécessitent une écriture nouvelle avec une mise en espace de la scène sonore. Les différents contenus n’y trouveront pas tous un intérêt, mais lorsque l’on compare une ambiance ou une création sonore, deux images sonores différentes, réelle et virtuelle, en multicanal puis en stéréo, on perd beaucoup d’informations et il est difficile de revenir en arrière !

Par Bergame Périaux, ingénieur du son, formateur à l’Ina, etPatrick Thévenot, spécialiste en acoustique, formateur à l’Ina



Mise en ligne : janvier 2013

______________________________________

1. Voir les stages multicanal dans le catalogue Formation professionnelle, Saison 2013.