binaural

Le binaural est une technique qui permet la restitution sonore en trois dimensions au casque.

Démonstration  Branchez votre casque audio et faites l’expérience du binaural en écoutant l’extrait suivant :

France Télévisions dirige BiLi, un projet de recherche collaboratif depuis janvier 2013 dont le but est de personnaliser l’écoute.

Nous voyons ce qui est devant nous, mais …

Par Lidwine Hô, chef de projet innovations&développements – France Télévisions

Ce qui suit va expliquer simplement ce qu’est le binaural dans le but d’aider les créateurs de contenus à imaginer de nouvelles façons de raconter des histoires, leur permettre d’explorer toutes les possibilités que la technique met ou mettra bientôt à leur disposition pour faire ressentir de nouvelles sensations aux téléspectateurs et leur faire vivre des expériences inédites.

Comment percevons-nous le monde qui nous entoure ?

Nous voyons ce qui est devant nous, nous percevons le reste de notre environnement grâce à ce que nous entendons tout autour de nous.

Lorsque nous nous trouvons dans une pièce, un lieu, qu’il soit ouvert ou clos, notre regard nous renseigne sur la place que nous occupons par rapport aux autres objets, ou au sein de cet espace. Nous ne voyons que ce qui se trouve devant nous. Dans un environnement naturel, nous pouvons nous mouvoir dans cet espace, nous déplacer et explorer du regard, tout ce qui nous entoure.

Si nous avons les yeux bandés ou si nous nous trouvons dans le noir, ce que nous sommes capables de comprendre de ce qui nous entoure, c’est l’espace, la grandeur du lieu, son volume, la matière des murs ou la distance entre les objets et nous s’ils sont sonores, leur position par rapport à nous. Nous avons aussi une perception de la distance des murs.

Tous ces indices sonores sont analysés par notre cerveau de manière plus ou moins consciente, et nous renseignent sur tout ce que l’on ne voit pas ou précisent ce que l’on voit.

Dans un film, un documentaire, un jeu vidéo, on utilise différentes clés pour permettre au téléspectateur/utilisateur, de comprendre l’espace dans lequel il se trouve.

Seuls les jeux vidéo permettent à l’utilisateur de se mouvoir et de contrôler ce mouvement.

Dans un film il existe toutes sortes d’indices : plan d’ensemble, changement d’axes, indices visuels de décor, indices culturels. On utilise les indices sonores tout comme on utilise les indices visuels : bruits d’oiseaux dans une forêt, bruit des cigales quand il fait chaud, bruits de circulation dans une grande ville.

D’autres indices sonores artificiels sont créés pour nous faire ressentir l’espace : la réverbération, certaines fréquences nous renseignent sur la nature du lieu.

Grâce à la diffusion en multicanal, on peut même entendre les sons tout autour de soi pour les installations 5.1, et même au-dessus de soi dans des salles de cinéma équipées en Dolby Atmos ou en Auro 3D.

En revanche ces systèmes, aussi couteux et perfectionnés soient-ils, ne nous permettent pas encore de ressentir l’espace naturel autour de nous.

Ils ne donnent pas l’impression d’être sur place, ni de pouvoir « toucher » les sons. Ils sont néanmoins un moyen de faire ressentir des sensations impressionnantes. Mais ils nécessitent une installation assez lourde et s’adressent au seul public ayant accès aux quelques salles de cinéma bien équipées.

Qu’est-ce que l’écoute binaurale ?

Dans notre vie réelle nous entendons en 3 dimensions, nous percevons les sons venant de devant, derrière, droite ou gauche mais aussi de dessus ou même d’en dessous.

Pourtant nous n’avons que 2 oreilles, et ces 2 oreilles sont les deux entrées d’information sonores reçues par notre cerveau.

Ceci signifie donc que 2 sons seulement contiennent suffisamment d’informations pour permettre à notre cerveau à séparer l’origine de chaque source sonore et les « éclater » autour de notre tête pour nous restituer l’écoute 3D qui nous semble si naturelle.

L’écoute binaurale est donc une écoute réelle, basée sur la capacité qu’a notre cerveau de savoir décoder les indices sonores qui nous entourent.

Lors d’une écoute naturelle, nos deux oreilles ne reçoivent pas exactement la même information. Tout d’abord parce que nos deux oreilles ne se trouvent pas exactement au même endroit. Il y a un écart de placement qui induit une différence de temps d’arrivée d’un son d’une oreille sur l’autre. Certaines fréquences qui sont perçues parfaitement par une oreille sont modifiées quand elles arrivent à l’oreille qui est opposée à la source sonore car elles sont atténuées par l’effet de masquage de la tête. Il y a aussi un phénomène de filtrage de fréquences dû à l’impact du pavillon de nos oreilles. Enfin, il y a une différence de volume d’une oreille sur l’autre.

Le principe de l’écoute binaurale est de restituer au casque ces différences interaurales.

Une fois reproduite, l’écoute binaurale dans un casque classique permet :

  • Une écoute spatiale totale de l’espace qui nous entoure avant arrière, gauche droite, dessus, dessous.
  • Une écoute de proximité ou d’extrême proximité : on peut chuchoter à l’oreille des gens.
  • Une sensation d’externalisation des sources sonores : les sons perçus peuvent donner l’impression de se situer bien au-delà des écouteurs du casque, et au-delà des murs de la pièce dans laquelle on se trouve.
  • Une impression de réalisme de l’acoustique et du lieu.

Comment écrire et utiliser le binaural ?

Nous entendons ce qui nous entoure

Certains de ces indices sonores sont perçus par l’auditeur parfaitement consciemment comme les voix des personnages, les bruits de pas ou l’arrivée d’un véhicule par exemple.

D’autres parmi ces indices sont analysés par notre cerveau sans que nous en prenions conscience, ils font appel à des sensations.

  • La taille de la pièce, son volume influent beaucoup sur le temps de réverbération des sons.
  • La matière des murs et du sol a un impact très audible sur les sons : très feutrés dans la neige ou dans une pièce couverte de moquette contrairement aux sons ultras réverbérés provenant d’un entrepôt métallique ou d’un hall d’aéroport vitré.
  • La température également influe sur la propagation du son.

Ces indices-là sont plus délicats à manipuler en tant que producteur de contenu mais sont aussi ceux qui fonctionnent le mieux, car l’auditeur ne sait pas quelles ficelles ont été tirées pour l’amener à ressentir telle ou telle impression.

Nous voyons ce qui est devant nous…mais

Il ne faut pas oublier qu’une des manières de ressentir l’espace autour de nous vient de notre capacité à nous mouvoir en liberté dans cet espace, ce qui n’est pas encore possible (bientôt j’espère) dans les contenus que nous proposons aux internautes/téléspectateurs.

Il nous appartient donc de trouver des biais pour faire ressentir l’espace au téléspectateur, l’accompagner dans sa découverte de l’environnement.

On ne peut pas se permettre des mouvements trop rapides, ou qui ne soient pas liés à ce que l’on voit. Pour les rendre plausibles et compréhensibles, les mouvements doivent être anticipés, accompagnés ou prévisibles.

Pour cela, il est primordial de prendre en compte les déplacements et la dimension spatiale de la scène à l ‘écriture du scénario.

Il est aussi très utile de définir tout de suite ce que l’on veut que l’auditeur voie et ce que l’on veut qu’il entende, ce que l’on souhaite qu’il comprenne et ce que l’on souhaite qu’il ressente.

Maitriser ce que l’internaute reçoit en terme d’information, de sensations et de ressenti, va permettre de mieux contrôler la compréhension de la scène, mais aussi de mieux égarer l’internaute ou brouiller ses pistes lorsqu’on le souhaitera.

Ces thèmes ne sont pas propres à l ‘écriture binaurale. En revanche, ils sont d’autant plus vrais que le binaural restitue l’espace de manière très fidèle la réalité.

Quel type de programme tire profit de l’utilisation du binaural ?

Les programmes dans lesquels on peut avoir une vision et une écoute subjective :

  • Fiction qui prendrait comme parti pris de permettre au téléspectateur de vivre dans la tête d’un des personnages.
  • Tout programme dans lequel on veut jouer ou insister sur différentes manières de voir et d’entendre les choses, dans lequel on passe d’une vision à une autre.
  • Documentaire qui suit un ou des personnages.

Les programmes qui ont pour objectif de faire vivre des sensations nouvelles, de rentrer dans la sphère de l’intime :

  • La peur
  • La sensualité,
  • La perte de repères dans l’espace
  • Le ressenti

Les programmes qui ont une part d’interactivité et de subjectivité :

  • Programmes dans lesquels l’internaute peut choisir sa place, sa position ou son personnage. (Sa place dans un concert, le personnage dans la peau duquel il veut vivre l’expérience, le personnage dont il veut avoir le commentaire et la place par rapport à lui)

Tous les programmes basés sur une scénographie claire ou connue et qui reste stable.

On sait où l’on se trouve, on connaît et/ou on comprend l’espace facilement. Ces programmes sont d’ailleurs souvent produits en 5.1, ce qui permet d’une part de « binauraliser » les 5 flux dans 5 enceintes virtuelles au casque en restituant au minimum un espace 5.1, et d’autre part de rajouter l’espace au-dessus en additionnant certaines pistes représentant la hauteur. En effet, l’écoute naturelle permettant de ressentir l’espace tel qu’il est perçu par nos oreilles et notre cerveau sera d’autant plus réaliste que les sons venant du dessus de la tête seront restitués à l’auditeurs aussi discrets soient-ils et même si la perception de cette hauteur reste assez inconsciente, elle participe à l’impression de réalisme.

  • Un concert : les musiciens sont devant, le public est derrière, l’acoustique de la salle est parfaitement reconstituée grâce à l’écoute binaurale. On change peu d’axe à l’image et l’axe sonore reste cohérent car maitrisé et connu.
  • Une manifestation sportive : un terrain de rugby, de foot, de tennis a une scénographie connue, l’axe reste inchangé, le son est immersif, le téléspectateur saura où il se trouve et ce qu’il voit. Il n’aura pas besoin de plus d’explications pour comprendre ce qu’il entend, que ce soit devant sur les côtés ou derrière lui.

Quelques idées de techniques qui peuvent être utilisées en binaural

Jouer sur les contrastes

  • Utiliser le son binaural pour restituer un espace immersif ou enveloppant, et y ajouter un son mono pour faire entendre une voix qui sera située à l’intérieur de la tête de l’auditeur.
  • Utiliser un son binaural pour certaines séquences uniquement ce qui leur donnera une couleur très réelle et différente en contraste par rapport aux autres (séquence de rêve, de flash-back, de prise de psychotropes).
  • Faire intervenir des sons en binaural sur une séquence en son classique pour donner l’illusion que certains sons font irruption dans la vie réelle, dans la pièce dans laquelle l’auditeur écoute.
  • Se servir du binaural pour rajouter des sons à un programme classique : proposer un programme en audio description pour lequel la personne qui décrit serait placée à proximité du téléspectateur mal voyant et lui décrirait la scène en chuchotant.
  • De la même manière on peut placer un commentaire derrière le téléspectateur ou à côté de lui.

Utiliser ce que le binaural offre en proximité et en hauteur

Créer parfois des sons qui s’approchent de l’auditeur ou qui le surprennent proches de lui.

  • Penser que certains sons peuvent venir du dessus ou de derrière.
  • Utiliser la capacité qu’a le binaural à restituer un espace, une pièce, un lieu. Penser à faire résonner des objets sonores dans l’espace, à produire des sons dans différents endroits pour aider l’auditeur/téléspectateur à solliciter sa capacité à percevoir l’espace grâce à son ouïe comme il le fait naturellement.

Quels sont les axes de travaux d’innovations & développements concernant le binaural, et quels outils avons nous l’ambition de mettre bientôt à votre disposition ?

  • Développement d’un logiciel de spatialisation en lien avec L’IRCAMpour la création de contenus en 3D audio. Notre Studio/laboratoire est équipé de 24 enceintes : nous pouvons donc mixer des productions 3D en format 22.2, 7.1, 5.1, et aussi bien entendu du binaural natif (Nous produisons un son en 2 canaux uniquement comme de la stéréo et c’est du binaural à écouter au casque, c’est le même son pour tout le monde)
  • Développement en lien avec FTVEN et l’IRCAM d’un démonstrateur Web audio API (fonctionnement sur HTML 5) qui permet de traiter des flux audio associés à une vidéo. Cet outil de traitement de flux audio permettra à l’utilisateur de choisir lui-même ce qu’il veut écouter parmi plusieurs propositions :
    • Choix de son placement lors d’un concert ou d’un évènement exceptionnel
    • Choix d’un commentateur ou d’un autre
    • Choix d’un flux binaural ou stéréo
    • Choix d’un niveau différent sur les ambiances et la musique, ou les voix et les ambiances par exemple.
    • Inventer des contenus qui sont faits à partir de 8 canaux audio, qui peuvent s’écouter simultanément ou séparément en bougeant leur position. Tout ceci sera réglé par l’utilisateur grâce à une interface intuitive qui est encore à élaborer. Cette interface sera propre à chaque programme en fonction de ce que l’on souhaite donner comme possibilité à l’internaute.
  • Participation à un projet FUI (Live 360°) qui se propose d’étudier comment restituer en live une captation en caméra 360° et avec un son immersif.

Cette application permettrait à l’internaute de naviguer dans l’image grâce à sa tablette ou à son téléphone équipé d’un gyroscope et d’entendre le son tout autour de lui.

Comment fabrique-t-on du binaural et dans quelles situations ?

Il existe deux méthodes pour faire du binaural qui sont chacune liées à des modes de production et à des contraintes de restitution. On peut panacher ces deux méthodes : elles peuvent être utilisées simultanément, ou l’une après l’autre dans un même programme, il faut juste trouver celle qui s’adapte le mieux au rendu final souhaité et aux contraintes de production.

  • Le binaural natif

tete neumannLe binaural natif consiste tout simplement à remettre dans les oreilles de l’utilisateur, ce qu’il entend dans la vie réelle. Pour cela, le moyen le plus évident est de placer deux micros à l’entrée des conduits auditifs d’une personne (réelle ou mannequin artificiel) et d’enregistrer sur deux pistes séparées.

Le contenu obtenu est restitué dans les oreillettes d’un casque stéréo classique.

  • Avantages : le son entendu est une restitution presque parfaite de l’environnement sonore, notamment l’image du lieu, la position des sources sonores dans l’espace, la sensation d’externalisation (ressentir les sons loin de soi) et ne nécessite aucune post production.
  • Inconvénients : l’image sonore est figée, on ne peut rien modifier de cette prise de son, on ne peut pas changer d’axe d’écoute. Ce mode de captation n’est pas classique en télévision où les usages sont différents. De plus il faut cacher la tête pour la prise de vue.
  • Le binaural de synthèse

screenshot binauralPour synthétiser du binaural, il faut avoir un moteur de rendu binaural qui affectera à chaque son – en fonction de la direction que l’on veut lui attribuer – une fonction de transfert qui donnera l’impression à l’auditeur que le son provient effectivement de cet endroit.

Ces moteurs de rendu ne sont pas encore très répandus mais ce devrait être le cas très prochainement. Ce mode de rendu binaural permet de « binauraliser » des contenus en 5.1 existants dans 5 enceintes virtuelles (ce que fait Radio France sur nouvOson). Il permet aussi de s’affranchir de l’idée d’enceintes et de placer plusieurs objets sonores où on le souhaite dans l’espace.

  • Avantages : Le mode de captation est un mode de captation classique et habituel en télévision (pose de micros de proximité) et donc compatible avec d’autres modes de restitution. On peut déterminer au moment du mixage l’endroit où l’on veut placer virtuellement sa source sonore.
  • Inconvénients : la post production demande des moyens spécifiques (moteur de rendu binaural), Le rendu de l’espace sonore n’est pas aussi bon que sur du binaural natif mais les positions des sources sont exploitables et crédibles.
  • Une autre manière de fabriquer du binaural

    est de faire une captation grâce à un micro ambisonic ou HOA (High Order Ambisonic) type de micro à plusieurs capsules qui capte la pression acoustique de manière égale dans tout le champ sonore et qui peut le restituer sur une sphère de haut-parleurs ou en synthèse binaurale au casque.

Eigenmike 32 capsules

Eigenmike 32 capsules

Soundfield 4 capsules

Soundfield 4 capsules

 

 

 

 

 

 

  • Conclusion

On peut :

  • se servir de binaural natif pour restituer une ambiance et avoir ainsi une sensation d’écoute de la scène très réelle
  • se servir de binaural de synthèse pour les éléments, les voix, les personnages à rajouter sur cette scène.
  • se servir de la Web Audio Api et de sa fonction « binauralisateur » pour transmettre divers flux. Certains seront binauralisés directement « à la demande » dans le navigateur de l’internaute, ce qui ne nécessitera pas de traitement binaural en post production.

Les contraintes du binaural

  • Écoute au casque obligatoire pour bénéficier de tous les avantages du son binaural.
  • Son d’une qualité pas ou peu dégradée sur toute la chaine sonore. (HE-AAC 96 Kbps pour la diffusion au minimum)
  • Prise en compte de la dimension spatiale dès l’écriture pour une cohérence du rendu sonore
  • Prise en compte de la captation spatiale ou à spatialiser au moment du tournage.

Questions qui restent en suspens

Une notion de déontologie reste à aborder : on trompe le cerveau des personnes qui écoutent.

C’est le cas de la télévision et du cinéma depuis leur existence, mais l’échelle est bien plus importante avec le binaural. Car même si on s’y attend, on a beaucoup de mal à différencier un son venant de l’extérieur, un son réel et un son provenant de son casque.

Lorsque l’application se limite à donner un rendu plus immersif à l’auditeur, cela n’a que peu d’impact. Mais les possibilités peuvent être poussées bien plus loin, donc à mon sens, une réflexion reste à mener sur ce sujet-là.