L’Audio pour la Fiction ou le Documentaire en Réalité Virtuelle

L’audio dans un média utilisant la réalité virtuelle peut s’intégrer selon deux processus de production différents : celui du jeu vidéo ou celui mis en place sur la production de films. De nombreuses conférences de la 143ème édition de l’AES qui s’est tenue à New York cette année ont d’ailleurs été dédiées aux « Game Audio » et à la « Virtual Reality ».

Pour des propositions éditoriales extrêmement similaires (qui se vivent avec un casque de réalité virtuelle et un casque audio et proposant un minimum d’interactivité), il coexiste effectivement deux mondes bien distincts par les outils utilisés, le langage et les processus de fabrication.

Ce papier fait le point sur les processus de fabrication, leurs similitudes, différences et complémentarités.

par Lidwine Hô – France Télévisions – innovations&développements

La fiction ou le documentaire type Jeu Vidéo

Le premier type de contenu, est celui dont l’esthétique, la narration et les propositions d’interaction se rapprochent des jeux vidéo et dont les techniques audio sont logiquement celles du jeu vidéo. La plupart du temps, ces contenus sont faits d’images de synthèse plus ou moins réalistes. L’univers visuel proposé est un univers en 360° dans lequel on peut se mouvoir à 6 degrés de liberté (6DoF : rotation sur tous les axes et déplacement dans toutes les directions) ce qui est rendu possible par le fait que l’univers proposé soit totalement virtuel.

Photo Karim Ben Khelifa The Enemy                      Copie d’écran de Jusqu’ici

http://theenemyishere.org/                                           http://jusqu-ici.com/

Les audio designers utilisent donc des outils dédiés au jeu : Fmod ou Wwise. La notion de scène n’existe pas en tant que telle comme on l’entend dans un film. On peut dire que c’est la version la plus poussée de ce que l’on pourrait appeler le format Objet.

La lecture des sons est déclenchée par des actions, ou des conditions. C’est une programmation qui répond à une logique : si telle condition est activée, alors tel son sera joué.

Cette méthode est utilisée pour chacun des effets qui est lui même appliqué à chacun des sons. Que ce soient des effets de réverbération, de pitch, d’égalisation, de volume, de compression, doppler et autres effets spéciaux. Ils seront déclenchés ou activés en fonction de conditions paramétrées à l’avance et donc anticipées par le créateur ou la créatrice du contenu audio.

Une des particularités de ce mode de construction de l’univers sonore, c’est que chaque son est associé à un « objet » présent dans le contenu qui est souvent un objet visuel également. Il est fréquent que cet objet, qui sera visible dans le contenu final n’ait pas encore de formalisation visuelle au moment de la conception du son. Ce phénomène qui semble assez courant du fait des workflows de production en parallèle, peut rendre le travail de construction sonore un peu hasardeux ou même amener les objets visuels à se calquer sur les sons et non l’inverse.

Un des avantages de ce type de processus de fabrication, c’est que toute modification est en théorie possible. On peut changer le son source d’un objet sans avoir à retravailler tous les effets qui lui sont associés, ils seront juste appliqués au son de remplacement suivant les mêmes conditions qui auront été définies au départ.

Une autre particularité notable de ces outils c’est la possibilité de travailler de manière collaborative sur un même contenu : une équipe peut se charger des sons des ambiances, alors qu’une autre travaillera sur les sons des effets et bruitage et une troisième sur les voix. Il peut donc arriver qu’une équipe n’entende pas ce sur quoi travaille l’autre alors qu’au final leurs sons seront « joués » ensemble dans une même scène. Ce qui nécessite une organisation des différents membres de l’équipe audio mais permet une grande souplesse de production.

L’ambition de la construction sonore d’une scène reste cependant centrée autour de l’expérience de l’utilisateur ou de l’utilisatrice : atteindre un objectif immersif, émotionnel ou réaliste. Ce type de processus nécessite de passer par la construction d’une logique d’action (sans laquelle les sons ne sont pas joués) qui implique une rigueur et une formalisation des évènements.

Le principal challenge de ce type de processus est d’atteindre la dimension artistique ou esthétique souhaitée pour une scène, malgré les contraintes amenées par la description très formelle de chaque évènement.

Une autre question centrale corolaire de ce type de processus, c’est la gestion de l’économie des ressources. Chaque son reste indépendant de l’autre, chaque action peut déclencher un effet ou une modification de chacun de ces sons. Les ressources nécessaires à l’action peuvent rapidement devenir très importantes si elles ne sont pas encadrées.

Le contenu audio ainsi créé est ensuite intégré à un moteur (Engine) de jeu tel que Unity ou Unreal dans lequel sont également intégrés les éléments visuels.

La fiction ou le documentaire en 360°

L’autre catégorie de contenu est celle dont l’esthétique ainsi que la proposition faite à l’utilisatrice ou l’utilisateur, se rapproche d’une proposition cinématographique, celle que nous connaissons dans le milieu de la télévision.

La captation image se fait souvent en image réelle, avec des comédiens ou des comédiennes. La captation audio, quant à elle, se fait presque dans les mêmes conditions : on utilise des micros de proximité (micros cravate, ou micros cachés dans le décor) pour capter les voix dont l’intelligibilité ne peut être rendue que par une captation de proximité dans un contexte où l’utilisation d’une perche n’est pas envisageable. En effet, une des caractéristiques de la captation image en 360° est la disparition du hors champs et donc l’obligation pour la technique de se dissimuler. On peut utiliser également des micros d’ambiance qui captent la totalité de la sphère qu’on appelle micros Ambisonics, et qui permettent de restituer fidèlement la scène sonore. Dans les conditions d’un plateau de tournage de fiction, cette prise de son réaliste en un point est rarement pertinente et suffisante pour la restitution des dialogues.

Dans ce type de contenu, on propose un contenu souvent linéaire et avec peu d’interaction. L’interaction quand il y en a, consiste souvent uniquement à permettre à l’utilisateur ou l’utilisatrice de changer son axe de regard, il ou elle peut ainsi, faire une rotation autour d’un axe et explorer l’espace visuel et sonore autour de lui. Il peut arriver qu’il y ait une autre forme d’interactivité mais elle est ténue et l’objectif n’est pas de mettre l’utilisatrice ou l’utilisateur en position de joueur, mais plutôt d’adapter l’expérience à son comportement (changement de durée ou changement de séquence)

Dans ce cas, le contenu visuel n’étant pas constitué d’objets de synthèse, le son est fabriqué selon un workflow de fiction presque classique. Le son est synchronisé temporellement à l’image. L’audio et la vidéo ont la même durée -celle de la séquence- et sont joués ensemble.

Bien que le processus de travail soit assez proche des méthodes des films, la grande spécificité de ce type de contenu audio par rapport au mixage cinéma est la création d’un espace sonore tridimensionnel. L’image est en 360°, l’utilisateur ou l’utilisatrice peut regarder dans tous les sens, et doit donc pouvoir entendre selon tous les axes choisis. C’est la création d’un univers audible, que l’on peut comparer à une sphère sonore, au milieu de laquelle l’utilisatrice ou l’utilisateur se trouve et dans laquelle tous les axes de vue et tous les axes d’écoute sont possibles. Ce format s’appelle le format Ambisonic ou HOA pour High Order Ambisonic. C’est un des 3 formats de traitement de l’audio pour la VR.

La personne peut s’orienter, se tourner dans tous les sens mais ne peut pas se déplacer. Sa proximité et son éloignement avec les objets sonores resteront les mêmes. Seule leur position relative à l’axe du regard sera modifiée.

Dans ce cas, les outils utilisés pour le mixage sont les outils classiques du mixage de fiction : DAW, Consoles, effets.

Il existe cependant des différences de production de taille comme le choix du monitoring audio et visuel par exemple.

Le contenu final sera souvent en format Ambisonic (sphère) mais les sources audio peuvent être dans d’autres formats tels que mono, stéréo, 5.1, ambisonic ou binaural. Ensuite en fonction du besoin et de la compatibilité des players, le mixage sera exporté dans le format adéquat.

Le monitoring

Le monitoring audio se fera totalement ou en partie au casque, car c’est de cette manière que le contenu sera visionné par l’utilisateur, il est donc assez pertinent – même s’il est pratique de se servir d’enceintes – de contrôler très régulièrement le rendu au casque. De plus, à moins d’être équipé d’une multitude d’enceintes qui couvrent l’espace sonore du studio de mixage, le casque est le seul à pouvoir « rendre » un son dans n’importe quelle direction et fournir une écoute 3D de qualité à moindre coût et relativement aisément.

Le monitoring visuel quant à lui, devra se faire au moins en partie avec un casque de VR, dont les mouvements agiront conjointement sur l’axe audio écouté et sur l’axe visuel regardé. Il est possible et même nécessaire d’avoir d’autres types de visualisation pour travailler, comme le mode équirectangulaire : l’image complète s’affiche en vue d’ensemble telle une mappemonde, ce qui permet de placer les sources sonores sur l’image leur correspondant.

Il est possible également d’avoir un monitoring vidéo de la partie de l’image que l’utilisateur aura sous les yeux sur un écran de contrôle et de s’y déplacer au moyen d’une souris ou d’un track pad.

Il existe différents moyens de lire ces contenus une fois mixés. Soit en utilisant un moteur de jeu vidéo dans lequel on va intégrer les ambiances en Ambisonic et grâce auquel on pourra en plus garder des objets sonores séparés pour permettre une interaction avec ceux-ci.

Le moyen le plus courant et le plus simple de lire ce type de contenu est d’utiliser un player en ligne (ou pas) qui lit des vidéos 360° et des sons Ambisonics tels que le player Youtube, le player Facebook qui sont des players en ligne, ou le player VLC 360°.

En fonction du player utilisé, les exports audio devront être adaptés au format audio accepté en lecture.

En effet, certains players n’acceptent que l’Ambisonic de premier ordre aussi appelé FOA (First Order Ambisonic), d’autres acceptent des ordres plus élevés, mais souvent en format propriétaire. C’est le cas du player Aspic ou G audio.

Pour avoir un aperçu du type de fonctionnalités permises par les différents types de players 360° disponibles sur le Web voici un tableau non exhaustif :

Ce tableau permet de se faire une idée de l’anticipation dont on doit faire preuve en fonction du type de player sur lequel sera potentiellement lu le contenu, sachant qu’il est toujours possible de «dégrader » la précision de l’expérience audio en ramenant le format à un Ambisonic d’ordre 1.

Il est donc utile de pouvoir travailler dans le format le plus ouvert possible afin de se réserver la possibilité « d’exporter » dans un format ou dans un autre en bénéficiant au maximum de toutes les possibilités du player.

Ceci nous amènera naturellement à nous orienter vers un format Objet tel qu’il est compris dans le monde du Broadcast, c’est à dire un format qui « comprend » tous les types de formats : Ambisonic (formats assimilable à une sphère sonore dans laquelle on peut faire des rotations), track based et head lock (formats de mixage standards tels que stéréo, binaural natif, 5.1, ou plus) Objets (garder chaque son séparément et éventuellement lui associer des données).

Le rendu binaural au casque

Quelque ce soit le type de format audio et son traitement, l’écoute se fait en grande majorité sur un casque audio stéréo classique. C’est une écoute binaurale. L’audio est rendue en temps réel en fonction de la position de l’utilisateur via un moteur de rendu qui si il est correctement paramétré est capable de restituer une écoute 3D grâce aux indices binauraux.

La plupart des moteurs de rendu binauraux ne permettent pas la personnalisation de la fonction de transfert, petit luxe encore réservé aux ingénieurs du son pour contrôler leurs mixages, mais cette tendance semble être en voie de démocratisation.


IDA, entreprise finlandaise associée pour l’occasion à Genelec propose de calculer votre fonction transfert personnelle (c’est à dire celle qui correspond à votre morphologie) grâce à un scan 3D de votre corps, votre tête et vos oreilles.

Il suffit de télécharger l’appli de scan dans son téléphone, de filmer tous les éléments morphologiques nécessaires et de leur envoyer le fichier vidéo (maximum 3 minutes)

Eux se chargent du calcul, et vous renvoient votre fonction de transfert personnalisée dans la semaine. Nous avons la chance d’avoir la fonction de transfert de l’IRCAM mesurée sur le même sujet.

Voici la comparaison que l’on peut faire. D’un côté, c’est la HRTF issue de mesures en chambre anéchoïque à l’IRCAM, de l’autre, celles issues des calculs depuis le scan 3D à partir de l’appli IDA sur téléphone portable. Cette comparaison visuelle montre de grandes différences qui sont effectivement audibles en terme de coloration spectrale. Néanmoins, à l’écoute, il n’y a pas de différence de « qualité » elles sont toutes deux capables de restituer un son spatialisé cohérent. Cette méthode est donc très encourageante car elle permet d’acquérir une fonction de transfert personnalisée et efficace bien plus facilement qu’avec des mesures.

Antti Vane, cofondateur et président de IDA, précise d’ailleurs qu’étant basée sur des calculs, cette méthode n’a pas les restrictions liées à certaines contraintes de mesure sur un sujet réel : temps de capture, proximité des enceintes de mesure qui pourrait endommager l’ouïe du sujet par exemple. Ils proposent donc un jeu d’HRTF en champs proches : http://idaaudio.com/downloads/ à écouter ici pour une version du coiffeur (uniquement à la tondeuse cette fois) : https://www.youtube.com/watch?time_continue=1&v=N_cPcLOtmRY

En résumé, ces deux modes de production de l’audio pour les contenus de Réalité Virtuelle sont des processus issus des besoins et des contraintes. L’essentiel quand on débute une production de ce type est de s’assurer que le mode de production est compatible avec l’utilisation du contenu que l’on souhaite en faire et que les modes d’interactions envisagés restent possibles. Dans le cas où différents types de players sont envisagés, l’adage « qui peut le plus peut le moins » est de rigueur : Privilégier le mode de production donnant le meilleur rendu pour chaque son traité (Ambisonic, objets, track based) et exporter ensuite l’audio dans le format ou les formats appropriés.

À lire également:

Ce contenu a été publié dans Audio, binaural, OBA, Réalité virtuelle, son 3D. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *