AES Convention : L’audio pour la Réalité Virtuelle et la Réalité Augmentée

aes-la-2016Cette année, la convention annuelle américaine de l’AES (Audio Engineering Society) s’est tenue à Los Angeles.

En parallèle de cet évènement, a eu lieu pour la première fois une conférence dédiée aux problématiques audio dans la réalité virtuelle : un cycle d’une trentaine de tables rondes, publications scientifiques et workshops, sur 2 jours, qui a accueilli à guichet fermé 500 ingénieurs du sons et chercheurs de tous types et de tous profils professionnels autour d’un sujet central : la réalité virtuelle et la réalité augmentée.

Au programme, des questions très techniques sur les processus de fabrication et de diffusion, mais également – une fois n’est pas coutume – des questionnements plus profonds sur l’humain, l’éthique, la perception et les émotions.

par Lidwine Hô – France Télévisions – innovations&développements

Qu’est-ce que la Réalité Virtuelle ? Qu’est-ce qui la différencie de La Réalité Augmentée ?

D’après Wikipedia, ce terme de réalité virtuelle ne serait pas un oxymore dans le sens où réalité ne serait pas le contraire de virtualité mais de fiction. Le virtuel quant à lui, définissait à l’origine ce qui est sur le point d’exister.

La première apparition de ces mots accolés, date du début du siècle dernier, (cf : le théâtre vu par Antonin Artaud) bien avant les premiers casques VR, raison pour laquelle l’usage courant actuel de cette expression tend à s’éloigner de son sens d’origine pour s’adapter aux nouveaux usages.

La réalité virtuelle n’est pas nécessairement l’image d’un monde imaginaire, mais peut aussi représenter ce qui existe et qui est vu à travers un casque VR. Dans le cas d’un documentaire tourné en image réelle par exemple, ce qui est virtuel c’est la présence de l’utilisateur dans le lieu et non pas l’environnement qu’il observe.

Cet environnement peut aussi être créé de toutes pièces, ou seulement partiellement.

La question de ce qui est réel ou virtuel dans un monde où les échanges sont dématérialisés, ou les relations se créent sans rencontres physiques, il est intéressant de se poser la question de la virtualité de la réalité virtuelle : on pourrait penser que la réalité c’est ce qui existe. Mais qu’est ce qui existe vraiment ? Est ce vraiment ce qui est matérialisé ?Un rêve existe t-il lorsque je suis seul à le rêver ? Existerait-il « plus » si nous le rêvions à plusieurs ? Est-ce que ce qui est réel est ce qui est perçu ? L’existence d’un fait, d’une personne, n’a t-elle une importance que par la perception/réalité des autres ?

Ce qui fait l’événement, c’est le regard, ce qui fait un grand évènement, c’est la multiplicité des regards sur cet évènement.

La réalité virtuelle, c’est faire exister quelque chose, un personnage, un évènement, un lieu, sans que celui-ci ait besoin d’être matérialisé pour exister.

Le seul fait qu’une ou plusieurs personnes le perçoivent, en fait un évènement réel.

Mais à la différence de la télévision, la VR propose une expérience plus poussée : du côté de l’utilisateur, vivre une expérience de réalité virtuelle c’est être immergé dans un monde immatériel en ayant l’impression que c’est la réalité, car les sens sont sollicités comme dans la vie réelle et l’interactivité rend crédible cette « réalité proposée » à l’utilisateur.

Du côté créateur c’est une volonté éditoriale de partir du réel et des sensations de la vie réelle pour faire vivre une expérience à l’utilisateur en engageant tout son corps, tous ses sens.

Concrètement cela veut dire qu’en portant un casque de VR, on peut voir et entendre tout autour de soi dans un monde, fabriqué et proposé par le créateur de l’expérience.

Alors qu’est-ce que la réalité augmentée ?

C’est la possibilité à travers des lunettes, de voir la « réalité réelle » sur laquelle on  va rajouter des éléments  au moyen de calques sonores et visuels qui vont se superposer à la réalité.

Ces éléments peuvent enrichir la réalité pour proposer des services : des informations, des directions, de l’audiodescription. Ils sont également utilisés à des fins ludiques tels que le récemment célèbre PokémonGo ou Battle Paris.

La réalité augmentée ne fait pas que rajouter des éléments à la réalité, elle en modifie la perception et en masque certains aspects.

Ainsi, si les publicitaires on déjà pensé à s’en servir pour vous indiquer un bon restaurant à proximité ou une réduction sur votre marque de glace préférée, les adblockers pourraient l’utiliser pour masquer les publicités du métro et les remplacer par des fenêtres ou des poèmes.

Comme la VR, l’AR nécessite techniquement de couvrir potentiellement tout l’espace visuel et sonore qui entoure l’utilisateur.

Une particularité de l’AR, c’est son ancrage dans la réalité, bien que le contenu  ne soit pas toujours corrélé au lieu, un Pokémon pourra se trouver n’importe où, on en a déjà eu la démonstration.

Bien que les usages entre VR et AR puissent engendrer des contenus très différents, il n’y a pas de différence technique fondamentale entre les deux, c’est une question de transparence du calque.

Le son 3D pour la réalité virtuelle ou vidéo à 360°, qu’est ce que c’est ? En quoi est-ce différent d’un mixage en multicanal  pour hauts parleurs traditionnels ?

La spécificité d’un contenu en 360°, c’est de permettre à l’utilisateur de tourner sur un axe et de lever la tête à partir du point de position fixe ou en mouvement de la caméra. Le mixeur ne peut donc pas privilégier un axe d’écoute plutôt qu’un autre et doit donc anticiper un mixage qui fonctionne dans tous les cas, sans savoir comment la scène sonore ainsi créée, sera écoutée. Cela nécessite également de ne pas « figer » le mixage et de le délivrer dans un format qui permettra des rotations de la scène sonore en fonction de l’axe de regard de l’utilisateur.

aes-la-16

Phil Lelyveld a ouvert la session avec une présentation très ouverte sur le passé, le présent et le futur des usages : parcs d’attraction VR, diverses réalisations artistiques, ou techniques des années 60 à maintenant, toutes basées sur l’idée que l’on peut faire vivre une expérience grâce à des outils technologiques.

Il a rappelé qu’au delà des usages du divertissement, la réalité virtuelle a des applications concrètes déjà exploitées dans de nombreux domaines : elle aide certains patients surmonter des phobies ou de graves traumatismes. Elle est utilisée dans le traitement de certaines formes d’autisme où grâce à la reconnaissance des expressions du visage elle permet un apprentissage des émotions associées aux mimiques faciales. La réalité augmentée est également utilisée en médecine, elle permet au chirurgien de manipuler des objets informatiques sans avoir à entrer physiquement en contact avec les machines et donc limiter les risques sanitaires.

the-enemy

Il a ensuite terminé sur une note plus technique à l’adresse des chercheurs et techniciens présents dans la salle sur le rôle qui leur reste à jouer : Quels sont les enjeux actuels de la VR ?

Le premier enjeu est la qualité (audio et vidéo) : Quand seront nous capables d’avoir une qualité au moins équivalente à celle du cinéma ? Quels sont les formats, les processus que l’on peut standardiser à l’heure actuelle? Il apparaitrait que seulement 22% des productions sont destinées à un seul support de diffusion. Quelle compatibilité peut-on imaginer d’un format de diffusion à l’autre ?

L’enjeu technique principal est de faire oublier la technique, l’expérience ne sera pleinement vécue que si la technique réussit à s’effacer. Le public n’achète pas la technologie, il achète l’expérience.

Enfin il a abordé une question éthique : comme tout autre technique, la VR est « neutre moralement », il faut être vigilant à ce que l’on crée.

TECHNOLOGY IS MORALLY NEUTRAL

Les émotions et les sensations peuvent être démultipliées. Il faut notamment penser aux émotions que pourraient ressentir de jeunes enfants devant des contenus très réalistes et trop chargés émotionnellement.

What role does technology play in the life of a right-thinking, right-minded citizen?


Techniquement, plusieurs grands thèmes récurrents se sont dégagés des réflexions des uns et des autres, pour s’imposer comme les principales préoccupations, notamment, le désormais incontournable format «ambisonics», la notion d’Audio Orienté Objet, les fonctions de transfert binaurales ou HRTFs et les processus et méthodes de fabrication.

La réalité virtuelle ou vidéo à 360° ne change pas que notre manière de regarder un contenu ou de la fabriquer, il rebat également les cartes de l’expérience et des compétences.

Aucun(e) intervenant(e) ne s’est présenté(e) comme étant un(e) un(e) spécialiste du domaine mais tou(te)s ont présenté leurs expériences et leurs tâtonnements, les discussions entre la salle et les présentateurs ont été très riches en échanges tout au long de ces deux jours.

Si le point de vue laissé au choix de l’utilisateur est intrinsèque au jeu vidéo, ce paradigme est tout nouveau pour tous les autres créateurs de contenu audio. Nous sommes tous des débutants.

Il existe 3 types de formats qui permettent un rendu interactif d’une scène sonore :

• Le format orienté objet : chaque objet sonore est indépendant et entendu en fonction des actions et des mouvements de l’utilisateur, c’est le format utilisé dans les jeux vidéo. Il permet également, en associant des datas à chacun de ces objets, de les entendre ou pas, de les déclencher ou pas en fonction des actions de l’utilisateur.

• Le format basé sur un mixage multicanal traditionnel : il consiste à mixer sur des canaux affectés chacun à une direction que l’on souhaite restituer.

• Le format qui se base sur la description d’une scène sonore 3D, appelé scene-based. C’est un format de captation, un format intermédiaire de sauvegarde ou de travail, ou un format de rendu de la scène sonore. Il comprend toutes les informations acoustiques de la scène (plus ou moins précises en fonction de l’ordre choisi), sans aucune notion d’objets sonores. C’est le format Ambisonics, FOA (First Order Ambisonics) ou HOA (High Order Ambisonics).

Le format Ambisonics est cité par tous comme un format incontournable pour la VR. C’est un format de « description » d’une scène audio 3D, qui peut se décoder dans n’importe quel format de restitution, il est très flexible.

L’ Ambisonics d’ordre 1 ou Format B, se compose de 4 canaux audio. On parle de HOA pour les formats Ambisonics d’ordre plus élevé (9 canaux pour l’ordre 2, 16 pour l’ordre 3,  la formule est (ordre+1) ² = nombre de canaux nécessaires.

ambisonic

Ces canaux qui composent le format Ambisonics sont destinés à être décodés par un calcul d’harmonique sphérique.

Il existe deux principaux standards de Format B : le Fuma et l’Ambix. L’Ambix est actuellement le plus utilisé (en ce qui concerne les formats d’export) car c’est celui qui a été choisi par les Players 360° de Facebook et YouTube.

Il existe des moyens très simples de passer du format Ambix au Fuma et vice versa, grâce à des plugins gratuits (de la marque Noisemakers par exemple).

Le format Ambisonics ne se préoccupe pas de savoir de quoi est constituée la scène, c’est un format scene-based (basé sur la description de la scène audio 3D).

Les différents avantages du format B (Ambisonics ordre 1 ou FOA) est qu’il est peu gourmand en nombre de pistes et qu’il est très flexible : on peut faire des rotations de la scène audio très facilement.

Le format Ambisonics n’est pas qu’un format pivot ou de restitution, il permet aussi d’enregistrer des scènes grâce à des micros Ambisonics. Dans ce cas, les différents canaux audio obtenus sont en formats A : format non standardisé et différent pour chaque micro car dépendant des positions de capsules. Il faut donc les convertir du format A au Format B grâce à un outil fourni par les constructeurs du micro, qui va entre autre compenser les positions des capsules..

On peut faire une analogie entre le format Ambisonics et la vidéo à 360° : on enregistre toute la scène, mais on ne regardera que dans une direction à la fois : on choisit son point de vue et d’écoute en temps réel.

Les autres intérêts du format B en utilisation classique, sont de permettre de choisir la direction d’écoute mais aussi le format d’écoute : en mono, en stéréo, en 5.1, en binaural.

Il suffit que le player sache décoder les informations contenues dans le format pour en faire la restitution souhaitée.

La plupart des outils de manipulation audio proposent donc le format Ambisonics comme format pivot de leur moteur de rendu.

La précision étant meilleure avec des ordres plus élevés, certains proposent de traiter en ordre, 3, 4…7 et de faire ensuite un rendu en Format B (ordre 1) qui est un format qui ne nécessite que 4 pistes audio, donc relativement léger à traiter.

D’autres se contentent du format B du début à la fin du traitement audio.

Audio Orienté Objet

Quelque soit la qualité du format Ambisonics de départ, il apparait chez certains utilisateurs que tous les sons ne peuvent pas appartenir à la scène Ambisonics et que certains doivent être traités à part : les sons monos qui doivent se situer dans la tête comme les voix off, les effets qui n’ont pas besoin d’être rentrés acoustiquement dans la scène, la plupart des musiques non diégétiques, certains objets qui doivent être entendus à tout instant ou mutés, ou traités différents du « fond sonore ».

sans-titre

La solution est donc souvent de créer des bus séparés pour traiter différemment les sons selon qu’ils soient diégétiques ou pas.

Dans le cas d’une vidéo lue sur le player 360° de YouTube, ces sons seront de toute façon intégrés à l’export final en format B.

HRTFs

Tout d’abord, petit rappel de ce qu’est l’écoute binaurale : l’écoute binaurale c’est l’écoute réelle que l’on expérimente tous les jours avec ses oreilles et son cerveau.

On peut la reproduire au casque.

L’être humain peut localiser la position d’une source sonore grâce aux indices fournis par ses 2 oreilles et principalement par le fait qu’elles ne sont pas au même endroit et que la forme du pavillon filtre les sons différemment en fonction de leur provenance.

Ces paramètres, puisqu’ils sont physiologiques, sont personnels et cette fonction qui permet de modifier les sons en fonction de leur provenance et qu’on appelle HRTF (Head Related Transfer Function) est différente pour chaque auditeur.

binaural

Étant donné que le principal moyen d’écouter une vidéo en VR est d’enfiler un casque audio, le rendu se fait au final sur 2 écouteurs et au casque, tous les moteurs de rendu proposent donc un rendu binaural de la scène à partir du format B ou HOA. Certains ne proposent pas le choix de la fonction de transfert, d’autres en proposent la personnalisation (Visisonic), d’autres encore proposent d’intégrer le standard SOFA à terme.

Visisonic propose par exemple de mesurer les HRTFs en mettant des petits HP dans les oreilles, ensuite, de placer une sphère de 256 mini micros et d’envoyer un sweep qui sera enregistré par chacun des petits micros de la sphère.

Temps pour la mesure : moins de 10 minutes.

Plus personne (hormis Audio technologie) ne remet en question l’intérêt de la personnalisation de la fonction de transfert.

Processus de fabrication

Faire son montage à partir de divers formats audio. Tout le monde s’accorde sur le fait que l’on a besoin de sons d’ambiances et d’effets, que les formats peuvent être 3D au départ (issus d’une captation Ambisonics par exemple).

Les problèmes les plus fréquemment rencontrés et assez peu souvent résolus ou pas dans leur totalité :

  • la question du monitoring audio en temps réel et de la visualisation en 360°
  • la difficulté à placer des sources sonores et à suivre des personnages sur une image 360° avec un outil de spatialisation dont la visualisation graphique diffère du format de lecture de la vidéo, il manque de l’intelligence en interface homme-machine
  • la complexité de la gestion des bus audio des divers formats traités.

Pour créer une réalité virtuelle, il faut comprendre la réalité des éléments qui nous entourent, la texture des surfaces, leur acoustique, leur volume. La manière dont les choses interagissent entre elles. Les études de mécanique, d’acoustique, d’analyse d’image sont alors mises à contribution.

Mais lors d’une expérience en réalité virtuelle, il n’y a pas que les « éléments extérieurs » qui agissent, il y a également l’humain qui vit cette expérience, et qui interagit avec les éléments.

C’est ici que sont convoquées les études sur la perception, les neurosciences, les études sur l’audition, la vision, l’interaction entre les sens et les mouvements.

L’humain

La VR nous  pousse à réinterroger l’humain qui est en nous.  À parler de perception, de sensation de volonté, de subir, d’agir, en tant qu’utilisateur et en tant que créateur.

vr

Nous devons anticiper la perception totale de l’utilisateur, nous ne sommes plus limités à son écoute comme avant, mais bien à son expérience totale, à ce que nous lui proposons de vivre, ou comment nous pouvons l’amener à ressentir les émotions que nous voulons lui transmettre en questionnant nos propres expériences multi sensorielles.

Une présentation intitulée Audiologie et Audition par Simon Carlille nous apprend que comprendre le cerveau, peut nous aider à comprendre les mécanismes mis en œuvre dans l’utilisation d’un casque de réalité virtuelle et donc nous aider à créer des contenus perceptivement cohérents. Mais ce n’est pas un apprentissage unilatéral, en effet, le cerveau peut à son tour apprendre de la réalité virtuelle.

La NASA utilise les mouvements du regard des pilotes ou des contrôleurs sur leurs écrans pour leur restituer une écoute binaurale spatialisée qui se focalise sur les informations sur lesquelles le regard se dirige. C’est ce qui ressort de son étude intitulée  « Spatial Auditory Feedback In Response to Tracked Eye Position »  qui se traduit par «  rendu sonore spatialisé en réponse au suivi des mouvements du regard ».

La question de la réalité augmentée est tout aussi sensible. En effet, le fait de devoir prendre en compte l’acoustique et les sons réels comme un « calque »  supplémentaire que l’on écoute en surimpression du contenu, nous pousse à prendre en compte les fonctions de masquage fréquentiel de manière non prédictive, l’environnement d‘écoute pouvant être analysé en temps réel mais impossible à anticiper à l’avance par le créateur du contenu.

Les présentations faites par les chercheurs rattachés à des universités de recherche médicale ont présenté des travaux très différents dans leur approche de celles des chercheurs en acoustique ou traitement du signal, bien que chacun s’attache à étudier ce que l’on entend.

La première catégorie se préoccupe de ce qui est entendu, l’autre catégorie de ce qui est émis.

Etonnamment l’ingénieur du son aura des attentes plus proches de celles des neuro-scientifiques.

L’ingénieur du son est confronté tous les jours aux personnes qui expérimentent son travail, que ce soit les utilisateurs, les réalisateurs ou les producteurs. Il se doit d’écouter son propre travail et doit être pragmatique : sa technique « fonctionne » si elle a un impact sur le public, le résultat est la satisfaction de l’utilisateur sur l’expérience qui lui est proposée. Le travail est validé si le produit est vendu, regardé, partagé. Il ne fera pas d’études scientifiques perceptives, mais répondra de manière empirique aux mêmes questions.

Le chercheur en traitement du signal se base sur un ou plusieurs critères qui sont éloignés de l’expérience utilisateur. Il peut par exemple prendre comme seul critère la précision de la localisation. Dans ce cas là, il demandera aux sujets de dessiner sur un schéma d’où provient le son, il ne saura pas si le son est détérioré, si l’acoustique est respectée, si le son est réaliste, si il est à la bonne distance, si le son à la capacité de prendre part à une expérience totale.

 

Ce contenu a été publié dans audio, binaural, Réalité virtuelle, son 3D. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *