NAB 2015 : L’audio 3D, 360°, objets, et totalement IP …

L’audio orienté objets pénètre le marché du broadcast. Portée par la normalisation américaine ATSC 3.0 qui s’apprête à standardiser les signaux de diffusion de demain, cette technologie propose une segmentation du mixage en plusieurs objets sonores. Ainsi les coûts de diffusion peuvent chuter tout en offrant des services enrichis : le renforcement du niveau des dialogues, la substitution des langues, l’activation d’un commentaire d’audiodescription ou la restitution d’effets 3D.

Par Matthieu Parmentier, chef de projets innovations&développements – France Télévisions

Difficile d’exister dans un salon aussi visuel qu’aussi peu audio, mais le « corner » audio a néanmoins conservé sa bonne place, en entrée du hall central, ça compense. De ce côté-ci, la connectivité IP ne se discute pas. Plusieurs protocoles coexistent et ne semblent pas vraiment pressés de converger vers une interopérabilité totale, malgré la standardisation d’un protocole commun AES 67. L’alliance Ravenna domine clairement les autres. Intégrés aux consoles, aux interfaces d’enregistrements, aux boîtiers de scène, les connexions Ravenna permettent des centaines de liaisons point à point à travers de multiples appareils branchés sur le même réseau.

Chez Merging, l’éditeur de Pyramix, un réglage de panoramique 3D permet désormais de manipuler n’importe quelle source mono, stéréo, multicanale 2D ou 3D dans l’espace, en faire varier la dispersion, la rotation, le tout en relation avec une taille de « salle » variable, pour adapter les propriétés de ce panoramique à l’auditorium de mixage. L’éditeur suisse gère désormais tous les formats de mixage 3D, 22.2 et Dolby Atmos notamment.

Idem chez l’australien Fairlight, avec la très bonne surprise d’y découvrir de surcroît le premier « joystick 3D » vraiment fonctionnel. Tout simplement sans interface physique, il s’agit d’un capteur a priori infrarouge, au dessus duquel on se sert de la main pour déplacer des sources sonores dans les 3 dimensions, les faire tourner, diverger, converger… aussi simple que naturel.

Panoramique « manuel » inventé par Fairlight pour le placement de sources sonores en 3D

Panoramique « manuel » inventé par Fairlight pour le placement de sources sonores en 3D

Chez AVID, Pro Tools 12 incarne sans surprise l’habituel décalage du leader américain par rapport aux innovations du marché. Pas d’audio 3D, pas de multicanal au delà du 7.1, pas d’audio orienté objets… mais à quoi sert Pro Tools 12 ? Il s’agit tout simplement de faire converger le logiciel avec la stratégie everywhere d’AVID. Une « place de marché » fait son entrée dans Pro Tools, désormais libre à chacun de vendre sa musique, sa partie de piano, son réglage de réverbération, de stocker tout ça dans le Cloud sécurisé – américain – et de produire évidemment à plusieurs sans se faire ralentir par les kilomètres qui peuvent nous séparer. Autrement Pro Tools Free revient ! Denommé Pro Tools First en regard de Media Composer First, il s’avère un peu limité en fonctionnalités mais impose surtout une connexion Internet, car le stockage des sessions ne peut s’effectuer que dans le cloud AVID.

Au rayon des micros sans fil (HF) numériques, l’allemand Sennheiser et le japonais audio-technica s’aventurent dans la transmission en dehors des bandes de fréquences habituelles, à 1,9 GHz (bande DECT) pour la série Sennheiser AVX et à 2,4 GHz (bande WiFi) pour audio-technica. Sur le papier l’offre est séduisante et permet d’échapper à la réduction drastique du spectre UHF depuis que les traditionnelles bandes 700 et 800 MHz ont été vendues aux services de téléphonie 3G et 4G. Mais plus concrètement, travailler dans ces bandes élevées posent d’autres problèmes théoriques bien connus : la portée se réduit drastiquement en environnement humide (pluie, proximité de la mer), ou quand l’émetteur est au contact de la peau (main refermée sur le corps du micro, émetteur ceinture collé sur le dos de l’orateur). A tester !

2 produits audio-technica inaugurés dans la bande 2,4 GHz : pro et prosumer

2 produits audio-technica inaugurés dans la bande 2,4 GHz : pro et prosumer

Chez le danois tc electronic, le lancement du Clarity X entend faire un peu d’ombre aux processeurs de monitoring Trinnov. Un micro de mesure, une télécommande de volume, un châssis d’entrées/sorties, le logiciel permet de paramétrer ses zones d’écoute, ses downmix, d’enclencher la mesure de loudness sur toutes sortes de flux, et de corriger le retard et la bande passante des haut-parleurs à l’image du traitement de correction intégré sur sa gamme Dynaudio AIR.

Lancement du Clarity X, un processeur de monitoring associé à système de mesure de loudness

Lancement du Clarity X, un processeur de monitoring associé à système de mesure de loudness

L’audio orienté objets, après l’Atmos au cinéma, à l’assaut du marché de l’audiovisuel !

La véritable innovation audio était à chercher ici, du côté de l’audio orienté objets. Si tout le monde s’accorde à dire que l’audio 3D, en TV, a peu de chance de représenter un large marché, le bénéfice des objets apparaît en revanche comme une source inépuisable de souplesse, d’économie et d’enrichissement de l’expérience.

MPEG-H 3D, c’est parti !

Quelques mois après la publication du nouveau codec audio MPEG-H 3D, les démonstrations proposées par l’alliance FraunhoferQualcomm et Technicolor sont à couper le souffle. Les lauriers sont tout de même à adresser à Jünger, le fabricant de processeurs de traitement d’antenne, car il a implémenté pour ce NAB un prototype capable de lire, corriger et/ou insérer un flux de métadonnées MPEG-H permettant de décrire un ensemble de 16 canaux audio.

Grâce à ce prototype, un ingénieur du son opérant en direct le mixage d’une compétition de half-pipe (snowboard acrobatique) pouvait signaler d’une part l’ambiance multicanale du stade (au format 5.1), d’autre part signaler 2 commentaires séparés dans 2 langues différentes, et finalement signaler un micro particulier braqué sur le compétiteur, dont il pouvait encoder les mouvements en 3D à l’aide d’un joystick pour mieux accompagner les acrobaties visibles à l’image.

Sous la rangée de boutons colorés, le prototype Jünger, devant lui le boîtier de commande et son joystick pour encoder des déplacements de sources en 3D, sur l’écran associé, les centaines de métadonnées éditables du codec MPEG-H 3D

Sous la rangée de boutons colorés, le prototype Jünger, devant lui le boîtier de commande et son joystick pour encoder des déplacements de sources en 3D, sur l’écran associé, les centaines de métadonnées éditables du codec MPEG-H 3D

Au total, ces 9 canaux audio et leur flux de métadonnées MPEG-H transitaient vers une régie finale, chargée d’écouter le résultat à l’aide du même équipement, d’ajuster les niveaux ou d’insérer une troisième langue de commentaire au besoin. Dans cette régie finale, l’écoute était au format 9.1 avec 4 haut-parleurs disposés en hauteur. Le Jünger permettait de rendre l’ambiance 5.1 sur le système d’enceintes 5.1 à hauteur d’oreilles avec l’un ou l’autre des commentaires, ainsi que le micro braqué sur le compétiteur rendu dans l’espace 3D sur l’ensemble du système 9.1.

Côté téléspectateur, choix de la langue du commentaire, renforcement des dialogues, audiodescription…

Côté téléspectateur, choix de la langue du commentaire, renforcement des dialogues, audiodescription…

En sortie de cette régie finale, nos 9 canaux audio entrent dans un codeur MPEG-H 3D associés au flux de métadonnées, le reste se passe devant la télévision ou sur une tablette : certains « objets sonores » s’annoncent, tels que les commentaires dans plusieurs langues qu’on peut couper ou substituer, la fonction efficace de renforcement de l’intelligibilité des dialogues, ou encore la réduction de dynamique pour écouter en milieu bruyant… très bientôt on pourra aussi déclarer le nombre et la position de nos haut-parleurs pour permettre au récepteur d’y adapter le rendu au plus près des intentions de l’ingénieur du son. D’ailleurs à ce titre Technicolor plébiscite le format HOA (High Order Ambisonics) bien plus souple que le 5.1 pour s’adapter aux conditions acoustiques particulières des salons de téléspectateur. Lors de cette démonstration MPEG-H d’envergure, l’encodage d’une fiction sur 7 canaux HOA + 2 objets dialogues a d’ailleurs pu s’intégrer facilement dans l’enchainement de contenus simulant la diffusion d’une chaine généraliste.

Parmi les critiques constructives, on relèvera la pertinence des démonstrations, concentrées sur les cas d’usage les plus probables : l’accessibilité, l’écoute en milieu bruyant, le multilingue. On pourra regretter le design austère et difficilement engageant des interfaces téléspectateurs, la palme à l’ergonomie « télécommande » très rebutante. Sur tablette, les solutions semblent à portée de doigt, même s’il reste tout un usage intuitif, une sorte d’ergonomie standard à imaginer pour que le grand public en comprenne l’intérêt et adopte l’audio orienté objets.

Chez Dolby et DTS, les deux géants du secteur dans le domaine du cinéma avec Dolby Atmos et DTS:X, cette soudaine et remarquable mise en avant de leur concurrent MPEG-H 3D attise les jalousies. Cependant les mêmes besoins sont identifiés pour leur marché broadcast, les produits possèdent les mêmes caractéristiques, le reste n’est qu’une compétition commerciale dont les fabricants de TV, set top box, tablettes et smartphones possèdent les clés : quelles licences vont-ils accepter de payer pour offrir au grand public ces fonctionnalités orientées objets ? Jusqu’à ce jour, MPEG s’est systématiquement déployé partout. A suivre…

Ce contenu a été publié dans audio, codecs, son 3D. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *