Les ingénieurs du son et l’ère numérique

AES_57_11La conférence internationale de l’AES (Audio Engineering Society) vient d’avoir lieu à Hollywood.  Réunie dans la prestigieuse salle du Chinese Theatre sur Hollywood Boulevard, arborant son écran géant et sa centaine de haut-parleurs apparents, la grande famille de l’audio s’est penchée durant 3 jours sur les mutations imposées par l’ère numérique.

L’avenir de l’audio au service de la création : cinéma, TV, jeux vidéo

Par Matthieu Parmentier, chef de projet innovations&développements – France Télévisions

A Hollywood, l’industrie de la création de contenus ne se fait pas de cheveux blancs

Mises bout à bout, le cumul des conférences dédiées à la reproduction du son en salle de cinéma a totalisé près d’une journée complète d’échanges, trahissant la soif permanente des ingénieurs du son (d’Hollywood) pour la maîtrise parfaite du rendu sonore entre auditorium de mixage et salle de cinéma. Il s’agit de comprendre, en creux, que les majors hollywoodiennes ne craignent pas la disruption ni même l’effritement de leur sphère d’influence. Le concept du « contenu reste roi » s’oppose à celui du « client numérique est roi ».

Mieux maîtriser la reproduction sonore en salle

Une salle de cinéma jauge entre 50 et 500 places, soit un rapport de 10 également s’agissant du volume d’air à sonoriser, occasionnant surtout des « effets de salle » plus ou moins importants sur la dégradation du ressenti des spectateurs. Car plus une salle est grande, y compris si sa construction ne suit pas de strictes recommandations acoustiques, moins sa forme et les réflexions de ses parois impactent la qualité du son. Ce sont donc les petites salles qui demandent le plus de soin pour y contrôler le rendu.

Au centre des préoccupations des ingénieurs du son cinéma : la maîtrise des infra-graves et l’influence des micro-perforations des écrans sur la qualité des aigus. Point de tabou, tout l’écosystème actuel du mixage cinéma est remis en question lors de ces conférences, notamment par les progrès des algorithmes de mesure autant que par l’exploitation des failles dans les normes actuelles par certains petits malins.

AES_57th_2

 

Pour ne parler que de l’inconfort du spectateur en salle, on notera les dérives importantes concernant le niveau sonore. Certains films récents, aux mixages particulièrement chargés dans les fréquences aigus, ont poussé le gouvernement belge à légiférer pour interdire la reproduction sonore en salle au delà du niveau 4,5 (sur une graduation Dolby de 1 à 7, le niveau 7 étant celui en vigueur dans l’auditorium de mixage). Cette réaction législative faisait suite à la perte d’audition d’un adolescente lors d’une séance du film Transformers, également montré du doigt pour avoir  occasionné plusieurs casses matérielles de haut-parleurs à travers le monde. En conséquence de nombreux mixeurs ont abaissé le niveau sonore de leur auditorium à 4,5, compressant de plus en plus la dynamique des musiques, dialogues et effets pour retrouver leurs sensations de puissance habituelles.

Tandis qu’en télévision la mesure de loudness a mis fin à une guerre des niveaux entre programmes et publicités, rétablissant au passage un peu de dynamique naturelle aux mixages TV, des experts néerlandais ont au contraire relevé plusieurs mixages cinéma dont la dynamique s’avère désormais inférieure à leur version TV ! Un non-sens dont l’industrie cinématographique et les pouvoirs publics devraient pouvoir sortir via l’adoption de nouveaux algorithmes de mesure. L’EBU est sur les rangs et propose une mesure adaptée au cinéma et basée sur l’algorithme de loudness qui s’est imposé en télévision.

Vers un meilleur contrôle de l’intelligibilité aussi !

Peter Mapp, grand spécialiste du sujet, a retracé la conquête de l’intelligibilité dans la reproduction sonore depuis l’invention du téléphone et l’avènement des neurosciences. La liste des raisons du manque d’intelligibilité n’étonne personne :

  • Faible capacité de l’interlocuteur à articuler
  • Mauvais choix et placement du microphone
  • Mauvais choix du système de reproduction et influence de l’acoustique environnante
  • Niveau élevé du bruit de fond
  • Mauvaise post-production : lors de l’édition ou de l’ajout d’effets
  • Manque de familiarité avec le vocabulaire utilisé
  • Perte d’acuité auditive de l’auditeur

Peter Mapp propose ensuite une avalanche de propositions pour l’évaluation du degré d’intelligibilité d’une bande-son afin que chacun se repose les questions fondamentales sur le sujet à l’heure d’aborder le mixage 3D et le déplacement d’objets sonores dans l’espace.

Parmi les outils remarquables évoqués, la « banane du langage » représentée ci-dessous, où l’ensemble des sons prononcés se trouvent plus ou moins compris selon le degré d’acuité auditive du consommateur et la qualité de reproduction du timbre du système micro/haut-parleur.

AES_57th_3-1

 

Autre étude intéressante : l’impact du débit de parole sur l’intelligibilité. En moyenne un adulte maîtrise 50.000 mots, prononce 4 à 5 syllabes par secondes pour un débit de 120 mots/minute. Plus critique, la durée typique d’une consonne (80 ms) et d’une voyelle (120 ms) que les ingénieurs du son ont tendance à sous-estimer, or la maîtrise de ces caractéristiques permet d’ajuster plus finement les traitements des voix : compression dynamique, limitation, réverbération.

Réactualisé à l’occasion de tests en haute définition, le degré de perception des erreurs de synchro image/son a clairement évolué : le seuil de détection atteint désormais 40 ms en cas de retard du son sur la vidéo, et 20 ms en cas d’avance. Il y a 15 ans, à l’époque de la vidéo analogique, les téléspectateurs étaient 3 fois plus tolérants !

909859FC-EE45-4634-96D9-9BE781701963

 

Dernier conseil remarquable de Peter Mapp, la prise en compte de l’intelligibilité et de la répétition des écoutes. Pour un même contenu, lorsqu’à peine 30% des auditeurs ont compris le propos lors de la première écoute, ils sont 80% à l’avoir saisi à compter de la 5ème écoute. Cette expérience vise à prouver que ni le réalisateur, le mixeur ou le producteur sont à même de juger l’intelligibilité d’un mixage si ce n’est… lors de leur première écoute !

L’audio orienté objets, couteau suisse du futur ?

C’était à l’origine LE sujet de cette conférence, mais l’instructive visite organisée des studios de post-production d’Universal a permis de mieux cerner la problématique : Hollywood reste le temple de la création, où raconter de bonnes histoires et se répartir les statuettes des Oscars gouvernent le quotidien.

Détour chez Universal

Côté technique, on passe proche de l’overdose de moyens, des consoles de mixage aussi longues qu’un autobus, 640 pistes de Pro Tools en lecture par auditorium, des équipes d’ingénieurs et d’assistants soudées par projet – lesquels peuvent occuper près d’un an dans le cadre d’une post-production de blockbuster –, une prise en charge du client alignée sur les critères des hôtels de luxe… le professionnalisme à l’américaine ! Chez Universal, on post-produit tout type de programmes de luxe : les films (blockbusters), les séries (à succès), les publicités (du super-bowl) et les Blu-Rays (des productions pré-citées).

Mais Universal commence à regretter de n’avoir pas encore d’expérience dans l’édition sonore de jeux vidéo. Aux questions empressées des européens, citant pêle-mêle la complexité des scénarii, l’application des effets a posteriori, l’interactivité avec l’auditeur et surtout la scission du mixage en plusieurs objets sonores… nos hôtes d’Universal ont répliqué qu’un bon jeu rapporte beaucoup au regard de ce qu’il coûte, et qu’il fallait surtout comprendre leur regret sous cet angle.

La visite s’est tout de même achevée par 20 minutes de Dolby Atmos, emmenée par l’équipe récemment nominée 2 fois aux Oscars pour 2 productions très différentes (Birdman et Unbroken), une façon d’affirmer que la maîtrise des objets dans l’espace 3D n’a plus de secret pour Hollywood. Ca marche, ça évolue grâce aux liens directs noués avec Dolby et AVID, et surtout ça s’inscrit dans cette ambition constante de mieux maîtriser le rendu en salle.

Et à la télévision ?

Pratiquement aucune chaîne américaine parmi l’assistance, ce sont donc les Européens qui ont mené les débats sur la numérisation galopante de la consommation, l’évolution des usages et les nouvelles formes de narration : le transmédia, l’interactivité, l’immersion sonore et la réalité virtuelle.

A la baguette, la BBC R&D a très nettement engagé l’auditoire autour de sa vision du futur de l’audio, là où la plupart se contentent de lister les points bloquants, les standards manquants, le coût, le manque d’entrain des consommateurs… La BBC concentre ses efforts sur des programmes pilotes, chacun d’eux combinant une nouvelle approche éditoriale et le développement d’un concept technique, puis les expose sur un site à l’appréciation des internautes.

Parmi les dernières innovations produites, le documentaire radiophonique à durée variable impressionne : le scénario est scindé lors de la production et combiné dans un algorithme sur mesure qui peut, à chaque instant, s’adapter au temps de consommation indiqué par l’auditeur pour supprimer certaines séquences et ré-agencer les restantes.
Vers l’unification d’un format audio orienté objets ? Du côté des travaux en cours, les européens ont parlé d’une même voix, BBC, France TV, Radio France et Fraunhofer ont réaffirmé leur soutien à l’Audio Definition Model (ADM) élaboré en commun sous l’égide de l’Union Européenne de Radio Télévision (UER-EBU). L’ADM est un standard ouvert, compatible depuis une application pour smartphone jusqu’à la diffusion en salle de cinéma, et postule pour unifier les technologies de DTS, Dolby et Auro. De l’avis des américains, partagés entre un format Dolby Atmos déjà déployé, un format DTS MDA sans coût de licence (en usage cinéma) et un format Auro 3D a priori plus simple à prendre en main puisque dépourvu d’objets, l’ADM offre l’avantage de la gratuité et obligerait chacun des protagonistes à faire un pas dans sa direction, une vertu équitable. Finalement le plus gros défaut de l’ADM vient de son origine européenne, la phrase a clairement été prononcée à l’extérieur de la salle. Sans doute que sa standardisation internationale (en cours auprès de l’ITU) ou américaine (auprès de la SMPTE) règlerait le problème.

AES_57_9

 

Au menu des travaux européens, dont les membres actifs sont résolument engagés dans la conquête des usages numériques, l’EBU a récemment publié les objectifs de son plan de travail :

  1. Faire de l’ADM un format d’import/export de session audio 3D orienté objets, à ce titre la BBC annonce la publication en ce mois de mars 2015 d’une librairie d’import/export au format ADM ici.
  2. Apprécier le rendu et l’expérience sonore 3D d’un même contenu ADM sur différents moteurs de rendu 3D, pour mieux pointer les caractéristiques importantes en termes d’interopérabilité.
  3. Proposer un protocole standard pour passer les informations de mixage orienté objets depuis une session au format ADM vers un moteur de rendu 3D.
  4. Définir les fonctionnalités minimales attendues d’un moteur de rendu 3D.

AES_57th_4

 

L’Europe esquisse la direction à prendre

Enfin Radio France a expliqué la mise en oeuvre de son player multicanal et binaural nouvOson, assorti d’une politique de production massive de contenus aux styles bien différents pour développer les techniques de production et obtenir un maximum de retours d’utilisateurs. nouvOson est un player HTML5-Javascript développé conjointement avec Orange Labs, l’IRCAM et le LIMSI-CNRS dans le cadre du projet de recherche BiLi mené par France Télévisions. Ce player associe plusieurs innovations remarquables :

  • la possibilité de personnaliser l’écoute binaurale au moyen d’une interface de sélection parmi 7 morphologies de tête différentes,
  • le rendu binaural automatique dès la détection de branchement d’un casque,
  • un réglage de volume astucieux qui enclenche une compression progressive de la dynamique pour répondre à certaines conditions d’écoute, notamment en milieu bruyant.

AES_57th_6

 

Le mot de la fin est revenu à la BBC R&D, qui a dépeint sa vision du futur de l’audio : un monde hybride, ouvert, où solutions payantes, haute performance, cohabitent avec d’autres technologies gratuites, plus basique, mais dans le respect d’un niveau suffisant de qualité. La chaîne de production/reproduction audio actuelle présente d’énormes lacunes, et si Hollywood se félicite de tout mettre en œuvre pour maîtriser la qualité de diffusion en salle de cinéma, c’est tout l’écosystème numérique qui mérite l’attention de la profession. D’où cette vision ambitieuse offrant sa place à chaque compétiteur, pour le bénéfice d’un auditeur auquel on garantit au minimum une qualité supérieure à ce qu’il a connu jusqu’ici.

AES_57th_5

 

Ce contenu a été publié dans audio, Audio, binaural, loudness, son 3D, avec comme mot(s)-clé(s) , , . Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *