143ème Convention de l’AES : évaluer la perception sonore à l’heure de l’audio 3D

Cette 143ème convention de l’Audio Engineering Society a renoué avec le faste des années 1990, à l’époque du passage de l’analogique au numérique où toute l’industrie audio, des composants électroniques jusqu’aux méthodes créatives, vivait une profonde remise en question.

par Matthieu Parmentier – France Télévisions – innovations&développements

Le succès de cette édition 2017 résulte certainement dans une combinaison de facteurs favorables :

  • l’Audio Orienté Objets, après les jeux vidéo et le cinéma (Dolby Atmos), débarque dans la sonorisation et le spectacle vivant ;
  • le marché des casques ne faiblit pas, le binaural a la cote partout, le marché des barres de son immersives décolle, le secteur automobile stimule beaucoup la R&D ;
  • l’audio sur IP se banalise en sonorisation et intéresse fortement les intégrateurs de studios de post-production ;
  • la Réalité Virtuelle, dont la définition vidéo déçoit, compte toujours beaucoup sur la dimension sonore immersive pour faire décoller le marché ;
  • et les fondamentaux restent solides : le « son analogique » et sa musicalité légendaire au service des musiciens, ainsi qu’une offre incroyable de cursus de formations.

Pourquoi devrait-on croire à l’avènement du son en 3D dans les foyers du monde entier ? Les industriels ont un argumentaire simple : si la différence est audible, le matériel bon marché et simple à mettre en oeuvre, ça se vendra !

L’une des salles de conférence équipée avec un système 5.1.4 pour l’écoute de contenus audio 3D.

Il faut aussi souligner l’annonce d’une publication technique importante à l’occasion de cette convention :

La recommandation pour les niveaux sonores des programmes disponibles en streaming.

Cette recommandation stipule qu’en l’absence de technologie d’ajustement du niveau et de la dynamique sonore au sein du récepteur, la plateforme de distribution doit respecter les règles en vigueur, soit -23 LUFS.

Le document recommande également, pour l’écoute en mobilité ou en milieu bruyant, une adaptation du niveau d’écoute au niveau du récepteur, jusqu’à -16 LUFS maximum.

L’ensemble doit ainsi garantir la meilleure expérience en fonction des conditions d’écoute, sachant qu’avec Netflix, Chromecast et autre AppleTV, la consommation de programmes en streaming n’est plus synonyme d’écoute en mobilité, tandis que la plupart des plateformes imposent encore un niveau sonore par défaut beaucoup trop élevé pour une écoute domestique (-16 LUFS pour Apple, -14 LUFS pour Tidal et Spotify, -13 LUFS pour YouTube).

La recommandation : http://www.aes.org/technical/documents/AESTD1006_1_17_10.pdf


Cet article propose une plongée particulière dans l’un des sujets les plus abondamment discutés :  l’étude des dimensions perceptives de l’expérience sonore. Comment considérer que les auditeurs apprécient un contenu audio 3D pour sa dimension immersive, tandis que l’incertitude demeure quant à d’autres dimensions très pertinentes à l’heure d’émettre un jugement :

  • l’adéquation du niveau d’écoute
  • le réalisme de la scène sonore (timbre, localisation, réverbération)
  • les goûts personnels

Parmi les résultats des travaux présentés, l’étude menée par Cleopatra Pike de l’Université de St Andrews (UK) compare les mesures d’appréciation recueillies auprès des auditeurs via un questionnaire, et les mesures indirectes issues de capteurs physiologiques : électro-encéphalogramme, mesure de la taille des pupilles, temps de réaction, mesure de sudation. L’étude conclut sur l’aspect complémentaire de ces deux types de mesures, et reconnaît une limite importante : aucune de ces méthodes ne permet un réel accès au subconscient de l’auditeur, dont l’expérience personnelle continue d’apporter un biais aux mesures sans possibilité de l’étudier.

L’étude de Cleopatra Pike : http://www.aes.org/e-lib/browse.cfm?elib=19226


Marta Olko, à la tête d’une équipe d’étudiants de la New York University, s’est intéressée à l’adéquation entre méthode de production et appréciation sonore dans l’environnement 360°. Dans le lignée des travaux de Francis Rumsey, Catherine Colomès et Nick Zacharov abondamment utilisés dans notre projet BiLi pour l’évaluation de la qualité d’expérience en binaural, l’équipe a conçu plusieurs stimuli musicaux associant audio et vidéo à 360°, en utilisant 3 méthodes de production différentes :

  • un micro Sennheiser Ambeo pour une prise Ambisonics d’ordre 1
  • des micros d’appoint associés à un réverbération artificielle, mixés en Ambisonics d’ordre 1
  • une combinaison des deux précédentes méthodes, toujours à l’ordre 1

L’écoute comparative a été réalisée à partir du plugin Facebook sous la forme de comparaisons par paires, écoutées en binaural. Pour chaque paire, les auditeurs ont été invités à signaler par écrit les dimensions qui ont guidé leur préférence. Ainsi 11 termes ont été extraits après analyse et classement des réponses :

  • Clarity
  • Timbre
  • Spatial impression
  • Location accuracy
  • Depth perspective
  • Sound image width
  • Externalization
  • Sound balance
  • Immersion/presence
  • Punch
  • Freedom from noise

Sans surprise, la méthode de production combinée (3ème) s’en sort le mieux, mais c’est bien le protocole utilisé par cette étude qui mérite d’être souligné.

L’étude de Marta Olko : http://www.aes.org/e-lib/browse.cfm?elib=19227


Jon Francombe, de l’Université du Surrey en Grande-Bretagne, s’est concentré sur les terminologies utilisées par les candidats lorsqu’ils doivent expliciter la qualité sonore avec des mots. En effet, au rang des méthodologies concurrentes pour qualifier la qualité d’expérience, le choix du report écrit au moyen d’un vocabulaire libre est souvent plébiscité pour l’authenticité des réponses collectées.

Le problème du responsable de l’étude consiste rapidement à classifier tout le vocabulaire recueilli pour créer des graphiques et détacher des tendances dans l’analyse des réponses. Plusieurs études antérieures ont permis de lister et associer des termes communément utilisés pour qualifier l’audio. Cette fois, l’auteur de cette étude propose d’utiliser un algorithme pour automatiser la collecte, l’analyse et le regroupement des résultats, puis juger de sa pertinence face à une méthode classique entièrement manuelle.

Pour information, la comparaison entre algorithme de classement et classement manuel s’est faite autour d’un test d’écoute de type « comparaison par paires » dans le cadre d’écoutes binaurales.

L’étude conclut sur l’impossibilité de supplanter totalement l’analyse manuelle par l’algorithme, mais reconnaît l’intérêt de l’algorithme pour effectuer une première passe de classement des termes utilisés, grâce à un taux de similarité de 90% à ce stade. En l’état, l’analyse finale doit donc rester manuelle, l’algorithme permettant tout de même l’économie d’environ 3 h de tableur Excel par rapport à la méthode de référence.

L’étude de Jon Francombe : http://www.aes.org/e-lib/browse.cfm?elib=19240


Matteo Torcoli, de l’Institut Fraunhofer d’Erlangen en Allemagne, s’est intéressé au nouveau graal sonore des téléspectateurs du monde entier : l’ajustement du niveau d’intelligibilité des dialogues. Il a créé pour cela une interface particulière, autorisant l’ajustement du niveau des dialogues entre 0 dB (niveau des dialogues conforme au mixage original du programme) et jusqu’à +15 dB. Suite à cet ajustement, le candidat est invité à noter sa satisfaction globale : le réglage personnalisé est-il bien pire, pire, moins bon, identique, un peu mieux, meilleur ou bien meilleur comparé au niveau original ? L’étude présentée a concerné 11 candidats âgés de 19 et 32 ans.

Les résultats surprennent par leur grande hétérogénéité, même si l’auteur de l’étude convient de la nécessité d’une analyse plus poussée afin notamment de distinguer l’apport de l’expérience culturelle entre auditeurs naïfs et auditeurs habitués à une écoute HiFi. Par exemple, les 4 auditeurs naïfs du panel ont très régulièrement ajusté le niveau des dialogues au delà de +10 dB, ce qui laisse songeur sur la capacité des mixeurs à proposer un programme suffisamment intelligible.

Les travaux de Francis Rumsey sur l’intelligibilité des dialogues avaient notamment démontré qu’au bout de 5 écoutes d’un même passage, un auditeur n’est plus capable d’émettre un avis critique sur l’intelligibilité globale, trompé par sa mémoire.

L’étude de Matteo Torcoli : http://www.aes.org/e-lib/browse.cfm?elib=19239


Montons à nouveau d’un cran dans les grandes remises en question des fondements scientifiques de la perception sonore, avec l’étude du laboratoire Delta dirigé par Nick Zacharov, qui a comparé 6 méthodes de tests perceptifs, avec ou sans référence (référence = une version sonore présentée comme la référence envers laquelle il convient de juger les autres versions, cette référence peut être présentée 2 fois, dont 1 fois cachée, afin de vérifier que l’auditeur note correctement), avec ou sans ancre (ancre = une version sonore délibérément de basse qualité, utilisée pour interpréter les résultats sur une échelle absolue plutôt que relative).

La méthode la plus utilisée en matière de test de qualité audio, la méthode MUSHRA (pour MUltiple Stimuli with Hidden Reference and Anchor) a été comparée à 5 autres méthodes : 2 méthodes ressemblantes (l’une avec ancre, mais sans référence, l’autre sans ancre ni référence) utilisant une échelle de qualité audio de 0 à 100 et 3 méthodes dites « hédonistes » où la satisfaction de l’auditeur est mesurée à partir d’une échelle de 7, 9 ou 11 degrés, du degré inférieur (extrêmement mauvaise sensation) au degré supérieur (extrêmement agréable sensation).

L’étude conclut sur la grande proximité entre toutes ces méthodes, et notamment entre les échelles de notation de type « qualité » et de type « hédoniste ». En revanche, la seule méthode MUSHRA présente un décalage dans la notation des contenus de haute qualité par rapport aux 5 autres méthodes, plutôt homogènes.

Ce résultat est à mettre au crédit des farouches opposants à la méthode MUSHRA, la méthode justement brandie par tous les fabricants d’encodeurs pour justifier l’excellence de leurs produits. Si cette méthode est réputée impropre pour jauger les solutions audio 3D, l’étude semble ainsi suggérer de l’abandonner totalement.

L’étude de Nick Zacharov : http://www.aes.org/e-lib/browse.cfm?elib=19276

Ce contenu a été publié dans audio, Audio, multicanal, son 3D. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *