AES Berlin : Focus sur la perception du son en 3D

La convention de l’AES a eu lieu cette année à Berlin entre le 20 et le 23 mai. Une salle était dédiée au son binaural. Elle n’a pas désemplie pendant les quatre jours.

Le son c’est avant tout une question de perception. Qu’est-ce que le son si aucune oreille n’est là pour l ‘écouter ? L’audio nécessite un émetteur, un milieu de propagation et un récepteur. Le premier récepteur étant le système auditif, nous nous intéressons donc à l’humain, sujet, par définition d’une extrême complexité.

Par Lidwine Hô – France Télévisions – innovations&développements

La perception Binaurale

La perception binaurale c’est le fait de pouvoir localiser la provenance d’une source sonore dans un espace tridimensionnel avec seulement nos 2 oreilles. Notre cerveau saura placer les sons dans l’espace grâce à trois indices :

  • ITD : différence de temps d’arrivée d’un son d’une oreille par rapport à l’autre
  • ILD : différence d’intensité d’une oreille à l’autre
  • Indices monauraux, spectraux : indices fréquentiels, qui sont induits par la forme du pavillon de notre oreille, mais aussi par la réflexion sur notre visage, notre torse et nos épaules.

Ces trois paramètres sont des informations qui constituent la fonction de transfert (HRTF). Ces critères étant liés à la morphologie, on comprend aisément qu’ils varient d’une personne à l’autre.

La synthèse binaurale consiste à appliquer des filtres qui reproduisent ces 3 indices. Il a été montré dans de nombreuses études qu’une fonction de transfert personnalisée était plus performante qu’une fonction de transfert générique pour des sons fabriqués en synthèse binaurale du fait de l’impact de la morphologie sur l’indice spectral.

Ces 3 indices qui arrivent à l’entrée de nos conduits auditifs sont décodés par notre cerveau grâce à un processus complexe, encore peu connu mais néanmoins très performant. Le cerveau ne se base pas uniquement sur les signaux sonores que nous recevons mais également en prenant en compte une multitude d’autres indices physiologiques tels que la vue, qui lui permettent de décoder cet espace tridimensionnel. Un décodage qui est acquis au cours de la vie grâce à une perception multi-sensorielle.

Une perception multi-sensorielle

Les indices physiologiques ne sont pas les seuls : l’analyse de ces indices par notre cerveau étant le résultat d’un processus d’apprentissage, l’histoire culturelle de la personne, ses souvenirs, ses attentes, sont des facteurs qui influent sur sa perception de l’espace sonore.

La multi-sensorialité de la perception la rend extrêmement complexe à analyser de manière scientifique. Prendre en compte tous les facteurs perceptifs est presque impossible, mais comment analyser un ensemble complexe en ne regardant qu’une partie du phénomène ? Elle donne néanmoins lieu à de nombreuses études, toutes analysant un des éléments de cette perception.

L’influence de l’asymétrie des oreilles humaines sur la performance de localisation avant-arrière.

Pour étudier l’influence des indices liés à la forme du pavillon (indices monauraux ou spectraux), il est pratique d’étudier les points de l’espace sur lesquels les 2 autres indices n’ont pas d’influence, c’est le cône de confusion.

Le cône de confusion c’est la partie de l’espace dans laquelle les indices de localisation inter-auraux sont constants (ITD /ILD)

 

L’expérience menée par Ramona Bomhardt, utilise cette théorie dite duplexe, pour analyser l’influence de l’asymétrie des 2 oreilles sur la capacité à localiser une source sonore.

L’expérience porte donc sur des sons situés sur un même cône de confusion donc localisables uniquement par les indices monauraux ou spectraux. Ces sons sont spatialisés au casque grâce à de la synthèse binaurale.

Deux cas sont proposés aux sujets :

  • Des sons de synthèse binaurale fabriqués grâce à la mesure de l’oreille ipsilatérale (face à l’oreille),
  • Des sons de synthèse binaurale fabriqués grâce à la mesure HRTF de l’oreille Controlatérale (face opposée à l’oreille) inversée en miroir.

Les résultats de cette expérience montrent qu’il y a moins de confusion de localisation de la part des sujets dont les oreilles sont asymétriques, mais uniquement pour les sons situés à l’avant de ce cône de confusion. Les résultats sont en revanche pratiquement identiques pour les 5 autres directions étudiées.

Alors quelle est l’utilité d’une telle étude ?

On peut en déduire que le caractère asymétrique des deux oreilles donne une information supplémentaire au cerveau, à la différence des oreilles plus semblables (mais uniquement pour les sons situés le plus à l’avant sur le cône de confusion) Ce serait donc un atout en terme de localisation. Avoir des oreilles différentes donnerait donc une plus grande performance à défaut d’être esthétique.

Sachant, que dans un contexte de vie de tous les jours donc multi-sensoriel, la provenance des sources sonores à l’avant est donnée en grande partie par les indices visuels.

S’il est démontré que la mesure d’une oreille est suffisamment proche de la mesure de l’oreille controlatérale en miroir, cela permet de ne faire la mesure que d’une seule oreille, ce qui réduit de moitié les mesures et les calculs de synthèse binaurale.

Ceci n’est qu’une sélection des nombreux travaux présentés lors de ces 4 journées.

Toutes ces études, qui se sont attachées à évaluer de nouvelles méthodes de reproduction du son 3D, n’ont évalué qu’un seul critère de performance : la précision de la localisation des sources par les sujets du test.

Ces études très utiles néanmoins ne sont pas suffisantes pour que l’on puisse en tirer la conclusion que la qualité de l’expérience globale d’un spectateur devant un programme audiovisuel en binaural soit satisfaisante.

Outre les critères physiologiques, lors d’un visionnage, de nombreux autres critères liés à la perception rentrent en ligne de compte.

Des critères tels que :

  • le réalisme de la scène sonore,
  • la cohérence de la position visuelle/sonore des objets visibles,
  • la corrélation de l’acoustique de la scène sonore à l’architecture visible de la scène,

Toutes ces informations sont des critères qui participent à la perception globale de la qualité d’un programme.

La précision de la localisation sonore n’a que peu d’importance lorsque la position de cet objet est dans le champ de vision, dans ce cas, ce sont nos yeux qui nous renseignent.

Dans un contexte audiovisuel, lorsque l’on regarde un film, la question des codes, des habitudes des présupposés culturels est au moins aussi importante que les indices qui parviennent à l’entrée de nos conduits auditifs.

C’est par exemple le cas, lorsque la position précise d’un son n’a pas vraiment d’importance, tant on est habitué culturellement à donner un statut de « son hors champ » à un son qui se trouverait dans l’espace qui sort du cadre et qui a une fonction différente des sons « in ».

Un son hors champ est un élément qui fait appel à l’imagination, au souvenir ou à la surprise. Le réalisme, la nature, le mouvement, la proximité seront autant de facteurs qui feront que la scène sonore fonctionne bien plus efficacement que la précision de la localisation.

Il est évident que ces paramètres qui font que l’on est captivé par une histoire, sont des critères bien plus complexes à évaluer en laboratoire.

Vu sous cet angle, l’étude menée par Dimitri Soudoplattof du CNSMDP qui s’est attachée à résoudre un enjeu concret prend en compte la globalité de la perception du sujet puisque la finalité de l’étude est bien la satisfaction de l’utilisateur dans un contexte réaliste.

Il a envisagé la situation du chef d’orchestre qui doit diriger ses musiciens avec un battement de métronome (qui donc est diffusé seulement pour lui dans un casque) Le problème de cette situation, c’est qu’il doit choisir entre écouter ce battement ou écouter les musiciens, il finit en général avec le casque sur une seule oreille. Il écoute les musiciens d’une oreille, le battement de l’autre.

L’étude comptait de nombreuses étapes qui ne seront pas toutes détaillées, mais résumées :

Les chefs d’orchestre ont été soumis à des questionnaires qui révélaient qu’ils perdaient toute notion de plaisir à diriger de cette manière et que la contrainte technique prenait le dessus sur toute notion artistique.

La proposition a donc été de reproduire la scène sonore 3D en rendu binaural au casque, afin que le chef puisse avoir à la fois, le battement de la mesure et le son spatialisé de l’orchestre dans un même casque.

Les micros destinés à l’enregistrement de la scène sonore servaient à alimenter un mixage alternatif à destination du chef d’orchestre, dans lequel les positions exactes des musiciens étaient reproduites grace à de la synthèse binaurale. Le battement pouvait également être binauralisé et son positionnement dans l’espace rendu possible.

Grâce à la synthèse binaurale, et au travail de l’ingénieur du son qui a mixé le retour du chef d’orchestre, et a ainsi permis d’externaliser toutes les sources sonores y compris le battement, l’expérience globale a été très satisfaisante.

La notion de plaisir est revenue, un gain en qualité du travail et la fatigue amoindrie.

Le cerveau traite les informations audio arrivées à l’entrée des conduits auditifs grâce à un logiciel personnel en grande partie construit par apprentissage.

La question posée pas cette série de conférences est donc tout à fait pertinente car elle questionne un des premiers acquis de l’être humain, son langage, dont le processus d’apprentissage est l’écoute, et l’observation.

L’influence de la langue maternelle sur l’appréhension de la qualité des sons

Une session dédiée à l’impact culturel du sujet ainsi qu’à celui de l’apprentissage dans la perception des artéfacts sonores lors de tests perceptifs a mis en évidence différents points.

D’une part la prépondérance du facteur de gêne à l’évaluation de la qualité d’un son de voix dans des environnements bruyants des sujets de langue maternelle Igbo (langue parlée au Nigéria notamment) qui est une langue tonale en comparaison aux sujets de langue maternelle anglaise originaires des états unis et ce quelque soit la langue de la voix test.

D’autre part une autre étude dans le même registre a noté que quelle que soit la langue d’origine : chinoise ou allemande, il n’y avait pas de différence de perception de la qualité, mais une augmentation du temps d’évaluation pour les sujets qui devaient évaluer la qualité sonore d’un enregistrement de voix dans une langue qui n’est pas leur langue maternelle.

Des études qui peuvent paraître contradictoires mais qui sont plutôt complémentaires tant la langue Igbo, Chinoise, allemande et anglaise sont différentes et qui nous éclairent sur la différence de perception qui est aussi liée à la culture, et à l’apprentissage. L’homme n’est pas une machine, la perception est une notion dont la complexité est à la hauteur de la complexité humaine et qui est à appréhender dans son ensemble.

 

Ce contenu a été publié dans audio, Audio, binaural, ftv, son 3D. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *