IBC 2017

L’édition 2017 du salon IBC d’Amsterdam vient de fermer ses portes. L’omniprésence des technologies IP se conjugue avec les termes « end to end, anywhere, anytime and monetization » à un point tel que tous les slogans publicitaires paraissent échangeables d’un stand à l’autre. Les responsables marketing vont devoir travailler sur ce qui différencie leurs produits de la concurrence.

par Vincent Dabouineau et Matthieu Parmentier – France Télévisions – innovations&développements

Pour expliquer cet état de fait, on peut souligner la concentration des acteurs historiques du broadcast dans de gros conglomérats (Belden, Imagine, Harmonic,  etc.) qui, de façon légitime, clament leur capacité à traiter toute la chaîne de production/diffusion.

En face de ces conglomérats, on trouve deux types de riposte :

  • d’une part, les nouveaux riches tels que Blackmagic Design, qui grignotent de nouveaux segments du marché chaque semestre. Toujours considérés comme des options low-cost… mais pour combien de temps encore ?
  • d’autre part, la virtualisation galopante des infrastructures transforme les produits en services, les investissements en coûts de fonctionnement. C’est ici que d’autres acteurs issus du monde logiciel se prennent à rêver de tout remplacer, sauf peut-être les caméras, micros, TV et haut-parleurs.

Les GAFA(M) louent leurs infrastructures

Dans un parc des expos largement agrandi pour l’occasion, des centaines de nouveaux acteurs présentent leurs outils pour la production/diffusion audiovisuelle : Facebook, Microsoft, Google et Amazon par exemple, apportent les technologies du Big Data (machine learning, Intelligence Artificielle, bases de données sémantiques) et louent des infrastructures clés en main pour y déployer sa « channel-in-a-box », autrement dit une usine virtuelle à accueillir des médias pour les publier sur des chaînes linéaires ou nourrir des services de vidéos à la demande. Des dizaines de solutions de gestionnaire de tâches, de gestionnaire de gestionnaires de tâches, de sécurisation des contenus et des liaisons, de video players, d’inserteurs de publicités ciblées, de moteurs de recherche et de recommandations naviguent dans cet écosystème clairement fonctionnel et très flexible. Seule inconnue de taille, donner un prix à cette virtualisation : les tarifs de ces solutions “logiciel + Cloud”  sont généralement proportionnels à l’audience finale, un choix pragmatique et malin, mais le coût de la sécurité – doublement voire triplement de l’infrastructure sur un Cloud privé, concurrent ou hybride, ainsi que toutes les procédures de bascule et non contamination – n’est presque jamais mis en avant.

Un Cloud au cas par cas

Pour la plupart des chaînes de TV, il importe de garder la main sur chaque maillon technique et ne pas dépendre d’une solution « channel-in-a-box » verrouillée. Pour ces chaînes, le Cloud et ses ressources infinies, qu’il s’agisse de stockage, de CPU (processeur) ou GPU (processeur graphique), accueillent désormais de grandes fermes spécialisées pour le contrôle qualité, l’encodage vidéo ou l’extraction automatique de données (dialogues, reconnaissances de visage, indexation, sous-titrage etc.). Ces offres se présentent sous la forme de services scalables et s’accompagnent de fonctionnalités modernes : les logiciels adaptent la durée d’utilisation des ressources à leur coût, s’interfacent avec la boîte mail et l’agenda des techniciens, s’auto-supervisent et, dès que tout va bien, semblent réduire l’utilisateur au statut de simple gestionnaire des priorités.

Hive – Sony virtualise une régie low-cost à partir de ses caméscopes

Chaque caméscope Sony de dernière génération possède une solution d’encodage bas débit pour alimenter un flux de streaming. Connecté à Internet, ce flux peut directement s’afficher en salle de rédaction et même passer en direct.

Lorsque plusieurs caméscopes couvrent un événement, l’ensemble des flux peut désormais remonter vers un serveur commun et n’importe quel internaute autorisé, dans son navigateur web, se voit proposer une interface de commutation et d’habillage simple pour réaliser un programme multi-caméra. Bien entendu un débit suffisant reste la clé, mais l’ensemble constitue une nouvelle preuve de la migration vers des offres de service.

Le tout IP entrevoit ses bénéfices

Quittons le Cloud pour revenir sur terre. Même s’il est à parier que 80% des solutions négociées sur ce salon exploitent des liaisons série SDI, aucun fabricant ne se risque vraiment à communiquer dessus, de peur d’apparaître ringard à l’heure du tout IP. L’annonce de la publication du standard SMPTE ST.2110 a fait grand bruit, et chaque constructeur a fait l’éloge de ses efforts en matière d’interopérabilité ST.2110. Comme à chaque salon international, un espace de démonstration commun, l’IP Showcase, a permis de voir le standard en action :

Près d’une centaine de marques ont partagé le même réseau de production, et c’est le logiciel de la BBC R&D qui fut choisi pour répertorier tous les équipements et leurs caractéristiques d’entrées/sorties, une sorte d’annuaire indispensable au fonctionnement d’une tel réseau. Ce logiciel, édité sous licence open source, répond au standard NMOS intégré dans le ST.2110. Au delà du listing de l’ensemble des équipements présents sur le réseau (la spécification AMWA IS-04 : “Registry-based and peer-to-peer discovery”), il répertorie aussi les différents flux qui circulent entre eux. D’autres logiciels se chargent ensuite du management des flux pour permettre à l’infrastructure de conserver ses performances optimales et encaisser les bienfaits du tout IP (spécifications AMWA IS-05 : “NMOS Devices to effect connection management between Senders and Receivers”) :

  • une flexibilité totale, quelque soit le type de signal audio, vidéo, data, sa définition, son débit…
  • une circulation indépendante des données audio, vidéo et data
  • une synchronisation fine basée sur l’horloge Precision Time Protocol distribuée dans tout le réseau.

Pourquoi opter pour le tout-IP ? Par exemple pour configurer le lundi une régie de production en HD dont les fonctionnalités sont réparties sur 7 postes de travail, et opter le mardi pour une régie Ultra HD coupée en 2 : 1 personne à proximité du plateau en charge du contrôle de la vision et l’enregistrement du signal noble, et 3 autres personnes en régie, à des kilomètres de là, en charge du mixage et de la réalisation.

Wheatstone – solutions audio sur IP

L’audio a un temps d’avance sur la vidéo dans sa transition vers le tout IP. Les débits moindres ont permis d’utiliser les infrastructures existantes en Gigabit Ethernet tandis que la vidéo HD nécessite du 10 GbE encore onéreux. Wheatstone, à l’instar de beaucoup d’autres acteurs des alliances Ravenna, AVB ou Dante, clame sa compatibilité avec tout autre équipement audio sur IP grâce au standard AES67, véritable esperanto de cette technologie. Mais cette compatibilité s’avère vite limitée au strict minimum : transmettre et recevoir du son. Au sein de l’écosystème Wheatstone, beaucoup d’autres données circulent :

  • Elles permettent à chaque nouvel appareil – de la marque – connecté au réseau d’apporter automatiquement ses ressources d’entrées/sorties à la grille de commutation globale.
  • Cette grille peut être configurée depuis n’importe quel poste autorisé.
  • Chaque équipement possède un petit processeur programmable, depuis n’importe quel ordinateur du réseau, une interface utilisateur sur mesure peut faire appel à ce processeur et virtualiser un appareil tel qu’un “mouchard”, un sélecteur d’écoute, des boutons logiques pour déclencher des évènements etc.
  • Toutes les 6 heures, les équipements Wheatstone s’entre-distribuent leurs fichiers de configuration, dans le but de configurer instantanément un appareil qui aurait été remplacé… jusqu’au cas le plus extrême : le remplacement de tous les appareils sauf un.

Un switch agnostique (en haut) en guise de grille de commutation, des équipements de conversion Wheatstone et quelques autres équipements de marques tiers : un dispositif de démonstration typique sur cet IBC 2017 “tout IP”.

Si l’IP Showcase tient clairement ses promesses tandis que l’encre du standard 2110 sèche encore, on retiendra la grande absence d’une démonstration centrée sur la synchronisation des flux. Qu’il s’agisse d’un scénario de remote-production (plusieurs kilomètres d’écart entre plateau et régie) ou des promesses de circulation libre des données audio, vidéo et data, il faut absolument valider le procédé de synchronisation image/son en sortie de régie, d’autant plus lorsque sons et images ne sont plus menottés dans un même signal SDI. Le standard 2110 est pavé d’excellentes intentions pour réaliser cette prouesse et résoudre la problématique de gestion des latences, le cauchemar récurrent depuis le passage de l’audiovisuel au numérique. Il appartient désormais aux constructeurs d’intégrer la totalité de la spécification pour que les équipements gèrent intelligemment leurs buffers et délais audio / vidéo, pour une compensation automatique des latences induites par les différents process. Nous attendons les premières démonstrations.

Suitcase TV – la gestion des latences en priorité

En contradiction avec l’IP Showcase, le constructeur britannique de solutions de remote production Suitcase TV considère la gestion des latences comme la raison d’être de ses produits. Le positionnement du produit reste volontairement low-cost, à destination de clients particuliers : institutionnel, conférences, sports mineurs etc.
Deux scénarii de remote production existent :

  1. soit la bande passante entre plateau et régie permet l’établissement d’une communication ultra rapide (inférieure à 100 ms) permettant au réalisateur de diriger les cadreurs comme lors d’une production classique ;
  2. soit la bande passante est réduite et la latence s’avère trop élevée (jusqu’à plusieurs secondes) : le réalisateur ne peut plus espérer diriger les cadreurs. Et quelle que soit la solution technique apportée, cette réalité temporelle demeurera.

Dans ces deux cas de figure, Suitcase TV compense cette latence à l’aide de mémoires tampon côté caméra/plateau dans l’attente des informations de commutation du réalisateur, et garantit le respect de ces commutations à l’image près.

L’organisation idéale, avec une telle solution technique, semble privilégier la répartition suivante des fonctions et des postes de travail sur 2 sites ou plus :

  • côté plateau : les caméras, les cadreurs et techniciens plateau, les serveurs d’enregistrement et de ralenti, le contrôle des caméras (ingénierie de la vision) ;
  • côté régie : le mélange vidéo, la réalisation et l’équipe éditoriale, le trucage, les titrages. Le mixage son peut être placé des 2 côtés, tout dépend du nombre de canaux audio à traiter.

Le signal noble reste produit côté plateau, et les caractéristiques (débit, codec) du lien de contribution décident de la qualité finale disponible côté régie.

L’objectif de la solution Suitcase TV est de réussir à opérer avec moins de 25 Mbps de débit entre plateau et régie. En l’état, une liaison 100 Mbps semble garantir un fonctionnement fluide et une latence faible.

 

L’Ultra HD n’est presque plus une innovation

L’Ultra HD reste un slogan important sur le salon, bien que rétrogradé derrière le Cloud et les infrastructures IP. La combinaison 4K + Haute Dynamique tient la corde, quelques démonstrations à 100 images/seconde s’exposent à l’EBU et chez ATEME, centrées sur les contenus sportifs. La haute dynamique se conjugue également en HD, parfois sous le terme marketing HD+.

Les caméscopes UHD d’entrée de gamme fleurissent, les outils de mesure, de montage et de monitoring s’adaptent. Le HDR est partout mais subsiste sous plusieurs standards concurrents. Pour autant la solution gratuite Hybrid Log Gamma (HLG) prônée par la BBC et la NHK semble se généraliser pour les captations en direct, dans les logiciels des caméras et les moniteurs de contrôle. Les autres technologies Dolby Vision, PQ / ST.2084, Slog3, HDR10+ etc. cherchent à s’imposer dans le milieu de la post production. Quant à l’autre bout de la chaine, côté TV et Set Top Box, les technologies gratuites HLG et PQ / ST.2084 sont présentes partout, le HDR10+ de Samsung – sans coût de licence, voir ci-dessous – équipe les produits de la marque, les autres s’ajoutent au fur et à mesure des accords commerciaux.

HDR10+ – la réponse royalty-free de SAMSUNG au Dolby Vision

La dimension HDR de l’UHD Phase 2 fait l’objet d’une véritable guerre technologique depuis quelques années, nos articles précédents en témoignent :

http://idfrancetv.fr/nab-2017-uhd-hdr/

http://idfrancetv.fr/nab-2016-du-hdr-oui-mais-lequel/

Face à la poussée du Dolby Vision, accentuée par la force de frappe de la firme qui appelle les providers OTT (VUDU, Netflix…) et les constructeurs grand public (LG en tête) à l’intégration de sa technologie, une alliance SAMSUNG, Panasonic et 20th Century Fox arrive en trouble fête avec la proposition HDR10+. Présenté brièvement à l’IFA, une démonstration minimaliste est proposée sur le stand de SES de l’IBC :

Sur le papier, il s’agit d’utiliser la courbe PQ (normalisée SMPTE ST 2084) en y ajoutant des métadonnées dynamiques qui codent pour chaque image les informations de pic luminance et de profondeur des noirs. Autre fonctionnalité proposée, le “Dynamic Tone Mapping”, permettant d’interroger et d’identifier les capacités du téléviseur (type de dalle, luminosité minimale et maximale) pour ajuster au mieux la courbe de gamma :

En matière de workflow, l’encodage du signal est précédé d’une analyse de scène afin d’extraire la partie HDR de chaque image pour la convertir en métadonnnées dynamiques. Cette étape est assurée par un outil de l’éditeur Colorfront.

Les métadonnées générées sont ensuite prises en charge par un encodeur HEVC “compatible”, à ce jour, la librairie open source x265 de MCW (MultiCoreWare).

En bout de chaîne, le téléviseur SAMSUNG décode ces métadonnées pour reconstituer le HDR d’origine. Petit bémol : toujours trop peu d’information sur le service Cloud ou la Set Top Box compatible HDR10+ qui laissera passer ces métadonnées dynamiques.

Sur le papier, le procédé ressemble énormément aux solutions propriétaires de Dolby ou Technicolor, mais avec un avantage de taille : l’assurance d’un accès à cette technologie exempt de royalties.

Pour ce qui est de l’offre de médias, seul Amazon Vidéo se positionne pour l’instant, avec de premiers contenus encodés en HDR10+ disponibles à la fin de cette année, le Blu-ray devrait suivre.

Technicolor passe de l’expérimentation à la mise en production :

L’approche de Technicolor sur le HDR est assez proche du Dolby Vision, un encodage de la couche SDR BT.709 avec extraction de la partie haute dynamique codée sous la forme de métadonnées (dynamiques elles aussi). Bien qu’à ce jour, la technologie Advanced HDR pénètre moins le marché que son concurrent solidement ancré dans le monde du cinéma, les réflexions sur les questions d’économie de bande passante, d’adaptation aux capacités de chaque téléviseur et de retraitement de flux à dynamique standard sont particulièrement pertinentes, face à l’hétérogénéité des scénarios (mélange de contenus HD Rec.709 et UHD Rec.2020 par exemple). Avec un solide background en colorimétrie, la division vidéo de Technicolor basée à Rennes (ex Thomson) s’est alliée à Philips pour développer une méthode de traitement HDR temps réel basée sur la mise en œuvre des principes de préparation / alignement des sources vidéos broadcast et de déconstruction / encodage / reconstruction du signal HDR.

Depuis l’année dernière, la philosophie n’a pas changé, mais les expérimentations live ont laissé place à des mises en production réelles. Voici le workflow de la dernière opération en date, la captation d’un match de baseball et la distribution d’un unique signal UHD HDR compatible SDR.La solution permet de mélanger des caméras et des habillages HDR natifs et SDR via la technologie d’up-conversion ITM de Technicolor (Intelligent Tone Mapping). Côté réception, à la manière de ce que proposent Dolby ou le récent HDR10+, le procédé propose du “Display Adaptation” (des requêtes au téléviseur pour connnaître ses capacités réelles à reproduire une image). En cas de présence d’un chipset dédié dans la TV, l’utilisateur peut contrôler le niveau de HDR souhaité (passage de 1 000 à 650 nits par exemple). L’avènement de la technologie Technicolor dépend désormais en grande partie de leur capacité à convaincre les fabricants d’intégrer les chipsets adéquates dans les téléviseurs ou Set Top Box.

AV1, l’alternative de Google à HEVC, la contre attaque d’Apple, et les coûts de l’OTT :

La norme de codage vidéo HEVC, aussi connue sous le nom de MPEG-H Part 2 (ISO et IEC) ou de H.265 (ITU), a été publiée en avril 2013. Quatre ans plus tard, elle n’a guère été adoptée que par les fabricants de Blu-ray… alors même qu’elle a été pensée pour le streaming. Dépités que le MPEG LA (la société qui gère les brevets et accords de licences liés aux codecs de compression audio/vidéo de ses membres) ne souhaite placer HEVC sous le même régime de licence d’exploitation que le H.264, les grands acteurs de la diffusion de vidéos sur Internet ont préféré développer une alternative gratuite et libre : AV1.

Un codec placé sous la protection d’une Alliance for Open Media qui réunit Google et Microsoft, Amazon et Netflix, AMD et NVIDIA, Mozilla et Adobe… mais pas Apple. La firme de Cupertino parie sur HEVC, désormais pleinement pris en charge par iOS 11 et macOS High Sierra. HEVC reçoit le soutien d’un acteur de premier plan avant même que l’AV1, dont Google est le principal promoteur, ne soit finalisé. Pourtant, le consortium AOM avait décidé d’aller vite, très vite : un code source qui cesse d’intégrer des améliorations le 30 août 2017, et un bitstream figé fin décembre, pour des performances d’encodage estimées aux alentours de 20 % par rapport à HEVC. Il y a là les germes d’une nouvelle guerre des formats, dont le monde de la vidéo est malheureusement coutumier. Plusieurs stands proposaient des comparatifs AVC, HEVC, AV1 et même post HEVC JEM (une mise à jour de l’encodeur de référence MPEG actuel), avec des résultats parfois contradictoires :

b<>com présente le comparatif en utilisant la métrique VMAF, un algorithme d’évaluation de la qualité vidéo perçue développé par Netflix. Toutes séquences confondues, AV1 arrive systématiquement derrière HEVC et post HEVC JEM, à contrario d’autres démonstrations…

Selon les dires de Netflix, AV1 ne sera utilisé que s’il s’avère au moins 20 % plus efficace qu’HEVC, les coûts OTT étant minutieusement scrutés. Difficile de statuer à ce jour, pour des raisons d’implémentation de code notamment. En deçà d’un socle commun, de multiples paramètres expérimentaux peuvent être activés ou non, c’est à la discrétion de chaque éditeur. L’implémentation choisie peut alors induire des qualités d’encodage différentes.

Sur le NAB, Bitmovin avait démontré l’encodage AV1 temps réel d’un flux vidéo 1080p, moyennant 200 cœurs de processeur ! Christopher Mueller, le CTO prédisait alors d’un minimum de 8 à 32 cœurs nécessaires dans un futur proche, en fonction des optimisations de code avant implémentation. Sur IBC, il semble que les encodages offline priment, la part belle étant donnée à l’interopérabilité avec leur player maison et aux réductions de coûts de CDN, un enjeu central depuis plusieurs années :

Player HTML5 de Bitmovin, compatible MPEG-DASH et AV1, tournant sous le navigateur Firefox de Mozilla.

Réduction des factures OTT en remplaçant le codec H.264 par VP9, sur une base d’une vidéo vue 1 million de fois avec un coût de distribution de 25 cents de dollars par gigaoctet.

Réduction des coûts OTT avec une adaptation “intelligente” de la bande passante dans l’écosystème Bitmovin. Avant l’encodage, l’analyse vidéo des scènes -simples ou complexes- permet d’extraire un flux de métadonnées qui pilotent le player DASH pour forcer son mode adaptatif en fonction de deux paramètres : la bande passante disponible côté client et la complexité de la vidéo à un instant T.

Cet argument de réduction des coûts est repris par de plus grands groupes, comme Harmonic avec sa technologie EyeQ™. Avec la prise en compte de la perception réelle de l’œil humain et l’application de modèles psychovisuels adaptés, le constructeur propose une optimisation d’encodage qui offre une qualité de vidéo supérieure et une réduction de bande passante allant jusqu’à 50% pour la distribution OTT. En utilisant exclusivement un format AVC, il n’est pas nécessaire de mettre à niveau les infrastructures existantes, là où des concurrents proposent des codecs HEVC ou VP9 pour arriver au même résultat. L’accès à cette option passe par une mise à niveau du moteur d’encodage logiciel Harmonic PURE. Sur le stand, le constructeur tente de convaincre avec un monitoring temp réel qui affiche les économies réalisées sur une période donnée. Au bout de deux mois d’utilisation, les écarts semblent effectivement vertigineux.

Revenons sur HEVC et son codage qui repose sur la prédiction temporelle et la précision spatiale, comme H.264, mais en employant des techniques d’analyse et de compression plus perfectionnées et plus exigeantes. Le gain de compression reste de l’ordre de 40 % en moyenne, mais le décodage est encore ardu dans un mode 100 % logiciel. L’annonce récente d’Apple risque fortement de modifier cet état de fait… et d’accélérer la pénétration du codec sur le marché. En effet, tous les appareils compatibles avec iOS 11 ou macOS High Sierra peuvent désormais décoder logiciellement des fichiers HEVC avec le profil principal, mais seuls les appareils dotés d’un processeur Apple A9 ou Intel Core de sixième génération (Skylake) peuvent le faire matériellement. Apple joue donc la carte de la rapidité, pour proposer des contenus Ultra HD dès à présent dans tout son écosystème.

Sur un iPad Pro, ATEME proposait une démonstration de ce décodage hardware assisted en avance de phase, tout en y intégrant d’autre nouveautés telles que le format CMAF – Common Media Application Format, le successeur du MP4 fragmenté (orienté OTT) – et l’encodage SHVC (Scalable HEVC) :

La définition 8K n’est pas oubliée, elle se destine aux écrans géants de plus de 200 pouces de diagonale (plus de 3,5 mètres de large). Sony expose sa nouvelle caméra plateau HDC-8300 préparée en collaboration avec la NHK en vue des JO de Tokyo annoncés dans ce format, cette caméra broadcast possède un capteur tri-CMOS 8K et tourne déjà à 120 images/seconde.

Pour autant la question de “l’écriture 8K” reste entière, personne n’ose l’aborder sur le salon. Les séquences de démonstration font toujours la part belle aux plans généraux, laissant surgir de nombreux détails minuscules sublimés par la finesse extrême des pixels. Mais ce même plan visionné sur une TV haute définition reste loin de provoquer la même émotion : les détails disparaissent, il reste un plan très large où l’action se déroule généralement au centre, sur une surface réduite du cadre. A contrario, s’il s’agit de tourner en 8K comme en HD, avec les mêmes valeurs de plans, les téléspectateurs devront certainement se reculer et tourner la tête régulièrement pour suivre l’action sur leur écran géant, bien loin de l’objectif initial d’immersion absolue. Les JO sont dans un peu moins de 3 ans, il serait bon d’ouvrir le débat rapidement.

Au fond de la Future Zone, la NHK poursuit son objectif des JO 2020 avec la roadmap d’origine : 8K à 120 images/seconde et audio 22.2…

Studios virtuels – toujours plus réalistes

Dopés par plusieurs succès d’audience et la baisse des coûts d’accès à la technologie, les studios virtuels progressent à grandes enjambées. Désormais la réalité augmentée guide les innovations, comme faire apparaître un objet en 3 dimensions autour duquel une journaliste peut circuler et donner à voir au téléspectateur.

Les mêmes systèmes permettent de compléter rapidement des éléments de décor pendant le tournage d’une fiction, de sorte de faire chuter les coûts de production (sur la construction de décors ou le temps de post-production).

Après le rachat d’Ultimatte, Blackmagic Design a sorti un processeur dédié à l’incrustation sur fond vert, qui gère désormais des compositions complexes d’arrière-plan et d’avant-plan avec un haut niveau de prise en compte des détails, des teintes et des transparences entre les différentes couches, le tout en Ultra Haute Définition… pour moins de 9.000€.

Mais le plus impressionnant concerne les solutions de tracking des caméras en mouvement pour l’ajustement de la composition en temps réel. L’un des moteurs de jeu vidéo les plus puissants et versatiles, Unreal Engine d’Epic Games, est ainsi détourné par plusieurs constructeurs pour animer le rendu vidéo en temps réel.

Démonstration de Zéro Density et leur intégration du moteur Unreal Engine pour concevoir un décor virtuel en mouvement. Difficile d’imaginer que ce présentateur est seul devant le fond vert de son stand.

Audio orienté objets et barres de son : le saut technologique

Depuis le passage de l’analogique au numérique, le monde de l’audio n’avait connu qu’un seul grand virage : la mesure de loudness. Un nouveau saut technologique s’amorce, de bien plus grande envergure, et concerne autant la production de contenus, la transmission que la restitution : l’audio orienté objets, ou OBA pour Object Based Audio.

En résumé, l’OBA permet surtout :

  • un seul mixage à destination de tous les récepteurs (enceintes en nombre variable, casques, barres de son, haut-parleurs intégrés),
  • une interactivité possible : hausse du niveau des dialogues, substitution de langue, ajout/suppression de commentaires etc.
  • la captation et le transport d’audio 3D (avec l’ajout de la dimension haut/bas absente des systèmes home-cinéma).

La nouvelle génération de barres de son a fait la vedette du salon IFA de Berlin début septembre. Après des années de lutte marketing pour tenter de dépasser les 14% de foyers équipés d’un home-cinéma, les constructeurs ont associé plusieurs innovations dans le domaine de la transduction électro-acoustique (dont les savoir-faire de la Wave Field Synthesis et du Beam-Forming) pour sortir des produits compacts, sans fil, multi-directionnels dans les 3 dimensions et puissants.

Associés aux contenus “audio orienté objets”, déjà présents au cinéma grâce aux technologies Dolby Atmos et DTS:MDA, ces barres de son font leur entrée dans les foyers pour mettre en valeur l’audio associé aux contenus Ultra HD. Ces nouveaux formats grand public s’appellent : Dolby AC-4 Atmos, DTS:UHD et MPEG-H 3D audio. À ce jour seul MPEG-H a démarré en Corée du Sud, sur les chaînes TNT Ultra HD lancées en mai dernier. Retrouvez toutes les explications sur ces technologies dans notre dossier dédié :

http://idfrancetv.fr/audio-oriente-objets-et-reseaux-ip-le-grand-virage-samorce/

À noter, lors de cet IBC, les présentations d’AVID et Merging du côté des outils de production de contenus OBA, de Dolby, Fraunhofer, Qualcomm et DTS du côté des encodeurs et solutions de restitution téléspectateur.

TV et Intelligence Artificielle : des applications à tous les niveaux

Qu’il s’agisse de Machine Learning pour apprendre aux robots à traduire des sous-titres ou reconnaître des visages, ou d’algorithmes plus élaborés pour piloter mieux qu’un humain l’utilisation de ressources de process dans le Cloud, l’Intelligence Artificielle peut investir tous les secteurs de l’audiovisuel. Dans la lignée des travaux réalisés dans le monde de la photo, où l’IA de Google sélectionne et retouche automatiquement des extraits de ses Google Street Views, ou encore le boîtier Arsenal, l’assistant photographe qui règle votre appareil pour donner le look parfait à la scène captée, on s’attend à voir déferler des applications par centaines dans le domaine de la prise de vue, du montage, de l’incrustation de textes et du sous-titrage…

Mais du côté des moteurs de recherche et de recommandation, un marché gigantesque, la réglementation européenne drastique en matière de respect de la vie privée va limiter les données mises à disposition de ces IA et sans doute offrir des expériences utilisateur très différentes des deux côtés de l’Atlantique. Cette réglementation doit entrer en vigueur au plus tard en mai 2018 et protéger par défaut les citoyens européens en matière de traçabilité de leurs données personnelles. L’enjeu est de taille, puisque dans la plupart des halls dédiés aux produits et services “digitaux”, la monétisation des contenus est systématiquement promise en échange d’une analyse fine de l’audience par des algorithmes toujours plus voraces en données.

Screen Systems – le sous-titrage automatisé

Mélanger broadcast, algorithmie et IA / Machine Learning, les britanniques de Screen Systems y ont trouvé un marché du côté du sous-titrage.

Avec une offre allant du logiciel de création de sous-titres (live et offline) à la distribution, en passant par le monitoring, l’insertions ou le transcodage, la société couvre déjà une très large palette. Sur cet IBC, c’est néanmois le sous-titrage automatisé qui fait mouche. La démonstration temps réelle est bluffante, du moins lorsqu’on utilise un flux source dans la langue de Shakespeare. L’ensemble est très bien intégré dans l’environnement broadcast : les possibilités d’insertion d’un offset permettent par exemple de garantir la sychronisation à l’émission du flux final, tandis que l’interface graphique répond aux attentes en préservant les habitudes des professionels du secteur. Screen Systems préconisent d’insérer la brique d’analyse audio en amont de l’encodage vidéo, afin de conserver une avance de quelques secondes pour l’enchaînement des process speech-to-text, proposition de transcription, corrections éventuelles… l’offset manuel faisant le reste. En creusant un peu, notre interlocuteur avoue que la technologie de reconnaissance vocale passe par la librairie Speech-to-Text des anglais de Speech Matics, très efficiente. Par dessus, Screen Systems pose une brique de Machine Learing qui se nourrit d’un management de différents dictionnaires, afin de diminiuer le taux de faux positifs à l’arrivée. Avec ces outils, il leur reste désormais à travailler les spécificités de la langue française et ses évolutions pour espérer s’introduire dans nos infrastructures. Des évaluations sont en cours avec francetélévisions


Enco

Très orienté Closed Caption, la quatrième génération d’enCaption de l’éditeur Enco (solution logicielle de reconnaissance vocale et de speech-to-text) prend en charge plusieurs locuteurs, ce qui simplifie grandement le travail de transcription en direct.

Comme pour les précédentes générations, enCaption3 R4 s’affranchit des répétitions (perroquet), de la formation vocale, supervision ou sous-titreurs en direct : les erreurs humaines s’en trouvent limitées. Le logiciel intègre un algorithme dont l’intelligence permet de gérer des situations complexes, typiquement lorsque plusieurs personnes parlent en même temps. enCaption3 R4 y parvient en isolant le microphone de chaque locuteur tout au long du programme. Le multilinguisme est également de la partie, et intègre des fonctionnalités orthographiques afin d’augmenter la précision du rendu.

 

Ce contenu a été publié dans audio, IP, Ultra-HD. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *