L’édition 2017 du salon IBC d’Amsterdam vient de fermer ses portes. L’omniprésence des technologies IP se conjugue avec les termes « end to end, anywhere, anytime and monetization » à un point tel que tous les slogans publicitaires paraissent échangeables d’un stand à l’autre. Les responsables marketing vont devoir travailler sur ce qui différencie leurs produits de la concurrence.
par Vincent Dabouineau et Matthieu Parmentier – France Télévisions – innovations&développements
Pour expliquer cet état de fait, on peut souligner la concentration des acteurs historiques du broadcast dans de gros conglomérats (Belden, Imagine, Harmonic, etc.) qui, de façon légitime, clament leur capacité à traiter toute la chaîne de production/diffusion.
En face de ces conglomérats, on trouve deux types de riposte :
- d’une part, les nouveaux riches tels que Blackmagic Design, qui grignotent de nouveaux segments du marché chaque semestre. Toujours considérés comme des options low-cost… mais pour combien de temps encore ?
- d’autre part, la virtualisation galopante des infrastructures transforme les produits en services, les investissements en coûts de fonctionnement. C’est ici que d’autres acteurs issus du monde logiciel se prennent à rêver de tout remplacer, sauf peut-être les caméras, micros, TV et haut-parleurs.
Les GAFA(M) louent leurs infrastructures
Dans un parc des expos largement agrandi pour l’occasion, des centaines de nouveaux acteurs présentent leurs outils pour la production/diffusion audiovisuelle : Facebook, Microsoft, Google et Amazon par exemple, apportent les technologies du Big Data (machine learning, Intelligence Artificielle, bases de données sémantiques) et louent des infrastructures clés en main pour y déployer sa « channel-in-a-box », autrement dit une usine virtuelle à accueillir des médias pour les publier sur des chaînes linéaires ou nourrir des services de vidéos à la demande. Des dizaines de solutions de gestionnaire de tâches, de gestionnaire de gestionnaires de tâches, de sécurisation des contenus et des liaisons, de video players, d’inserteurs de publicités ciblées, de moteurs de recherche et de recommandations naviguent dans cet écosystème clairement fonctionnel et très flexible. Seule inconnue de taille, donner un prix à cette virtualisation : les tarifs de ces solutions “logiciel + Cloud” sont généralement proportionnels à l’audience finale, un choix pragmatique et malin, mais le coût de la sécurité – doublement voire triplement de l’infrastructure sur un Cloud privé, concurrent ou hybride, ainsi que toutes les procédures de bascule et non contamination – n’est presque jamais mis en avant.
Un Cloud au cas par cas
Pour la plupart des chaînes de TV, il importe de garder la main sur chaque maillon technique et ne pas dépendre d’une solution « channel-in-a-box » verrouillée. Pour ces chaînes, le Cloud et ses ressources infinies, qu’il s’agisse de stockage, de CPU (processeur) ou GPU (processeur graphique), accueillent désormais de grandes fermes spécialisées pour le contrôle qualité, l’encodage vidéo ou l’extraction automatique de données (dialogues, reconnaissances de visage, indexation, sous-titrage etc.). Ces offres se présentent sous la forme de services scalables et s’accompagnent de fonctionnalités modernes : les logiciels adaptent la durée d’utilisation des ressources à leur coût, s’interfacent avec la boîte mail et l’agenda des techniciens, s’auto-supervisent et, dès que tout va bien, semblent réduire l’utilisateur au statut de simple gestionnaire des priorités.
Le tout IP entrevoit ses bénéfices
Quittons le Cloud pour revenir sur terre. Même s’il est à parier que 80% des solutions négociées sur ce salon exploitent des liaisons série SDI, aucun fabricant ne se risque vraiment à communiquer dessus, de peur d’apparaître ringard à l’heure du tout IP. L’annonce de la publication du standard SMPTE ST.2110 a fait grand bruit, et chaque constructeur a fait l’éloge de ses efforts en matière d’interopérabilité ST.2110. Comme à chaque salon international, un espace de démonstration commun, l’IP Showcase, a permis de voir le standard en action :
Près d’une centaine de marques ont partagé le même réseau de production, et c’est le logiciel de la BBC R&D qui fut choisi pour répertorier tous les équipements et leurs caractéristiques d’entrées/sorties, une sorte d’annuaire indispensable au fonctionnement d’une tel réseau. Ce logiciel, édité sous licence open source, répond au standard NMOS intégré dans le ST.2110. Au delà du listing de l’ensemble des équipements présents sur le réseau (la spécification AMWA IS-04 : “Registry-based and peer-to-peer discovery”), il répertorie aussi les différents flux qui circulent entre eux. D’autres logiciels se chargent ensuite du management des flux pour permettre à l’infrastructure de conserver ses performances optimales et encaisser les bienfaits du tout IP (spécifications AMWA IS-05 : “NMOS Devices to effect connection management between Senders and Receivers”) :
- une flexibilité totale, quelque soit le type de signal audio, vidéo, data, sa définition, son débit…
- une circulation indépendante des données audio, vidéo et data
- une synchronisation fine basée sur l’horloge Precision Time Protocol distribuée dans tout le réseau.
Pourquoi opter pour le tout-IP ? Par exemple pour configurer le lundi une régie de production en HD dont les fonctionnalités sont réparties sur 7 postes de travail, et opter le mardi pour une régie Ultra HD coupée en 2 : 1 personne à proximité du plateau en charge du contrôle de la vision et l’enregistrement du signal noble, et 3 autres personnes en régie, à des kilomètres de là, en charge du mixage et de la réalisation.
Si l’IP Showcase tient clairement ses promesses tandis que l’encre du standard 2110 sèche encore, on retiendra la grande absence d’une démonstration centrée sur la synchronisation des flux. Qu’il s’agisse d’un scénario de remote-production (plusieurs kilomètres d’écart entre plateau et régie) ou des promesses de circulation libre des données audio, vidéo et data, il faut absolument valider le procédé de synchronisation image/son en sortie de régie, d’autant plus lorsque sons et images ne sont plus menottés dans un même signal SDI. Le standard 2110 est pavé d’excellentes intentions pour réaliser cette prouesse et résoudre la problématique de gestion des latences, le cauchemar récurrent depuis le passage de l’audiovisuel au numérique. Il appartient désormais aux constructeurs d’intégrer la totalité de la spécification pour que les équipements gèrent intelligemment leurs buffers et délais audio / vidéo, pour une compensation automatique des latences induites par les différents process. Nous attendons les premières démonstrations.
L’Ultra HD n’est presque plus une innovation
L’Ultra HD reste un slogan important sur le salon, bien que rétrogradé derrière le Cloud et les infrastructures IP. La combinaison 4K + Haute Dynamique tient la corde, quelques démonstrations à 100 images/seconde s’exposent à l’EBU et chez ATEME, centrées sur les contenus sportifs. La haute dynamique se conjugue également en HD, parfois sous le terme marketing HD+.
Les caméscopes UHD d’entrée de gamme fleurissent, les outils de mesure, de montage et de monitoring s’adaptent. Le HDR est partout mais subsiste sous plusieurs standards concurrents. Pour autant la solution gratuite Hybrid Log Gamma (HLG) prônée par la BBC et la NHK semble se généraliser pour les captations en direct, dans les logiciels des caméras et les moniteurs de contrôle. Les autres technologies Dolby Vision, PQ / ST.2084, Slog3, HDR10+ etc. cherchent à s’imposer dans le milieu de la post production. Quant à l’autre bout de la chaine, côté TV et Set Top Box, les technologies gratuites HLG et PQ / ST.2084 sont présentes partout, le HDR10+ de Samsung – sans coût de licence, voir ci-dessous – équipe les produits de la marque, les autres s’ajoutent au fur et à mesure des accords commerciaux.
HDR10+ – la réponse royalty-free de SAMSUNG au Dolby Vision
La dimension HDR de l’UHD Phase 2 fait l’objet d’une véritable guerre technologique depuis quelques années, nos articles précédents en témoignent : http://idfrancetv.fr/nab-2017-uhd-hdr/ http://idfrancetv.fr/nab-2016-du-hdr-oui-mais-lequel/ Face à la poussée du Dolby Vision, accentuée par la force de frappe de la firme qui appelle les providers OTT (VUDU, Netflix…) et les constructeurs grand public (LG en tête) à l’intégration de sa technologie, une alliance SAMSUNG, Panasonic et 20th Century Fox arrive en trouble fête avec la proposition HDR10+. Présenté brièvement à l’IFA, une démonstration minimaliste est proposée sur le stand de SES de l’IBC : Sur le papier, il s’agit d’utiliser la courbe PQ (normalisée SMPTE ST 2084) en y ajoutant des métadonnées dynamiques qui codent pour chaque image les informations de pic luminance et de profondeur des noirs. Autre fonctionnalité proposée, le “Dynamic Tone Mapping”, permettant d’interroger et d’identifier les capacités du téléviseur (type de dalle, luminosité minimale et maximale) pour ajuster au mieux la courbe de gamma : En matière de workflow, l’encodage du signal est précédé d’une analyse de scène afin d’extraire la partie HDR de chaque image pour la convertir en métadonnnées dynamiques. Cette étape est assurée par un outil de l’éditeur Colorfront. Les métadonnées générées sont ensuite prises en charge par un encodeur HEVC “compatible”, à ce jour, la librairie open source x265 de MCW (MultiCoreWare). En bout de chaîne, le téléviseur SAMSUNG décode ces métadonnées pour reconstituer le HDR d’origine. Petit bémol : toujours trop peu d’information sur le service Cloud ou la Set Top Box compatible HDR10+ qui laissera passer ces métadonnées dynamiques. Sur le papier, le procédé ressemble énormément aux solutions propriétaires de Dolby ou Technicolor, mais avec un avantage de taille : l’assurance d’un accès à cette technologie exempt de royalties. Pour ce qui est de l’offre de médias, seul Amazon Vidéo se positionne pour l’instant, avec de premiers contenus encodés en HDR10+ disponibles à la fin de cette année, le Blu-ray devrait suivre. |
La définition 8K n’est pas oubliée, elle se destine aux écrans géants de plus de 200 pouces de diagonale (plus de 3,5 mètres de large). Sony expose sa nouvelle caméra plateau HDC-8300 préparée en collaboration avec la NHK en vue des JO de Tokyo annoncés dans ce format, cette caméra broadcast possède un capteur tri-CMOS 8K et tourne déjà à 120 images/seconde.
Pour autant la question de “l’écriture 8K” reste entière, personne n’ose l’aborder sur le salon. Les séquences de démonstration font toujours la part belle aux plans généraux, laissant surgir de nombreux détails minuscules sublimés par la finesse extrême des pixels. Mais ce même plan visionné sur une TV haute définition reste loin de provoquer la même émotion : les détails disparaissent, il reste un plan très large où l’action se déroule généralement au centre, sur une surface réduite du cadre. A contrario, s’il s’agit de tourner en 8K comme en HD, avec les mêmes valeurs de plans, les téléspectateurs devront certainement se reculer et tourner la tête régulièrement pour suivre l’action sur leur écran géant, bien loin de l’objectif initial d’immersion absolue. Les JO sont dans un peu moins de 3 ans, il serait bon d’ouvrir le débat rapidement.

Au fond de la Future Zone, la NHK poursuit son objectif des JO 2020 avec la roadmap d’origine : 8K à 120 images/seconde et audio 22.2…
Studios virtuels – toujours plus réalistes
Dopés par plusieurs succès d’audience et la baisse des coûts d’accès à la technologie, les studios virtuels progressent à grandes enjambées. Désormais la réalité augmentée guide les innovations, comme faire apparaître un objet en 3 dimensions autour duquel une journaliste peut circuler et donner à voir au téléspectateur.
Les mêmes systèmes permettent de compléter rapidement des éléments de décor pendant le tournage d’une fiction, de sorte de faire chuter les coûts de production (sur la construction de décors ou le temps de post-production).
Après le rachat d’Ultimatte, Blackmagic Design a sorti un processeur dédié à l’incrustation sur fond vert, qui gère désormais des compositions complexes d’arrière-plan et d’avant-plan avec un haut niveau de prise en compte des détails, des teintes et des transparences entre les différentes couches, le tout en Ultra Haute Définition… pour moins de 9.000€.
Mais le plus impressionnant concerne les solutions de tracking des caméras en mouvement pour l’ajustement de la composition en temps réel. L’un des moteurs de jeu vidéo les plus puissants et versatiles, Unreal Engine d’Epic Games, est ainsi détourné par plusieurs constructeurs pour animer le rendu vidéo en temps réel.
Démonstration de Zéro Density et leur intégration du moteur Unreal Engine pour concevoir un décor virtuel en mouvement. Difficile d’imaginer que ce présentateur est seul devant le fond vert de son stand.
Audio orienté objets et barres de son : le saut technologique
Depuis le passage de l’analogique au numérique, le monde de l’audio n’avait connu qu’un seul grand virage : la mesure de loudness. Un nouveau saut technologique s’amorce, de bien plus grande envergure, et concerne autant la production de contenus, la transmission que la restitution : l’audio orienté objets, ou OBA pour Object Based Audio.
En résumé, l’OBA permet surtout :
- un seul mixage à destination de tous les récepteurs (enceintes en nombre variable, casques, barres de son, haut-parleurs intégrés),
- une interactivité possible : hausse du niveau des dialogues, substitution de langue, ajout/suppression de commentaires etc.
- la captation et le transport d’audio 3D (avec l’ajout de la dimension haut/bas absente des systèmes home-cinéma).
La nouvelle génération de barres de son a fait la vedette du salon IFA de Berlin début septembre. Après des années de lutte marketing pour tenter de dépasser les 14% de foyers équipés d’un home-cinéma, les constructeurs ont associé plusieurs innovations dans le domaine de la transduction électro-acoustique (dont les savoir-faire de la Wave Field Synthesis et du Beam-Forming) pour sortir des produits compacts, sans fil, multi-directionnels dans les 3 dimensions et puissants.
Associés aux contenus “audio orienté objets”, déjà présents au cinéma grâce aux technologies Dolby Atmos et DTS:MDA, ces barres de son font leur entrée dans les foyers pour mettre en valeur l’audio associé aux contenus Ultra HD. Ces nouveaux formats grand public s’appellent : Dolby AC-4 Atmos, DTS:UHD et MPEG-H 3D audio. À ce jour seul MPEG-H a démarré en Corée du Sud, sur les chaînes TNT Ultra HD lancées en mai dernier. Retrouvez toutes les explications sur ces technologies dans notre dossier dédié :
http://idfrancetv.fr/audio-oriente-objets-et-reseaux-ip-le-grand-virage-samorce/
À noter, lors de cet IBC, les présentations d’AVID et Merging du côté des outils de production de contenus OBA, de Dolby, Fraunhofer, Qualcomm et DTS du côté des encodeurs et solutions de restitution téléspectateur.
TV et Intelligence Artificielle : des applications à tous les niveaux
Qu’il s’agisse de Machine Learning pour apprendre aux robots à traduire des sous-titres ou reconnaître des visages, ou d’algorithmes plus élaborés pour piloter mieux qu’un humain l’utilisation de ressources de process dans le Cloud, l’Intelligence Artificielle peut investir tous les secteurs de l’audiovisuel. Dans la lignée des travaux réalisés dans le monde de la photo, où l’IA de Google sélectionne et retouche automatiquement des extraits de ses Google Street Views, ou encore le boîtier Arsenal, l’assistant photographe qui règle votre appareil pour donner le look parfait à la scène captée, on s’attend à voir déferler des applications par centaines dans le domaine de la prise de vue, du montage, de l’incrustation de textes et du sous-titrage…
Mais du côté des moteurs de recherche et de recommandation, un marché gigantesque, la réglementation européenne drastique en matière de respect de la vie privée va limiter les données mises à disposition de ces IA et sans doute offrir des expériences utilisateur très différentes des deux côtés de l’Atlantique. Cette réglementation doit entrer en vigueur au plus tard en mai 2018 et protéger par défaut les citoyens européens en matière de traçabilité de leurs données personnelles. L’enjeu est de taille, puisque dans la plupart des halls dédiés aux produits et services “digitaux”, la monétisation des contenus est systématiquement promise en échange d’une analyse fine de l’audience par des algorithmes toujours plus voraces en données.
![]() Mélanger broadcast, algorithmie et IA / Machine Learning, les britanniques de Screen Systems y ont trouvé un marché du côté du sous-titrage. Avec une offre allant du logiciel de création de sous-titres (live et offline) à la distribution, en passant par le monitoring, l’insertions ou le transcodage, la société couvre déjà une très large palette. Sur cet IBC, c’est néanmois le sous-titrage automatisé qui fait mouche. La démonstration temps réelle est bluffante, du moins lorsqu’on utilise un flux source dans la langue de Shakespeare. L’ensemble est très bien intégré dans l’environnement broadcast : les possibilités d’insertion d’un offset permettent par exemple de garantir la sychronisation à l’émission du flux final, tandis que l’interface graphique répond aux attentes en préservant les habitudes des professionels du secteur. Screen Systems préconisent d’insérer la brique d’analyse audio en amont de l’encodage vidéo, afin de conserver une avance de quelques secondes pour l’enchaînement des process speech-to-text, proposition de transcription, corrections éventuelles… l’offset manuel faisant le reste. En creusant un peu, notre interlocuteur avoue que la technologie de reconnaissance vocale passe par la librairie Speech-to-Text des anglais de Speech Matics, très efficiente. Par dessus, Screen Systems pose une brique de Machine Learing qui se nourrit d’un management de différents dictionnaires, afin de diminiuer le taux de faux positifs à l’arrivée. Avec ces outils, il leur reste désormais à travailler les spécificités de la langue française et ses évolutions pour espérer s’introduire dans nos infrastructures. Des évaluations sont en cours avec francetélévisions… Enco Très orienté Closed Caption, la quatrième génération d’enCaption de l’éditeur Enco (solution logicielle de reconnaissance vocale et de speech-to-text) prend en charge plusieurs locuteurs, ce qui simplifie grandement le travail de transcription en direct. Comme pour les précédentes générations, enCaption3 R4 s’affranchit des répétitions (perroquet), de la formation vocale, supervision ou sous-titreurs en direct : les erreurs humaines s’en trouvent limitées. Le logiciel intègre un algorithme dont l’intelligence permet de gérer des situations complexes, typiquement lorsque plusieurs personnes parlent en même temps. enCaption3 R4 y parvient en isolant le microphone de chaque locuteur tout au long du programme. Le multilinguisme est également de la partie, et intègre des fonctionnalités orthographiques afin d’augmenter la précision du rendu. |