Production Technical Seminar 2018 : visions d’avenir à l’UER

Chaque année, l’Union Européenne de Radio-Télévision (UER-EBU) organise fin janvier son séminaire de réflexion autour des nouvelles technologies, méthodologies et organisations pour la production de contenus. Ces 3 journées de conférences, de démonstrations et d’ateliers cherchent à inspirer le changement auprès d’une audience en hausse constante ; cette année l’événement a dû être diffusé en direct (accès Web payant) pour satisfaire la demande.

L’article ci-dessous propose un compte-rendu centré sur les thématiques porteuses du séminaire : les stratégies technologiques, les innovations structurantes et les success-stories les plus récentes.

par Matthieu Parmentier – France Télévisions – innovations&développements

Le futur siège de la filière production suisse TPC, livré en 2019, intégralement câblé en IP

 

Restons confiants : les radios et télévisions de service public ont du talent !

Noel Curran, journaliste et récemment nommé Directeur Général de l’UER-EBU rappelle en introduction que l’organisation et ses 75 membres forment un géant de la production de contenus, cumulant 18 milliards d’euros d’investissement annuel dans la création de programmes, pratiquement le double de Netflix. Il propose, durant son mandat qui démarre, de revoir toutes les priorités des activités de l’EBU pour innover dans la capacité d’offrir et de partager toutes ces productions entre les membres.

Kevin Anderson rebondit sur la déclaration de Noel Curran : « que les éditeurs restent indépendants des réseaux sociaux » et rappelle, pour illustrer son propos, l’ouverture du service Facebook live. Semblables à plusieurs chaînes de télévision en direct offrant aux téléspectateurs de réagir (via les commentaires et l’association d’emojis, dont on ne sait pas encore dire si cela constitue un bénéfice ou une contrainte visuelle), Facebook a lancé Live en ciblant et rémunérant des fournisseurs de news. Ainsi le New York Times a cumulé 3 millions de dollars de contrats de fourniture de contenus, Buzzfeed 3,1 millions, CNN 2,5 millions… avant que Facebook ne réoriente sa politique à peine 6 mois plus tard, cessant de rémunérer les flux de news au profit de contenus scénarisés originaux. Ce changement de stratégie s’explique par la volonté de Facebook d’obtenir un revenu publicitaire équivalent à son concurrent YouTube (9,8 milliards de dollars par an), et qu’à ce titre le marché des productions scénarisées semble finalement offrir un meilleur rendement que celui des news. Ceci pour souligner – à l’instar d’un autre exemple lié à Snapchat – la volatilité des modèles économiques des pures players du Web vis-à-vis de l’audiovisuel, qui, malgré leur croissance d’audience spectaculaire, ne doivent pas faire oublier le rôle central des contenus. Les graphiques suivants sont d’ailleurs de nature à réconcilier un éditeur de contenus classique :

Dès lors, comment conjuguer « service public » en 2018 ? En séparant les missions essentielles (la raison d’être du service public) des missions traditionnelles (qui forment plutôt une façon de faire) et réformer ces dernières en redéfinissant les priorités : stratégie, ressources et processus.

 

Après l’audio, toute la production deviendra « orientée objets »

L’Object-Based Production tient dans un principe simple : là où la production TV classique façonne un produit fini temporel, visuel et sonore, un contenu « orienté objets » associe images, sons et données de rendu dans un format brut pour confier à l’équipement de restitution la formation du « rendu », l’apparence du contenu présenté à l’utilisateur. Ce principe est déjà appliqué aux sites Web « responsive », conçus pour adapter la mise en page à une restitution sur écran PC, tablette ou Smartphone. Pour ce faire, tous les éléments de la page sont associés à des données descriptives qui ordonnent différentes formes d’affichage en fonction du navigateur Internet et de la taille de l’écran de l’utilisateur.

Sur le plan sonore, la technologie est assez bien maîtrisée : l’audio orienté objets permet de ne concevoir qu’un seul mixage « Object-Based Audio », lequel se décline automatiquement en plusieurs formats stéréo, multicanal, binaural etc. Ce principe permet de suivre le morcellement de l’audience sur de multiples vecteurs différents (TV, Web, mobiles), tout en conservant une qualité de rendu optimale quelques soient les conditions.

Pour appliquer le même principe à l’ensemble d’une production, la BBC érige deux grandes conditions :

  1. tous les flux de production doivent avoir basculé dans le monde IP
  2. tous les outils de production doivent être logiciels

Une fois ces deux conditions appliqués il est facile d’en déduire : ce type de production pourra indifféremment fonctionner dans le Cloud. La BBC souligne tout de même l’importance de l’architecture logicielle, promettant une future génération d’applications bâties sur la notion d’absolue sécurité des données.

Squeezebox, le système prototype de production orientée objets de la BBC R&D

Pour consommer ces futurs médias « flexibles », il faudra donc utiliser un lecteur d’un nouveau genre, l’équivalent du navigateur Web, pour bénéficier de toute la souplesse d’affichage visuel, de rendu sonore, et même d’adaptation du contenu éditorial (par exemple un reportage dont la durée s’adapte au mieux à celle de votre trajet en transport en commun) ; il est d’ailleurs très probable que ce navigateur Web soit justement en charge de ce rendu.

 

Objets, IP, immersion : 3 défis audio pour la TV et la radio

Les domaines d’application de l’audio sont nombreux et connaissent des mutations asynchrones. Si l’audio orienté objets existe depuis le début des jeux vidéo, après sa naissance au cinéma grâce au Dolby Atmos il colonise depuis quelques années le milieu de la sonorisation, lui-même déjà converti au transport de l’audio sur IP depuis près de 10 ans. Pour les chaînes de TV et radio, ces 3 défis se présentent en même temps.


Poussés par la migration des audiences sur de multiples supports, l’audio orienté objets peut s’imposer comme la principale innovation nécessaire à la télévision, notamment pour développer l’ajustement du niveau des dialogues à la demande, une fonctionnalité attendue par les personnes malentendantes comme les téléspectateurs mobiles dans le bruit des transports en commun.

Le tout récent salon CES de l’électronique grand public a également consacré le marché des barres de son audio 3D, une technologie poussée par les deux principaux industriels de l’audio immersif et orienté objets : Dolby et Fraunhofer. Les industriels sont particulièrement confiants quant aux futures ventes, car ces barres de son lèvent plusieurs freins importants au déploiement de l’audio immersif dans les foyers : elles sont compactes, design, bluffantes sur le plan sonore, et ne nécessitent qu’un câble secteur et un câble HDMI pour diffuser l’audio de tous les contenus affichés sur la TV.

 

Le tout-IP, c’est pour quand ?

De nombreux éditeurs membres de l’UER cumulent les preuves de concept depuis 3 ans, en quête du bon moment pour basculer les investissements vers le tout-IP. Le plan de travail côté standardisation est désormais mondialisé, il fédère pratiquement tous les constructeurs autour d’organisations motrices, dont l’EBU, appliquées à faire émerger un écosystème aussi ouvert que le monde SDI.

Road-map de l’écosystème tout-IP, des travaux conséquents menés à très grande vitesse

Willem Vermost résume ci-dessous les activités pilotées par l’UER-EBU, notamment les tests grandeur nature (en gris) et esquisse la liste des projets d’infrastructures en cours de construction auprès des de ses membres (en jaune). Le tout premier centre de production/diffusion tout-IP est né au Luxembourg (RTL City) et ce projet, comme ses successeurs immédiats, ont permis d’identifier de nombreuses études complémentaires à mener.

Il est évident que ces pionniers n’auront pas gagné d’argent – et en auront sans doute perdu – comparé au déploiement d’une infrastructure classique SDI. Mais en faisant sortir de terre un nouvel immeuble, voué à produire et diffuser pendant les 25 prochaines années, n’était-il pas évident de troquer le cuivre contre la fibre optique et les grilles SDI contre des cœurs de réseau IP ? Malgré les nombreux soucis rencontrés pour mettre en oeuvre ces infrastructures d’un nouveau genre, tous affirment qu’ils n’ont pas eu d’autre choix à l’heure d’investir autant d’argent.

La filière de production suisse TPC se lance justement dans la création de son nouveau siège à Zürich, avec l’objectif d’une mise en route fin 2019. Également basé sur une infrastructure tout-IP et le tout frais standard SMPTE 2110, ce bâtiment est prévu pour la production en Ultra Haute Définition (4K, haute dynamique, colorimétrie étendue et haute fréquence). TPC se concentre sur les solutions promues au sein de l’AIMS (Alliance for IP Media Solutions). Au delà de toutes les considérations d’ingénierie qui méritent encore les 18 mois d’études et de tests que prévoit le projet, TPC expose sa philosophie générale en terme de sécurité du réseau et des équipements (comment distinguer un utilisateur d’un hacker, comme vérifier qu’un équipement de location peut-être branché sur le réseau de production etc.). Les tests sont actuellement menés avec 2 réseaux parallèles, l’un centré sur des switches Cisco, l’autre sur des switches Arista. Ils se déroulent notamment dans le futur car-régie UHD actuellement en cours d’intégration. Par exemple, chaque équipement émetteur d’un flux (audio, vidéo ou metadata) possède une adresse IP multicast par flux, ainsi le réseau de ce car-régie gère 30.000 adresses multicast fixes.

Concernant le déploiement des premiers produits au standard ST.2110 publié en septembre dernier, Willem Vermos cite toutefois 5 sujets critiques sur lesquels de nombreuses discussions subsistent, l’adoption du standard n’ayant pas encore permis de régler tous les détails d’interopérabilité. Cette instabilité ne fait pas les affaires de TPC, qui s’autorisera à restreindre le choix de ses fournisseurs pour s’assurer un lancement fin 2019 dans les conditions minimales de fiabilité.

L’incontournable standard SMPTE 2110 sèche depuis quelques mois

 

Le High Dynamic Range, l’outil phare de l’Ultra HD !

Il aura fallu 4 années de patiente évangélisation pour que la haute dynamique soit reconnue bien plus spectaculaire que la définition 4K. Désormais le propos ne choque plus et les discussions en faveur d’une HD « haute dynamique » fleurissent chez de nombreux éditeurs pressés de montrer la différence à leurs téléspectateurs… grâce à l’augmentation des ventes des TV UHD-HDR.

Smartphone HDR proposé par LG

Paul Gray (institut IHS) confirme cette réalité en soulignant l’arrivée du HDR sur les écrans des Smartphones, tout en décrivant une tendance dans européenne : le nombre d’écrans de TV diminue par foyer – sans doute au profit de la multiplication des Smartphones – au profit d’un très grand écran destiné au salon.

La Radio TV Suisse a expérimenté la production UHD-HDR autour du festival de Jazz de Montreux, dans une configuration très ressemblante à l’expérimentation de France TV sur l’opéra Fantasio en février 2017 : mêmes caméras Sony HDC-4300, mêmes types de réglages, production de 2 signaux HD-SDR et UHD-SDR simultanés. Cependant cette opération suisse a nécessité la création d’une régie complète pour gérer cette production, là où France TV a plus simplement ajouté quelques équipements à l’un des 2 plus récents cars-régies de la filière production (car de Strasbourg) pour obtenir le même résultat.

Parmi les enseignements retirés, la post-production UHD-HDR a permis d’obtenir un master HD-SDR de meilleure qualité que le master HD-SDR produit en direct. Les conversions HLG et PQ pour distribuer le signal vers les TV n’ont posé aucun problème et le contenu a participé à créer le « wahoo effect » souhaité.

Daniel Marini (producteur de bandes-annonces à la RAI) s’est emparé de la haute dynamique pour l’intégrer à ses outils de création. Il s’est inspiré du mantra de Sir George Martin, le producteur de l’album révolutionnaire des Beatles « Sgt Pepper’s Lonely Hearts Club Band », qui considérait qu’enregistrer en studio donnait l’occasion unique de créer une oeuvre singulière au lieu de tenter d’approcher péniblement la reproduction d’une performance scénique.

Ainsi la haute dynamique (HDR) lui permet de produire des bandes-annonces de programmes absolument bluffantes sur le plan visuel, en jouant avec les contrastes et le niveau des détails offerts par ces nouveaux outils. Il est évident de constater qu’en version HD standard la démarche artistique continue à convaincre, cependant, ses bandes-annonces peuvent être rangées dans la prestigieuse catégorie des contenus qui servent à constater l’évidente différence entre HD et UHD.

Intelligence Artificielle et Machine Learning

Parmi les mots-clés les plus fréquemment utilisés pour rendre n’importe quel produit artificiellement taillé pour l’avenir, l’Intelligence Artificielle et le Machine Learning investissent toutes les technologies ou presque.
Derrière les collections grandissantes de données traitées de plus en plus vite, se développent de vraies stratégies marketing à base de Cloud et de grosses poignées de confettis ! Ces stratégies surfent sur les promesses de traitement automatique fulgurant de ces masses de données pour leur donner du sens : scan de l’image (textes, éléments visuels remarquables), reconnaissance de visages, d’objets, sous-titrage et traduction automatique, reconnaissance de marques et suggestions de partenariats commerciaux etc.

Parmi les démonstrations les plus remarquables, le Video Indexer de Microsoft (service Cloud, gratuit pendant 3 mois) suggère un très haut niveau d’extraction des données.

Mais extraire de la donnée ne produit pas de connaissance. Il manque d’indispensables informations sur le contexte du média pour guider l’extraction de données, laquelle a une fâcheuse tendance à partir dans toutes les directions. Le module de sous-titrage automatique en plusieurs langues (donc associé à un module de traduction) donne des résultats… hilarants ! La plupart des mots pouvant suggérer plusieurs sens – notamment à connotation sexuelle, au 3ème ou 4ème degré, dans à peu près toutes les langues européennes – le fait de retrouver de tels mots perdus dans des phrases hors sujet prête vite à sourire. C’est le grand avantage de l’homme sur la machine, laquelle gère aujourd’hui chaque donnée au 1er degré.

De l’autre côté de la barrière, les experts des données structurées sourient. Ils ont sans doute beaucoup moins de matière à traiter mais, pour chaque donnée collectée, celle-ci est reliée à son contexte, c’est ce qui la qualifie de donnée sémantique : plus qu’une simple donnée, on peut parler d’une connaissance. Par exemple l’extraction automatique du mot « couche », utilisé aussi souvent lors d’une conférence sur les infrastructures IP qu’à l’occasion d’une émission de puériculture, ne sert à rien tant qu’il n’est pas relié au contexte dans lequel il est employé. Dans un environnement structuré de type « base de connaissances sémantiques », le système prend en compte l’ambiguïté du terme « couche » et, s’il n’a pas suffisamment d’information sur le contexte pour identifier le sens exact de son emploi dans la phrase, le système réclamera l’assistance d’un humain avant de valider l’indexation de cette donnée.

Grâce aux données sémantiques, les process automatisés permettent de produire de nouvelles informations, en garantissant un haut niveau de confiance. Parmi plusieurs projets supportés par l’EBU qui porte tous ses efforts dans la structuration des données via la promotion du modèle de données sémantiques EBUCore, le projet PEACH réunit les informations de l’utilisateur, sa situation géographique et le type d’écran utilisé pour, une fois le contexte bien identifié, lui recommander les bons contenus, au bon moment, dans le bon format.

Dans un monde baigné de données associées formant des contenus, Serban Simu (Eluvio) s’est lancé dans la promotion d’une révolution de l’Internet. Il dresse les contours d’un réseau non plus constitué d’une toile de routeurs chargés de mettre en relation des clients et des serveurs, mais une toile de serveurs de contenus fondée sur le principe de la protection des données.

Sur le schéma ci-dessous, les petits routeurs (en vert) ne forment plus le coeur du réseau mais ne servent plus qu’à interconnecter des serveurs de contenu (en bleu). Ces serveurs ont pour rôle de répliquer les contenus originaux authentifiés par leurs propriétaires en bordure du réseau (icônes Long Term Archive/Origin), c’est ici que se placeraient les serveurs de france•tv. Sur le principe, c’est exactement ainsi que les diffuseurs procèdent pour atteindre les téléspectateurs via le web, mais au lieu d’utiliser un tel réseau public de serveurs de contenus, ils contractent une prestation de services auprès d’un réseau de distribution privé (Akamai ou Level 3 par exemple).

1er pari : le projet d’Eluvio consiste à transformer les acteurs de l’Internet, propriétaires des grands routeurs publics du réseau, en propriétaires de serveurs de contenus (forcément cryptés) miroirs les uns des autres. En pratique, ça ne semble pas si compliqué, les grands data-centers qui hébergent les routeurs Internet abritent très souvent de grandes capacités de stockage.

2nd pari : utiliser la technologie block-chain* pour assurer la sécurité et l’authenticité des contenus entre le fournisseur et les utilisateurs. Eluvio part du principe qu’on ne peut pas faire confiance à l’Internet actuel où, pour garantir une relative sécurité des flux, il faut utiliser des certificats ou des solutions d’encryption auprès de fournisseurs-tiers, auxquels il faut donc faire aveuglément confiance, ainsi qu’à leurs partenaires et sous-traitants.

En optant pour une architecture de sécurité décentralisée impliquant directement les propriétaires des contenus et leurs utilisateurs, l’intégrité des données serait assurée en permanence par une série d’opérations traçant les clés de cryptages, requêtes de consultation et clés de décryptage dans un registre séparé et dédié à ces transactions (voir schéma ci-dessous – serveurs de couleur noire – Blockchain Nodes). Selon le principe d’une chaîne, les transactions sont ajoutées les unes aux autres pour constituer un registre horodaté et infalsifiable, car partagé/répliqué en permanence sur l’ensemble de ces serveurs dédiés à l’authentification des transactions.

*block-chain : technologie d’encryption décentralisée réputée infalsifiable, à l’origine des monnaies virtuelles telles que le Bitcoin. Dans le cadre d’une monnaie, la taille du registre des transactions augmente indéfiniment. Dans le cadre d’une distribution de contenus, il peut être créé autant de chaînes que de contenus par exemple.

 

Encodage vidéo : évaluation d’AV1 en attendant les pixels en 3 dimensions

En matière d’encodage vidéo 2D classique, Matthias Narroschke de l’Université des Sciences Appliquées de Wiesbaden compare les caractéristiques des plus récents codecs HEVC, JEM et AV1.

Chacun de ces codecs vidéo présente des outils activés pour réduire le débit des flux vidéo sans perte de qualité visuelle. La plupart de ces outils sont soumis à des brevets (nombreux dans le cadre d’HEVC et du JEM) mais une entente entre les fondateurs d’AV1 permet de rendre l’usage de ce dernier libre de droit sous des conditions qui méritent encore d’être précisées. HEVC a été publié par MPEG en 2013 et l’encodeur de référence utilisé (HM 16.16) date de septembre 2017, le JEM est actuellement l’encodeur de référence le plus avancé d’MPEG, il doit aboutir à la standardisation en 2020 sous le nom de Future Video Coding – FVC.

L’étude comparative a consisté à opérer ces 3 encodeurs aux mêmes 3 débits (bas, moyen, haut) sur des séquences UHD de référence proposées par l’EBU. 32 participants ont réalisé un test perceptif après avoir passé un test de vision. Sur les contenus les plus critiques, les résultats montrent (en tenant compte de l’intervalle de confiance)  une supériorité légère mais systématique du JEM, l’absence de différence à bas et haut débit entre HEVC et AV1, et une légère supériorité du HEVC sur AV1 au débit moyen.

Mais par rapport à HEVC, l’encodage AV1 s’avère 36 fois plus complexe  au profit d’un décodage un peu plus simple (0,7) : AV1 vise notamment l’usage sur les équipements mobiles. Le JEM est un encodeur de référence non optimisé, pour information il requiert en moyenne 6x plus de complexité à l’encodage et au décodage. Les défenseurs d’AV1 minimisent la complexité requise à l’encodage, argumentant de la puissance disponible dans le Cloud pour gommer ce gros défaut. Il faut sans doute laisser mûrir les premières librairies logicielles optimisées pour l’encodage AV1 avant de prononcer un verdict autour de l’équation : coût d’encodage/coût de licence x qualité/débit.

 

D’autant plus que cette étude télescope celle de l’Université de Moscou publiée cette semaine, laquelle semble présenter des résultats exactement contraires, cependant basés sur une méthodologie différente qui ferait appel à du crowdsourcing, autrement dit un visionnage en environnement non contrôlé.

Mais l’avenir des pixels tend vers la 3D, où l’on parle plus d’un flux lumineux que d’une image. En 2020, MPEG a prévu de lancer la standardisation d’un codec dédié à la compression des flux lumineux, les laboratoires multiplient donc leurs travaux de recherche fondamentale autour de la capture volumétrique.

A Berlin, le studio expérimental de Fraunhofer est doté d’un éclairage contrôlé sur 360° et de multiples paires de caméras associées à un logiciel de capture. Pour l’instant ces travaux sur la capture de pixels en 3 dimensions se concentrent sur de petits volumes pour s’affranchir des contraintes de profondeur de champ des caméras, limiter leur nombre (Fraunhofer en utilise tout de même jusqu’à 32 simultanément) et maîtriser l’éclairage qui doit être le plus uniforme possible.

Concernant les applications, en attendant que la table basse de notre salon s’anime et propose une vue holographique d’un stade football, les captures volumétriques réalisées permettent d’animer des éléments vivants dans un décor réel (via la réalité augmentée) ou virtuel (un jeu par exemple). Ainsi la BBC R&D imagine présenter des artefacts (objets, ou même des présentateurs) en Réalité Augmentée à l’aide d’une tablette – apparaissant par exemple sur un meuble du téléspectateur – en lien avec des contenus documentaires de la BBC, ce qui permettrait à l’utilisateur de zoomer et tourner autour d’un objet.

La BBC a d’ailleurs utilisé la Réalité Augmentée pour afficher un interprète en langue des signes à proximité de la TV, des tests réalisés avec un système Microsoft Hololens, encore limité en raison du champ visuel réduit opéré par l’Hololens pour l’incrustation d’animations. La version préférée par les participants à cette évaluation fut clairement celle laissant apparaître l’interprète en pied à côté de la TV.

Ce contenu a été publié dans Audio, IP, OBA, Réalité virtuelle, Ultra-HD. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *