Production Technical Seminar 2019 : révolutionner la télévision

Chaque année, l’Union Européenne de Radio-Télévision (UER-EBU) organise fin janvier son séminaire de réflexion autour des nouveaux outils, méthodologies et organisations pour la production de contenus. Plus de 70 directions technologiques de chaînes TV et Radio du monde entier sont au rendez-vous de ces 3 journées de conférences, de démonstrations et d’ateliers.

Voici un compte-rendu centré sur les grandes thématiques du séminaire : les stratégies technologiques, les innovations structurantes et les success-stories les plus récentes.

par Matthieu Parmentier et Claire Mérienne-Santoni – France Télévisions – innovations&développements

Où en est la transformation de nos médias  ?

Judy Parnall (BBC), la présidente du Technical Committee de l’EBU, lance ces 3 journées de conférences en évoquant la transformation des médias pour s’adapter aux prochaines générations. Derrière le déclin assuré de la consommation des chaînes TV et radio chez les jeunes générations, les communautés de fans s’agrègent désormais autour des chaînes YouTube, comptes Instagram et Facebook influents, notamment par leur capacité à interagir (like/dislike et commentaires).

À cela s’ajoutent les aspects pratiques d’accès aux médias et la possibilité d’être créatif à son tour comme en témoigne l’avènement de tiktok (ex-musical-ly).

La seule constante qui se dégage, quelle que soit la forme du contenu regardé (quelques secondes à quelques heures) : le bon programme trouve son audience.

Judy Parnall résume la nécessaire transformation des médias par l’importance de donner les bons outils aux producteurs de programmes, des outils pour les distribuer, pour atteindre leurs écrans… Au cours des conférences suivantes, plusieurs éditeurs feront la démonstration de leurs nouveaux outils de publication, notamment adaptés aux réseaux sociaux (vidéos carrées, verticales, horizontales) avec plus ou moins d’assistance algorithmique.

Michael Zink (VP Technology de Warner Bros.), tout en propulsant la production 8K dans un futur plutôt lointain, souligne l’avènement de la Réalité Virtuelle : elle constitue selon lui la vraie rupture à venir, où l’importance de l’expérience vient chatouiller le story-telling. Les réalités mixtes, comme celles dessinées par Microsoft (Hololens) et Magic Leap participent aussi à construire les expériences immersives de demain. Warner Bros. s’intéresse particulièrement aux véhicules autonomes pour leur capacité à distraire une audience captive d’une centrale technologique.

L’Intelligence Artificielle débarque en force

Lors des dernières éditions du PTS, plusieurs démonstrations de solutions d’Intelligence Artificielle plus ou moins réussies avaient pu préparer l’auditoire à l’arrivée d’outils d’assistance pertinents. Près de la moitié de la quinzaine de démonstrations présentées en marge des conférences mettent en scène l’IA.

L’IA pour traquer les fake news

Judy King (BBC) présente un outil de détection assisté par l’IA afin d’offrir aux journalistes la possibilité de vérifier les informations en provenance de sources de plus en plus diverses et multilingues. Cet outil vient enrichir le projet Volt qui offre déjà aux journalistes une plateforme intelligente pour chercher et trier les informations à partir des publications d’autres médias et la plupart des réseaux sociaux. Entre autres fonctionnalités : la traduction automatique de nombreux contenus en plusieurs langues à destination notamment des correspondants présents partout dans le monde.

Parmi les solutions d’authentification, la pertinence d’une solution de watermarking des contenus produits par les chaînes est évoquée mais elle nécessiterait au minimum un travail commun entre les chaînes européennes pour offrir une certaine efficacité.

IBM dessine des outils de production augmentés par l’IA

Thomas Ross (IBM) estime, au sein des chaînes de production audiovisuelles, la proportion de données structurées à 12% seulement, contre 88% de données brutes.

IBM a démontré à travers son « Project Debater » les capacités de son modèle à analyser en temps réel des arguments proposés par les protagonistes, autrement dit grâce au traitement de données totalement brutes. Le modèle est entraîné face à des humains dans le but d’offrir un enrichissement du débat. L’expérience montre que l’IA s’est révélée plus efficace pour enrichir les connaissances des protagonistes, tandis que l’humain restait plus « performant » dans sa capacité à délivrer un discours construit.

Ces travaux ont permis de structurer des modèles permettant la construction d’argumentaires crédibles, et de les chapeauter par un autre modèle d’IA en charge d’aligner les résultats produits à l’aide de garde-fous éthiques.

Au delà des questions éthiques, alors qu’on peut légitimement se demander quelles sont les bonnes méthodes pour améliorer l’entrainement des réseaux de neurones, Thomas Ross évoque le responsable IA de Tesla, Andrej Karpathy, précédemment thésard à l’université de Stanford. Lui qui passait son temps à développer de nouveaux algorithmes et modèles de traitement n’a pratiquement plus qu’une obsession quotidienne : gérer l’acquisition et le traitement de masses de données gigantesques. On peut d’ailleurs estimer une journée de données d’un véhicule autonome à environ 4 To.

Thomas Ross conclut en dressant la carte du long chemin restant, pour chaque entreprise, dans la conquête et la maîtrise de l’IA, à juste dose, de sorte de mériter le label 4.0 d’IBM avec le conseil suivant : « Commencez à intégrer des IA, mais gardez le contrôle sur ce que vous leur faites faire ».

La BBC se focalise sur le Speech To Text

Pour une fois ce n’est pas la BBC R&D qui pilote le sujet mais l’ingénierie qui répond à un besoin qui n’a visiblement pu être adressé suffisamment en avance. En se focalisant sur les technologies de Speech To Text, la BBC pense pouvoir transposer son expertise aux autres technologies d’IA. Parmi les projets mis en place, le benchmark des solutions disponibles est porté au sein d’un groupe de travail collaboratif EBU.

Une technologie de Speech To Text est considérée comme utile par les professionnels du sous-titrage si la reconnaissance vocale dépasse les 80% de taux de succès. Parmi les problèmes rencontrés, tous les styles de bande-son offrent des challenges différents (transcrire les paroles d’une chanson par exemple, mais aussi une voix enregistrée dans un environnement bruyant, les voix d’enfants, le traitement des accents…). Les technologies apprennent et progressent continuellement et il ne faut pas non plus négliger l’utilisation de données « maison » qui doivent pouvoir guider les algorithmes face aux homophones. Par exemple, la BBC a été forcée d’enseigner manuellement le mot Brexit (autrement systématiquement transcrit par « wrecks it » – qui signifie « coule-le » 😉 le temps que les modèles de Speech To Text génériques (Amazon, Google, Microsoft par exemple) soient mis à jour. Dans tous les cas, la BBC constate qu’une traduction automatique n’aboutit jamais seule à un sous-titre pertinent (en moyenne un mot erroné par bloc de sous-titre), une intervention manuelle en fin de chaîne est toujours nécessaire. Dans le cas de clips courts, la transcription manuelle demeure plus rapide.

Conséquence de ces travaux, un service de Speech To Text centralisé a été mis en œuvre pour accueillir plusieurs technologies en parallèle, avec l’ambition de pouvoir les comparer, les jauger, mais aussi juger de l’utilité d’assembler leurs résultats pour faire progresser les performances, si cela s’avère possible. L’agrégation des résultats doit également permettre de renforcer la pertinence des modèles.

Reste que certaines questions éthiques et de sécurité ne doivent pas être négligées lorsqu’on fait appel à des services en ligne de transcription : la question de la protection des sources journalistiques (anonymat) doit pouvoir être prise en compte. Plus largement, ne fournit-on pas un avantage compétitif au fournisseur de service que l’on choisit en lui soumettant toutes nos données ? Autre inconvénient des solutions dans le Cloud : si elles offrent une intégration plus simple que les solutions « maison » , il faut aussi tenir compte des coûts de transfert des données et des délais de traitement. Dans certains cas où la rapidité de traitement est essentielle, une solution interne peut s’avérer pertinente. Autre point d’attention : les coûts de traitement qui peuvent s’avérer extrêmement variables (écart jusqu’à 1400% pour une heure de programme !). Dans tous les cas il faut être en capacité de mesurer les résultats pendant la phase de choix du prestataire de service mais aussi une fois le contrat conclu, la qualité de service pouvant varier de façon importante dans le temps.

MCMA – le projet EBU qui facilite l’accès aux ressources du Cloud

L’accès aux solutions d’Intelligence Artificielle nécessite une infrastructure susceptible d’atteindre les ressources du Cloud. Faciliter cet accès dans le contexte de la production et la diffusion de médias est l’objet du projet MCMA. Baptisé « FIMS 2.0 » par quelques esprits moqueurs (car le projet FIMS n’a pas eu beaucoup de succès), MCMA nourrit une ambition proche : définir des connecteurs logiciels ou API standards afin d’assembler des process de traitements de données complexes comme des légos.

Les membres du projet MCMA partagent ainsi leurs travaux sous licence open-source, ils ont déjà construit une plateforme de démonstration qui permet de bâtir des solutions de stockage, transfert et process Cloud, avec ou sans IA, en quelques heures et pour un très faible coût de fonctionnement.

En contrepoint sur cette question, Brad Gilmer – membre actif du SMPTE, du Video Service Forum et de l’AMWA – met en garde sur les réalités des services Cloud aujourd’hui. Pour lui, toutes les fonctionnalités sont déjà disponibles à l’exception d’une minorité de cas d’usage tels que la production temps réel de signaux compressés (qui ne constituent qu’une toute petite partie de l’écosystème). Tout est possible donc, mais pas pour tout le monde, car les coûts peuvent vite devenir astronomiques. Et il y a un écart entre l’usage affiché et l’usage réel de ces services par les éditeurs de contenus, puisque c’est ici que se joue une part essentielle de la concurrence entre chaînes pour la conquête de l’audience.

Sur un plan plus pratique, il souligne l’importance d’avoir des ressources de développement en interne, car ce ne sont pas les plateformes de services telles qu’AWS ou Azure qui vont s’adapter à nos besoins mais bien nous qui devons savoir utiliser ces outils pour remplir nos objectifs.

En parallèle, du point de vue de la cyber-sécurité, il insiste sur la nécessité de contrôler le contenu de l’ensemble des services offerts, qu’ils tournent sur des Cloud privés ou publics. Par exemple, un outil open-source comme Greenbone OpenVAS permet de faire un audit des services actifs sur une plateforme.

La RTS réorganise son département des archives

Avec la mise en œuvre d’outils open-source basés sur l’IA (reconnaissance faciale, reconnaissance vocale et speech to text), la Radio-Télévision Suisse francophone a profondément modifié l’organisation de son département des archives, intégrant un service de recherche & développement dédié, ainsi qu’une hiérarchie remodelée où ce sont davantage les activités et les projets qui orientent les priorités, et moins les personnes. Le département RTS.ai a été créé, l’équipe prend en charge les sujets liés à l’indexation des contenus pour faciliter leur archivage, leur accès ainsi que de nouveaux services offerts aux créateurs de contenus externes pour faire vivre ces contenus.

L’étude des coûts reste au centre du questionnement quotidien de la RTS (menacée de disparition, comme toute la radio-télévision publique suisse, il y a quelques mois).

Basculer toute la production en IP : un chantier brûlant

Après plusieurs années d’exploration et de développements collaboratifs intensifs entre industriels et grandes chaînes, les premières infrastructures « tout IP » entrent en service.

CBC Radio-Canada

Historiquement organisée comme une double société séparée selon la langue, l’entreprise de Radio-Télévision publique canadienne a fusionné en 2015 l’ensemble de ses fonctions supports pour ne conserver que la programmation spécifique à chaque antenne (respectivement anglophone et francophone). La deuxième étape a consisté à préparer le passage à une infrastructure « tout-IP » offrant l’occasion à toutes les équipes de plonger ensemble dans de nouveaux défis pour en définir des méthodologies communes.

En effet, pour CBC, le choix de passer à une infrastructure de production qui utilise principalement des technologies IT et COTS (« Commercial Off The Shelf  » fait référence au fait  d’utiliser du matériel informatique standard disponible « sur étagère » à la place de matériels broadcast dédiés) requiert la vision unifiée d’une équipe multidisciplinaire Broadcast / Réseau / Informatique dans laquelle chacun doit faire confiance en l’expertise de l’autre.

Parmi les leçons apprises :

  • 4 fois plus de temps pour mener un projet, du fait de la nécessité d’intégrer la bascule en IP
  • Motiver les équipes est délicat, de nombreux métiers se retrouvent lourdement changés
  • L’expertise interne est essentielle : on ne peut pas se contenter de s’appuyer sur celle des constructeurs. En cas de litige entre plusieurs constructeurs au sujet d’un dysfonctionnement il est essentiel de pouvoir opposer une expertise solide pour résoudre les problèmes.
  • Preuve de Concept :  il est indispensable de simuler les infrastructures proposées par les industriels dans son propre laboratoire, l’écart est parfois important entre les fonctionnalités promises et la réalité de la solution.
  • La transition vers le tout-IP nécessite de revoir certaines méthodes de travail pour bénéficier des souplesses promises. Il faut accepter de modifier certaines habitudes (la façon de gérer les latences notamment et plus généralement la synchronisation des signaux). Pour Félix Poulin, c’est un peu comme de passer de la voiture diesel à la voiture électrique…
La face cachée de la transition IP
  • Le marché est orienté « solution » et non plus « produit ». Il devient de plus en plus compliqué de démontrer la fonction défaillante d’un système à l’heure de faire jouer une garantie auprès d’un constructeur.
  • Ne pas chercher une économie financière à court terme, cela coûte plus cher aujourd’hui. L’écart de prix va se réduire avec le temps et l’expérience de ce type de projets.  Il faut aussi inclure les coûts de fonctionnement (recours massif au calcul informatique, contrats de service et licenses).
  • Il a fallu 3 ans pour fusionner les ingénieries Broadcast et IT
  • Environ 60 ingénieurs et chefs de projets ont été impliqués sur le projet, et environ 200 personnes pour le support et la maintenance.
  • L’IP n’est plus un choix, par son calendrier, CBC avait la possibilité d’être la dernière chaîne en SDI ou la première en IP. Dans 2-3 ans, l’IP sera le meilleur choix sinon le seul.

LIST, un outil open source développé par l’EBU pour faciliter le monitoring des signaux en environnement tout IP.

Willem Vermost de l’EBU abonde dans le sens de CBC  sur la nécessité de tester la conformité des signaux de sortie de chaque équipement avant tout choix d’investissement.  LIST, l’outil de mesures des flux audio et vidéo IP au format 2110 est démontré ici en version « off-line » (analyse d’un signal après capture d’un segment) mais il peut également tourner en mode Live. La précision des mesures effectuées par LIST a été validée par 3 semaines de tests. L’outil Open Source tourne sur du matériel « standard », à savoir un serveur et une carte réseau Mellanox dont le coût total avoisine les 2500 euros. Au regard du prix des solutions de mesure actuelles du marché, LIST offre une alternative très intéressante en période de qualification ou pour certains points de la chaîne qui ne nécessitent pas un outil de mesure complet de type Waveform Analyser.
De façon plus générale, l’EBU insiste sur l’intérêt pour les broadcasters dans cette transition de SDI vers IP de s’orienter vers des solutions ouvertes tournant sur des hardwares standards. Dans le cas contraire les coûts d’investissements ne seront pas compensés par une évolutivité des workflows voire offriront moins de possibilité d’évolution que le SDI.
Du côté de l’audio, Ievgen Kostiukevych alerte sur les usages de formats propriétaires tels que Dante, car leur interconnexion avec les autres formats audio est loin d’être aisée, encore moins lorsqu’il s’agit d’intégrer et de synchroniser ces flux dans un environnement vidéo.
Pour clore ce chapitre notons que TPC , la filiale « production » du groupe de radio-télévision public suisse SRG-SSR présentait également son projet de nouveau bâtiment tout IP « Metechno » qui devrait être on air en 2020, et proposait la visite du car de production UHD 1 lui aussi full IP en production depuis octobre dernier. Ce car fera l’objet d’un article séparé à venir prochainement.

Etat de l’art des codecs vidéo

La carrière du codec H.264 touche progressivement à sa fin. HEVC peine pourtant à le remplacer principalement en raison de la problématique du coût de licence. La réponse de l’Alliance for Open Media – qui regroupe notamment Google, Facebook ou encore la BBC R&D – s’appelle AV1, un codec open-source visiblement aussi efficace qu’HEVC, un peu plus simple à décoder pour économiser la batterie des Smartphones, mais… et là s’arrête la magie… 30 fois plus complexe à l’encodage. Pour ceux qui savent tirer partie du moindre cycle de processeur dans le Cloud ou qui peuvent rentabiliser un contenu encodé chèrement parce qu’il est vu par plusieurs millions d’abonnés, le choix d’AV1 est une évidence.
Alors on parle déjà du successeur d’HEVC, baptisé VVC (Versatile Video Coding), il ne sera pas open-source, il s’avère a priori aussi gourmand qu’AV1 pendant l’encodage… mais 50% plus efficace concernant son rapport qualité/débit !

Ultra HD : après la 4K, le HDR et l’audio, le HFR devient LE sujet

Avec Ultra HD, l’amélioration du rendu s’exprime dans 4 dimensions :

  1. le nombre de pixels de chaque image : 1920×1080, 3840×2160, etc.
  2. la résolution de chaque pixel : 10/12 bits pour augmenter la dynamique et l’espace colorimétrique (HDR pour High Dynamic Range),
  3. l’audio orienté objets (NGA pour Next Generation Audio) pour supporter le son immersif et interactif,
  4. le nombre d’images par seconde (HFR pour High Frame Rate) pour réduire le flou généré par les mouvements rapides des objets filmés ou de la caméra elle-même.

Le passage au 100 images/seconde en Europe (120 i/s au Japon, Corée et USA) agite désormais toute l’industrie, des caméras aux téléviseurs. L’apport de cette cadence élevée a été prouvée plusieurs fois – notamment par France TV dans le cadre du projet de recherche 4EVER en 2014 et 2015 – dès que le programme met en scène des images en mouvement. Le plus impressionnant, par exemple sur des images de sport où la HD à 100 images/seconde apparaît bien plus nette que la 4K à 50 images/seconde.

La taille de l’écran influe également beaucoup sur le ressenti, plus l’écran est grand, plus le besoin d’augmenter le nombre d’images/seconde s’impose pour conserver un confort suffisant. Les fabricants l’ont compris en dotant tous leurs grands écrans d’un algorithme de compensation de mouvement (ou MCFI) qui est souvent signalé par un logo 100 Hz ou 200 Hz, voire 400 Hz. Cet algorithme multiplie artificiellement le nombre d’images affichées pour donner l’impression qu’elles ont été effectivement produites. Bien que le recours à l’intelligence artificielle permette d’améliorer significativement la création et l’interpolation d’images supplémentaires, la reproduction de la netteté d’origine, avant captation, semble impossible.

S’il était encore nécessaire de convaincre une nouvelle étude réalisée pendant le séminaire sur une trentaine de volontaires (le test de comparaison/notation, en aveugle, durait 30 minutes) a permis de placer en tête des suffrages la version 4K à 100 images/seconde, à égalité avec la version HD à 100 images/seconde… laissant la version 4K à 50 images/seconde à 2 longueurs.

Lors d’une table ronde autour de l’épineuse question « Comment migrer la HD vers l’UHD ? » les participants se sont opposés à l’heure de définir le format de diffusion à adopter. Si tous saluent l’intérêt supérieur du HDR et de l’audio immersif/interactif, seuls les éditeurs privés s’accrochent à la 4K pour des raisons marketing évidentes (le client doit pouvoir comprendre ce qu’il paye, même s’il n’en bénéficie pas) là où les chaînes publiques s’avèrent pragmatiques : les coûts de production 4K sont lourds, il faut les réserver aux vrais programmes de stock et se concentrer sur la production HDR, l’audio immersif/interactif et une cadence image adaptée aux différents programmes.

Jeu vidéo et programme linéaire, qu’ont-ils en commun ?

Avec l’avènement de la réalité virtuelle, la recherche de ponts entre le jeu vidéo et les programmes linéaires occupent autant les scénaristes, les spécialistes du marketing des programmes attirés par la dimension interactive et les techniciens qui lorgnent sur les moteurs de rendu de plus en plus puissants de l’industrie du jeu. C’est notamment le terrain de jeu de la Réalité Augmentée.

L’incrustation en fond vert a (presque) l’âge de la télévision couleur, avant que le numérique améliore significativement cette technologie. Depuis, le tracking des caméras et de leurs optiques (mouvements dans l’espace, zoom, mise au point) a permis la création des studios virtuels, première expérience de Réalité Augmentée, du moins pour la journaliste ou le présentateur en plateau. Depuis quelques années, le calcul des décors virtuels fait désormais appel aux moteurs de rendu des jeux vidéo (par exemple dans le journal de 20 heures de France 2). Dans les mains de graphistes créatifs, il y a de quoi rendre le moindre jeu TV visuellement impressionnant !

Concernant la révolution éditoriale offerte par une dose plus ou moins affirmée d’interactivité, nous avons déjà abordé ces thématiques notamment dans le cadre de la réalité virtuelle et plus particulièrement de l’écriture du son immersif et interactif.

Mais sur un plan strictement technique, en restant centré sur l’interaction au sein du programme – c’est à dire le présentateur qui interagit avec son environnement, et non le téléspectateur de façon directe – les norvégiens du Future Group déploie justement sa plateforme d’outils Pixotone pour imaginer des programmes à mi-chemin entre script linéaire, décor virtuel et interaction.

Ce contenu a été publié dans audio, Big Data, codecs, IA, IP, OBA, son 3D, Technologies, Ultra-HD, avec comme mot(s)-clé(s) , . Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *