SubTil : comment resynchroniser les sous-titres produits en direct à l’aide de l’intelligence artificielle

En France, le sous-titrage des programmes en direct pose problème : la fabrication des sous-titres entraine un retard d’affichage d’au moins 8 secondes par rapport à l’image. Ce délai est d’autant plus grand dans le cas où le contenu n’a pas pu être anticipé comme une interview ou un sujet de dernière minute. Donc, si les sous-titres apparaissent avec autant de retard, se pose un vrai problème de compréhension : on lit les mots d’une personne sans lien apparent avec ce qui est montré à l’image.

C’est dans le non-linéaire (Replay) que l’on va pouvoir offrir une meilleure solution : automatiser la resynchronisation des sous-titres afin que ceux-ci soient calés précisément sur les mots prononcés par les locuteurs.

Une solution a été mise en œuvre grâce au projet SubTil(*). Voici comment cela fonctionne :

  • au départ, il faut le programme (audio + vidéo) et le fichier de sous-titrage produit en direct
  • l’audio est analysé par une brique de Speech-to-Text, il s’agit d’une fonction d’Intelligence Artificielle qui sait reconnaître les mots prononcés dans une langue donnée, à partir de l’analyse visuelle de la forme d’onde
  • en sortie de cette brique de Speech-to-Text, les mots prononcés sont comparés avec ceux issus du sous-titrage produit en direct
  • grâce à l’étude des correspondances, moyennant l’ajout de plusieurs règles pour gérer les répétitions de mots à l’oral ou les mots imparfaitement reconnus, les éléments de sous-titrage sont resynchronisés vis-à-vis de l’audio
  • une adaptation finale permet de prendre en compte le confort de lecture des sous-titres en fonction de leur longueur. Le cas échéant, la synchronisation ne sera pas strictement respectée au profit de ce confort de lecture

Voici ce que ça donne :

(*) Le projet SubTil réunit France Télévisions innovations & développements, Perfect Memory, l’Institut Mines-Telecom et Mocaplab pendant deux ans, dans le cadre de travaux collaboratifs de recherche et développement visant l’amélioration de l’accessibilité des programmes TV : qualité du sous-titrage, intelligibilité sonore et interprétation en langue des signes.

Ce contenu a été publié dans audio, Diffusion, IA. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *