Jean Delisle
(L'Actualité langagière, volume 6, numéro 4, 2009, page 21)

Une nouvelle profession langagière

Vous avez un intérêt marqué pour la communication et la langue française? La nature vous a gratifié d’une fine acuité auditive, d’une bonne diction, d’une voix posée? Vous êtes doué d’une grande facilité d’élocution et de concentration, d’un esprit vif et d’un bon jugement? Vous êtes titulaire d’un diplôme universitaire en communication, en traduction, en linguistique, en histoire ou dans un domaine apparenté? Vous avez une solide culture générale et aimez être au diapason de l’actualité? Les arcanes de la grammaire française ne vous rebutent pas? Vous gérez bien le stress et pouvez travailler sous pression? Vous sauriez reformuler des paroles en fonction de l’écrit et utiliser une manette de jeu vidéo aux multiples fonctions? Si vous avez répondu « oui » à toutes es questions, vous avez alors tout ce qu’il faut pour être sous-titreur vocal.

Cette profession émergente* est appelée à connaître un grand essor au cours des prochaines années sous l’effet conjugué d’au moins trois facteurs : le vieillissement de la population – près de 25 % des Canadiens de 75 ans et plus souffrent d’une déficience auditive –, les nouvelles exigences du CRTC, qui impose aux télédiffuseurs de sous-titrer la totalité de leurs émissions aux heures de grande écoute, et la pénurie d’interprètes gestuels et de sténotypistes1. Depuis une quinzaine d’années, le Regroupement québécois pour le sus-titrage2 a cherché à faire augmenter le nombre d’émissions télévisées et de films sous-titrés en français. Depuis 2003, la Cité collégiale d’Ottawa offre un certificat de sténotypie assistée par ordinateur d’une durée de trois ans pour pallier la pénurie de sténotypistes francophones, profession pourtant bien rémunérée, mais les demandes d’inscription ont été insuffisantes pour démarrer le programme.

Deux ans plus tôt, TVA avait accordé 500 000 $ au Centre de recherche informatique de Montréal (CRIM) pour le développement d’un prototype permettant le sous-titrage en direct de bulletins de nouvelles à l’aide de la technologie de reconnaissance automatique de la voix adaptée au français d’ici. Les logiciels sur le marché sont conçus en fonction de l’accent européen. Le CRIM a mis au point un système de sous-titrage en direct appelé STDirect. Ce système, unique en son genre dans le monde francophone, a été utilisé en ondes pour la première fois à TVA en 2004. Il s’agit de titres encodés présentant sous une forme imprimée le dialogue et les effets sonores de la programmation vidéo. Un décodeur est requis pour qu’ils sient visibles sur les écrans de télévision.

Un défi de taille

Ardent promoteur de la langue française sur la scène fédérale, l’honorable Jean-Robert Gauthier, sénateur libéral à la retraite et ex-député, lui-même devenu malentendant à la suite d’une infection virale, a exercé des pressions auprès des instances parlementaires afin de faire sous-titrer les débats à la Chambre des communes. Depuis 1991, le sous-titrage en anglais est réalisé par des sténotypistes, alors que le public francophone peut compter sur des interprètes gestuels. Or, tous les malentendants ne connaissent pas la langue des signes; c’est le cas du sénateur Gauthier. Il leur faut un support textuel. À la demande de la Chambre des communes, le Bureau de la traduction, dont la Direction de la traduction parlementaire et de l’interprétation assure les services d’interprétation et de traduction au Parlement, aparticipé de 2005 à 2007 à un projet pilote de sous-titrage en direct. Ce projet a été réalisé au CRIM. L’inauguration du nouveau service à la Chambre a eu lieu à l’automne 2007. Il se limite pour l’instant à la période des questions qui a lieu quotidiennement, lorsque la Chambre siège, de 14 h 15 à 15 h du lundi au jeudi et de 11 h 15 à midi, le vendredi. En raison de son expertise linguistique, le Bureau de la traduction a été chargé d’évaluer la qualité du sous-titrage et a travaillé en étroite collaboration avec le CRIM, qui lui transmet des rapports de performance péiodiques.

Le défi à relever était énorme : faire en sorte que l’affichage sur la Chaîne d’affaires publiques par câble (CPAC) se fasse avec le moins de décalage possible quand un député intervient en français à la Chambre ou lorsque l’interprétation est faite en français, si le parlementaire s’exprime en anglais. Les obstacles ont été surmontés, la complexité de la grammaire française n’étant pas le moindre. Le signal audio de la Chambre des communes est transmis à Montréal par ligne téléphonique. Dans un studio insonorisé du CRIM (Fig. 1), un sous-titreur assis devant un écran voit l’image de l’intervenant transmis par télédistribution et répète ce qu’il entend Le système, qui reconnaît sa voix, transcrit ses paroles; le texte qui en résulte est codé puis acheminé par ligne téléphonique à un encodeur de ligne 21 au Parlement. Durée de cet aller-retour : deux secondes. La diffusion des sous-titres sur la CPAC se fait ensuite par télédistribution, ce qui ajoute deux autres secondes environ. Avec en moyenne quatre secondes de décalage, on peut parler de sous-titrage simultané, comme on parle d’interprétation simultanée.

Fig. 1 – Les sous-titreurs vocaux travaillent en direct, dans une cabine insonorisée.
Fig. 1 – Les sous-titreurs vocaux travaillent en direct, dans une cabine insonorisée.

L’équipe du CRIM n’a pas travaillé en vase clos. Les sourds et les malentendants ont été souvent consultés et tous les clients du CRIM, des télédiffuseurs pour la plupart, ont profité des améliorations successives apportées à l’environnement du sous-titrage. « On a axé nos efforts sur l’intelligibilité du sous-titrage, indique Michel Boissonneault, linguiste et traducteur de formation, ancien professeur de français et gestionnaire du sous-titrage et de l’interprétation visuelle au Bureau de la traduction. Un verbe à l’infinitif peut s’afficher sous la forme d’un participe passé, mais cette erreur grammaticale ne nuit en rien à l’intelligibilité du message. Les sos-titreurs qui travaillent au projet depuis 2005 ont acquis beaucoup d’expérience et sont très bons. » Quand on les voit à leur poste de travail, on pourrait penser que ce sont des interprètes (ils exercent leur métier dans une enceinte insonorisée avec casque d’écoute et micro), mais ils ne réalisent pas un transfert linguistique. Ce sont des intermédiaires entre deux modes d’expression : l’oral et l’écrit.

Lorsqu’un parlementaire de langue anglaise prend la parole à la Chambre, l’interprète de la cabine française entend de l’anglais et reformule du français. Le sous-titreur vocal, lui, entend du français (celui de l’interprète ou d’un orateur francophone) et répète du français. Les interprètes seraient plutôt malvenus de regarder de haut les sous-titreurs et de les affubler du surnom de « perroquet », car, dans l’Égypte ancienne, c’est précisément cet animal qui servait à représenter leur profession. Dans l’antique Carthage (IXe s. av. J.-C.), en effet, il y avait une caste d’interprètes jouissant de privilèges. Ses membres avaient le crâne rasé et portaient en signe distinctif untatouage représentant un perroquet. Ce perroquet avait les ailes fermées si l’interprète pratiquait une seule langue étrangère ou les ailes déployées s’il en connaissait plusieurs3.

L’art du sous-titrage vocal

Qualifier les sous-titreurs vocaux de « perroquets » en croyant qu’ils effectuent bêtement un travail de restitution n’exigeant aucun effort de réflexion serait méconnaître la nature véritable de leur tâche. L’interprète, sitôt le message compris, doit en briser la gangue verbale pour réexprimer la moelle du sens. L’exercice n’est pas facile, tous en conviennent, et cette prestidigitation verbale suscite, à juste titre, l’admiration générale. Le sous-titreur vocal au service de la Chambre des communes est astreint, quant à lui, à une plus grande fidélité aux mots, à une restitution verbatim. Cela ne fait pas pour autant de lui un simple « mâchonneur » de mots, un convertisseur automatique. Ce n’est pas un « robot humain ».

Il lui faut, en effet, bien comprendre les interventions des parlementaires et être particulièrement attentif à la manière dont leurs propos sont exprimés, afin de procéder à certaines adaptations au besoin. Dès qu’il se rend compte que le système ne pourra pas traiter correctement tel segment d’un énoncé (mot étranger ou absent de la base lexicale), il doit rapidement contourner la difficulté. Ainsi, le nom du village de Kashechewan au Manitoba risquait fort, à sa première occurrence, d’être confondu avec la province de la Saskatchewan. Une intervention rapide du sous-titreur s’imposait et, habilement, celui-ci lui a substitué la paraphrase équivalente « la communauté autochtone du Nord du Manitoba ». Chaque séquence phonétique doit correspondre à une entrée lexicale dans le logiciel de reconnassance de la voix. De même, le système pouvait reconnaître facilement le trinôme « la commission Gomery » (inclus dans son dictionnaire), mais « le rapport Gomery » risquait de s’afficher sous la forme « le rapport gomme rit ».

Il faut une grande vivacité d’esprit pour, à l’occasion, employer un générique au lieu d’un spécifique. Le nom d’un touriste mal prononcé par un parlementaire ou inaudible en raison du bruit à la Chambre pourra devenir « cet homme emprisonné au Mexique », par exemple. Le nom d’entreprises et d’associations et les acronymes exigent parfois un traitement semblable. Tout comme les mots anglais. Bugs Bunny sera rendu par « un personnage de dessins animés ». Lorsque le député Denis Coderre a lancé à la Chambre : « C’est une bande de Mickey Mouse! » et « Il se prend pour Forrest Gump avec sa boîte de chocolats », le sous-titreur est intervenu. « On ne va pas répéter ça, explique la sous-titreuse vocale Sophie Leclerc. On essaie d’utiliser de équivalents qui rendent l’esprit des images. Il est vrai qu’on ne reproduit pas toujours la même couleur. » C’est ce qui explique que la version sous-titrée est parfois plus « raffinée » que l’original, qu’elle est d’un niveau de langue plus soutenu. Le sous-titreur, parce qu’il est très attentif à ce qui se dit et qu’il connaît le sujet, s’autorise à corriger des erreurs évidentes. Si l’interprète ou l’orateur parle de millions de dollars alors que le contexte indique clairement qu’il s’agit de milliards, la faute est corrigée. Il en va de même pour les lapsus : l’ancien premier ministre Paul Martin se verrait restituer son prénom si, par erreur, on lui attribuait celui de Pierre.

Ponctuation et ambiance

Au sous-titreur, on demande aussi d’insérer la ponctuation dans le message défilant sous ses yeux et de recréer, jusqu’à un certain point, l’ambiance qui règne sur le parquet de la Chambre des communes. Comment s’y prend-il? Au moyen d’une manette de jeu vidéo préprogrammée. Outre les principaux signes de ponctuation (? . , !), il peut afficher différents messages ou « événements » tels que [bruit], [voix de l’interprète], [fin de la traduction], [phrase incomplète], etc. Grâce à d’autres boutons, il peut aussi effacer l’écran si des ennuis techniques transforment le texte en gribouillis ou activer diverses fonctionnalités de l’application.

Le sous-titreur doit aussi composer avec la performance et le style des interprètes. Certains sont clairs, fluides, faciles à suivre; d’autres, en revanche, sont plus laborieux et s’expriment de manière hésitante, saccadée. D’autres encore prennent plus de temps pour restructurer les idées d’un orateur et débitent ensuite leur interprétation à vive allure. « Il n’est pas toujours facile de suivre la cadence de certains interprètes, confie l’un des premiers sous-titreurs recrutés par le CRIM en 2005, Simon Dupuis. De même que les interprètes ont leurs députés favoris et leurs bêtes noires, de même les sous-titreurs vocaux ont leurs interprètes favoris. » Il convient d’ajouter à la décharge des interprètes que certains parlemetaires ont une vitesse d’élocution très rapide (plus de 130 mots/minute). Impossible de les faire ralentir! C’est aux interprètes et aux sous-titreurs vocaux de s’adapter. Servitudes de ces deux professions qui s’exercent en direct, dans le feu de l’action.

Lorsqu’un parlementaire de langue anglaise choisit de s’exprimer dans la langue de Molière, son expression est parfois boiteuse, approximative, émaillée d’erreurs. Le sous-titreur reformule alors ses propos de façon plus claire et plus concise, sans pour autant en modifier le sens. Et que dire de tous les noms propres et des termes rarement utilisés? « Il y aura toujours des mots hors vocabulaire, mais le système s’adapte et s’enrichit chaque jour », indique la directrice de production du Service de sous-titrage au CRIM, Julie Brousseau (Fig. 2). Cette spécialiste de la reconnaissance de la parole est titulaire d’une maîtrise en linguistique. Elle a travaillé chez Dragons Systems à Boston pour adapter le système commercial DragonDictte au français canadien avant de se joindre à l’équipe du CRIM, où elle a participé à un projet de recherche visant à intégrer la reconnaissance vocale et la traduction automatique. La rapidité phénoménale du système conçu au CRIM tient, d’une part, à la vitesse des nouveaux microprocesseurs et, d’autre part, au stockage de l’information sous forme de graphes à états finis pondérés. « Pour une séquence acoustique donnée, précise Julie Brousseau, le système analyse la probabilité acoustique et la probabilité du modèle de langage, puis établit une pondération entre les deux. Le résultat produit une hypothèse de reconnaissance vocale ui s’affiche à l’écran. » Le tout en une fraction de seconde.

Fig. 2 – Julie Brousseau, directrice de production, Service de sous-titrage, Reconnaissance de la parole (CRIM).
Fig. 2 – Julie Brousseau, directrice de production, Service de sous-titrage, Reconnaissance de la parole (CRIM).

On a du mal à imaginer le niveau de concentration, de coordination et de vivacité d’esprit qu’exige le travail d’un sous-titreur vocal, dont l’ouïe, la vue, la parole et la dextérité sont mises à contribution. Il lui faut accomplir consécutivement ou simultanément de multiples opérations : écouter un message, le répéter intelligiblement, insérer de la ponctuation dans la version écrite défilant devant lui, indiquer un événement, corriger une erreur au passage, trouver un équivalent à un mot étranger ou absent du dictionnaire, surveiller le défilement des trois lignes de textes à l’écran (certaines applications exigent même que le sous-titreur fasse basculer les sous-titres du bas vers le haut de l’écran), et tout cela en direct, dans l’instantanéité de la communication orale e sans filet de sécurité. Il ne peut y arriver sans une intelligence alerte et un sens aigu de la communication. On comprend que, travaillant en tandem, les sous-titreurs aient besoin de se relayer toutes les vingt minutes, comme les interprètes de conférence.

La séance de sous-titrage proprement dite est précédée d’une étape de « préproduction », comme on dit dans le jargon en usage au CRIM, au cours de laquelle le sous-titreur se renseigne sur les sujets chauds de l’heure les plus susceptibles d’être abordés à la Chambre des communes. Il alimente le vocabulaire de termes nouveaux et actualise le système avant d’entrer en ondes. Tous les soirs, un algorithme procède à un dépouillement automatique de sites Web francophones et consigne dans la base lexicale tous les termes nouveaux n’y figurant pas (le nom des membres d’équipage ayant péri dans un accident d’avion, par exemple). Après chaque séance, le sous-titreur fait de la « postproduction » et réécoute ses enregistrements n les comparant à la transcription et il apporte les corrections nécessaires (un accord grammatical, par exemple). Les mots nouveaux sont ajoutés au dictionnaire.

Le système STDirect présente un avantage non négligeable par rapport à la sténotypie : le partage de l’information. Un sténotypiste construit ses propres bases de données et celles-ci ne sont utilisables que par lui seul, tandis que les bases de données de STDirect sont exploitables par tous les sous-titreurs vocaux, à la seule condition que le système puisse reconnaître leur voix. On peut faire un parallèle avec les fichiers personnels que les traducteurs gardaient jalousement pour leur usage exclusif et les grandes banques publiques de terminologie aujourd’hui accessibles à des milliers d’usagers.

Un avenir prometteur

Le magazine L’Express avait prévu en 1984 que, au tournant de l’an 2000, près de 25 % de la population active exerceraient de nouveaux métiers, et que ces métiers s’appuieraient sur une nouvelle technologie. On avait vu juste. À la liste des nouvelles professions apparues ces récentes années – aquaculturiste, biogénéticien, cryologiste, concepteur d’animation 3D, créateur de logiciel, infographiste, terminologue – s’ajoute la nouvelle profession de sous-titreur vocal.

Le sous-titreur vocal est un intermédiaire dans la chaîne de la communication, tout comme le sont l’interprète et le traducteur. Après avoir réussi un examen de français rigoureux et un test de dextérité (manipulation de la manette), il lui faut passer une quarantaine d’heures à apprivoiser l’environnement particulier du sous-titrage avant d’être fonctionnel. Une dizaine d’heures d’enregistrement audio sont nécessaires pour calibrer les modèles acoustiques du logiciel de reconnaissance vocale au timbre de sa voix.

Par la suite, l’apprentissage est continu et, comme pour toute autre profession, l’expérience s’acquiert au fil des années. « Le métier de sous-titreur vocal n’est pas un simple travail occasionnel que l’on peut faire pour payer ses études. Il faut s’y engager dans une perspective de long terme », affirme Karyn Chartrand, qui pratique cette profession depuis 2006. Il est possible de faire carrière comme sous-titreur vocal et il est permis de croire que le nombre de postes ira en augmentant. Cette progression suivra le rythme d’implantation de la nouvelle technologie dans les organismes de télédiffusion et de production. Le sous-titrage peut aussi se révéler, accessoirement, un moyen d’apprentissage linguistique pour les nouveaux immigrants.

Au début, le sénateur Gauthier souhaitait que le sous-titrage soit assuré par des sténotypistes et il ne cachait pas son scepticisme à l’égard du sous-titrage en direct par reconnaissance vocale. Son attitude a changé lorsqu’il a constaté la qualité du produit. En deux ans, le taux d’exactitude du sous-titrage de la période des questions s’est constamment amélioré; actuellement, il dépasse en moyenne les 94 %. Une réussite exceptionnelle. La qualité du système STDirect a valu à ses concepteurs plusieurs prix : Prix IWAY (2004), Prix OCTAS (2005), Prix Innovation (2005) et Prix CATA Alliance Innovation (2005).

« Tous les clients ont des besoins spécifiques en matière de sous-titrage, indique Julie Brousseau. Le partenariat que le CRIM a conclu avec le Bureau de la traduction et la Chambre des communes en vue de sous-titrer la période des questions a permis de faire des avancées technologiques importantes, car la pression était forte pour atteindre un niveau de performance élevé. Le contexte d’utilisation se prêtait bien au développement de cette technologie novatrice. » Il est maintenant question d’un essaimage, c’est-à-dire de la création d’une entreprise de service de sous-titrage en direct, ce qui devrait contribuer à mieux faire connaître cette nouvelle technique et à en répandre l’usage. Il n’est pas dans le mandat du CRIM, institut de recherche d’abord et avant tout, de commercialiser de tels services. Il n’est pas dit qu’un jour le Bureau de la traduction n’aura pas lui aussi une équipe permanente de sous-titreurs vocaux. Après tout, la Chambre des communes n’est-elle pas la seule institution au pays à présenter ses débats sous-titrés en direct dans les deux langues officielles?

Remarque

Retour à la remarque 1* Il ne sera pas question ici du sous-titrage au cinéma ou dans les salles de nouvelles, ni du sous-titrage en différé d’émissions télévisées, mais exclusivement du sous-titrage vocal en direct de la période des questions à la Chambre des communes.

Notes