André Guyon
(L'Actualité langagière, volume 6, numéro 2, 2009, page 26)

Je fais partie des vieux infolangagiers qui se sont demandé comment ils pourraient utiliser les nouvelles technologies qu’ils ont vu naître.

Mon rapport à la reconnaissance vocale est un paradoxe. Je la trouve fascinante depuis bientôt 15 ans, mais je ne l’ai jamais intégrée complètement à mon travail.

J’ai pourtant consacré plus de temps à ce type de logiciels qu’à la plupart des autres catégories d’applications. J’ai fait mes premiers pas vers 1995 avec un logiciel qui ne comprenait que l’anglais et un micro très moche. Via Voice d’IBM me forçait à faire une pause à chaque mot.

Le logiciel était fourni « gratuitement » avec un ordinateur qui se vendait environ quatre mille dollars. Je m’en suis servi un peu pour programmer, mais je n’envisageais pas vraiment de m’en servir pour traduire ni même pour écrire mes courriels.

Au fil des ans, j’ai fait de nouveaux tests. Chaque fois, j’ai constaté de nettes améliorations. Toutefois, pour une foule de raisons (paresse comprise, peut-être…), je n’ai jamais jugé que le temps était venu de me servir de cet outil pour traduire.

Parmi les améliorations les plus remarquables, la fréquence d’échantillonnage1, qui a augmenté considérablement, la dictée en continu en lieu et place du mode saccadé évoqué plus tôt, et l’intégration assez complète aux logiciels de traitement de texte.

Les deux principaux concurrents étaient Via Voice d’IBM et Dragon de Nuance (qui a changé de propriétaire quelques fois). Dragon, qui a été le premier à offrir la dictée en continu, a accaparé la grosse part du marché.

Pendant la pause des fêtes 2008-2009, j’ai décidé de faire un nouvel essai. Je me suis donc procuré la version la plus récente (la 10e), dite « Preferred », de Dragon. Voici ce que j’ai vécu.

Comme à chaque essai, j’ai constaté des progrès. Suivant mon habitude, je me demande s’il reste du travail à faire ou si tout le monde adoptera la technologie. Évidemment, les chroniqueurs sont certains que le commun des mortels utilisera bientôt la reconnaissance vocale, notamment Dragon. Ils avaient écrit la même chose à quelques reprises entre 2000 et 2009.

Vous me pardonnerez de vous dire que, cette fois, un plus grand nombre de langagiers pourraient adopter la reconnaissance vocale, pour les raisons suivantes :

  1. La technologie est maintenant livrée en standard avec le système d’exploitation de Microsoft (du moins avec la version 64 bits de Vista).
  2. Il est de plus en plus difficile de trouver des personnes qui font une bonne saisie de la dictée.

Je possède un ordinateur récent doté du système d’exploitation Vista 64 bits (il existe aussi en version 32 bits). Avant d’acheter le logiciel, j’ai vérifié sur la boîte, et on indiquait qu’il fonctionne avec Vista, mais on ne précisait pas quelle version.

En informatique, on doit toujours présumer que ce qui n’est pas écrit n’existe pas. Le logiciel que j’ai acheté ne fonctionnait pas sur la plate-forme 64 bits de Vista.

Je me suis donc rabattu sur mon PC de rechange muni du système d’exploitation Windows XP. Cette fois, j’ai réussi à installer Dragon, mais au prix d’efforts substantiels. Entre autres, j’ai eu le privilège d’aller fouiller dans la « base de connaissances2 » de la compagnie.

Le logiciel est toujours vendu avec un casque de dictée dont la qualité n’atteint même pas le niveau moche3. Paradoxalement, le logiciel vérifie maintenant que la qualité du son saisi est suffisante avant de laisser l’utilisateur commencer l’entraînement.

C’est une bonne idée qui évite des déceptions. Dans un moment de folie incroyable, j’ai tout de même essayé avec le casque fourni : le logiciel répondait que la qualité sonore n’était pas suffisante. J’ai donc utilisé un casque de clavardage qui m’a permis cette fois d’atteindre la qualité jugée satisfaisante par le logiciel et il m’a autorisé à continuer.

Une fois cette étape franchie, l’application demande à l’utilisateur de lire une phrase ou deux. L’entraînement va commencer. Hélas, j’ai un accent de Montréal, et Dragon s’attend à entendre un accent de Paris. J’ai donc été forcé de recommencer à quelques reprises avant de penser à simuler un peu l’accent parisien. Le subterfuge a fonctionné : le logiciel de reconnaissance vocale m’a donné le feu vert pour continuer.

Après la lecture du texte, qui prend deux ou trois minutes, le logiciel a constitué ses modèles de reconnaissance vocale. Cette fois, le « dragon » m’autorise à commencer la dictée proprement dite.

Grâce à l’éditeur spécial du logiciel, je peux maintenant apprendre au logiciel à s’adapter à mon accent en particulier. Cette étape n’est pas obligatoire, mais elle permet vraiment de réduire presque à néant le nombre de fautes de saisie.

Je peux également montrer de nouveaux mots à Dragon, par exemple mon nom de famille ou le prénom de mes enfants.

Je dirais qu’avec cette version (la 10e), j’ai obtenu en deux heures à peu près le même résultat qu’en dix heures la dernière fois. C’est très encourageant.

La version Preferred permet d’inscrire plusieurs profils, et même de travailler en anglais. Ça tombe bien, car il m’arrive souvent d’avoir à écrire en anglais.

J’ai donc tenté de créer un utilisateur AndréEN. Le logiciel n’a eu aucune objection quant au nom du profil.

Cependant, il a aimé mon accent en anglais encore moins que mon accent en français. Il ne m’a donc jamais permis de passer au petit texte d’entraînement, même quand j’ai essayé la flatterie et les menaces.

Tant qu’un infolangagier respire, il cherche le moyen de résoudre les problèmes auxquels il est confronté. J’ai vu que le logiciel avait prévu une fonction pour locuteurs hispanophones. J’ai donc essayé cette option. Cette fois, Dragon a bien voulu tolérer mon accent en anglais. Me voilà donc à la fois ravi du résultat, mais jaloux du traitement accordé aux hispanophones par rapport à ce qu’il offre aux francophones.

L’exercice de correction est un révélateur cruel et très précis des fautes de dictée généralement corrigées à la saisie. Un interlocuteur humain tolère des fautes de prononciation qui feront trébucher le logiciel de reconnaissance vocale.

Par exemple, un jour où j’ai dicté un peu vite « au moment et à l’heure qui vous conviendront le mieux », j’ai vu apparaître à l’écran « la maman et le beurre qui vous conviendront le mieux ». À l’inverse, quand une copiste avait entendu « le système a tété réinitialisé » au lieu de « a été réinitialisé », elle avait ri un peu, puis avait tout simplement corrigé.

Quand on revient sur un mot ou un groupe de mots mal saisis, on peut écouter ce qu’on avait dicté et choisir une des corrections proposées, ou encore montrer au logiciel comment écrire ce qu’on vient de dicter.

Une des « nouveautés » intéressantes depuis quelques années, c’est qu’on peut dicter un texte dans un appareil de saisie, puis le connecter au logiciel. D’aucuns pourraient en conclure qu’on peut maintenant dicter dans l’autobus, le métro ou l’avion, mais ce n’est pas une très bonne idée si vous n’avez pas entraîné le logiciel dans ce même environnement.

En effet, les bruits constants comme le ventilateur de mon ordinateur ne causent aucun souci. Par contre, la toux féroce du voisin ou la narration à haute voix de ses vacances peuvent provoquer des résultats inattendus.

Les gens comme moi, qui sont distraits et ne voient pas ce qu’ils ont écrit mais plutôt ce qu’ils voulaient écrire, ont avantage à faire relire leur texte ou à le laisser reposer quelques jours.

En conclusion, les langagiers qui aiment la dictée devraient assurément s’intéresser à la reconnaissance vocale et investir dans un bon micro unidirectionnel (qui ne capte le son qu’en provenance d’une source bien précise et non tous les bruits ambiants).

Le dicteur moyen peut facilement atteindre une vitesse nette de 70 mots à la minute. C’est deux fois la vitesse réelle de saisie de la plupart des gens4.

Par contre, le fait que les traducteurs travaillent souvent en mode écraser pose un défi loin d’être facile à relever. S’il existait des macros qui permettraient de se déplacer dans le texte, sélectionnant phrase après phrase et remplaçant ce qui est sélectionné par ce qui est dicté, cela faciliterait l’utilisation du logiciel par la masse des traducteurs.

Évidemment, certaines personnes ne s’adapteront jamais au dictaphone ou à la reconnaissance vocale, qui ne sont tout simplement pas faits pour elles.

D’autre part, des collègues qui ne peuvent plus travailler au clavier se sont adaptés à la reconnaissance vocale et en sont rapidement devenus des virtuoses, ce qui prouve que la nécessité stimule l’apprentissage.

NOTES