André Guyon
(L'Actualité langagière, volume 9, numéro 3, 2012, page 26)

Selon nos partenaires du Conseil national de recherches du Canada (CNRC), ce dont je vais vous parler est presque du réchauffé. Selon moi, c’est passé complètement sous le radar des langagiers.

La traduction automatique (TA) donnera souvent des phrases d’aussi bonne qualité, voire meilleures, que celles de la mémoire de traduction quand on a affaire à des correspondances floues* de haute qualité (pourcentage de correspondance élevé).

Selon ce qu’ils nous disaient, cet énoncé vaut pour les correspondances floues allant de 85 % à 98 %, ou quelque chose du genre, si ma mémoire est bonne. Je reviendrai sur ces chiffres plus loin.

Les chercheurs nous avaient souvent dit que le texte qui se traduit bien à la machine, c’est typiquement celui pour lequel la mémoire de traduction donne beaucoup de résultats.

J’avais tendance à me demander : « D’accord, mais pourquoi alors fouiller dans la TA quand je suis déjà bien servi par la mémoire? » À qualité égale ou inférieure, désolé pour la TA, mais je m’en fiche complètement!

Quand ils nous ont mentionné l’an dernier que dans bien des cas, la qualité est meilleure, ça dépassait le champ de la recherche pure! C’est exactement mon mandat d’essayer de trouver l’utilisation optimale des meilleurs outils.

Est-il vrai que la TA peut donner de meilleures ébauches de phrases qu’une bonne correspondance floue? Le cas échéant, à quelle fréquence? Est-ce simplement parce que la TA, contrairement aux mémoires de traduction, peut reconstituer des parties de phrases redondantes?

J’ai donc demandé des exemples de sorties aux chercheurs du CNRC qui, hélas, n’avaient pas conservé les données. Je gardais donc l’esprit ouvert, mais je n’allais pas passer mon temps à tenter de confirmer ou d’infirmer la chose.

Puis, pendant que je cherchais des moyens d’améliorer les mémoires de traduction et que je comparais par curiosité les résultats avec ceux de nos moteurs de traduction faits à partir du système PORTAGE du CNRC et de nos corpus, ma surprise fut triple :

  1. J’ai trouvé de nombreux cas où la sortie de la machine demandait moins de révision que celle d’une gigantesque « mémoire » dont je dispose (près d’un milliard de mots).
  2. Contrairement à ce que le CNRC aurait voulu comme paramètres idéaux pour un test, la mémoire et le moteur de TA ne contenaient pas rigoureusement la même chose, mais les résultats sont là quand même… En fait, nos moteurs ne sont même pas parfaitement optimisés (regroupement de textes semblables seulement).
  3. Ça reste souvent vrai même pour des phrases dont le seuil de redondance** est de 70 %.

Je ne dis pas que, dans tous les cas, la TA donne de meilleurs résultats. Mais je ne dis pas le contraire non plus. Je précise simplement qu’à l’heure actuelle, on se priverait de sorties intéressantes si on ne mettait pas la TA aussi à contribution.

Voici donc quelques exemples probants dans l’un ou l’autre cas. Je n’ai pas encore compilé de statistiques et je n’ai pas vraiment l’intention de le faire pour l’instant. J’ai vu suffisamment de cas où le résultat de la TA est aussi bon sinon meilleur que celui de la mémoire.

J’ai même pu vérifier que si je voulais rassembler les morceaux à l’aide d’un algorithme simple à partir de la mémoire, ça ne donnerait pas toujours de meilleurs résultats non plus.

Voici un cas où la mémoire donne un meilleur résultat que nos moteurs; la TA donne aussi un excellent résultat.

La phrase à traduire :

In the 3rd quarter of 2011-2012, the performance of Real Property projects over $30M is close to the Performance Measure Target of 90% of the projects meeting or exceeding their approved project parameters.

Voici ce que la gigantesque mémoire contient de plus proche (en gras dans la colonne de gauche, les différences; dans la colonne de droite, ce que je modifierais).

Anglais Français
In the 2nd quarter of 2011-2012, the performance of Real Property projects over $30M is in line with the Performance Measure Target of 90% of the projects meeting or exceeding their approved project parameters. Pour le deuxième trimestre de 2011-2012, le rendement des projets immobiliers de plus de 30 M$ est conforme à l’objectif de mesure du rendement voulant que 90 % des projets respectent leurs paramètres approuvés ou les dépassent.

Traduction du moteur de TA du Bureau (réalisé à l’aide de PORTAGE du CNRC) :

(en gras, les parties que je modifierais pour que la traduction soit valable)

Au cours du 3e trimestre de 2011-2012, l’exécution de projets immobiliers de plus de 30 M$ est près de la mesure du rendement cible de 90 % des projets en respectant ou en dépassant les paramètres de projet approuvés.

Traduction de Google Traduction :

Au 3ème trimestre de 2011-2012, la performance des projets immobiliers sur 30 millions de dollars est proche de la cible Mesure du rendement de 90% des projets atteignent ou dépassent leurs paramètres des projets approuvés.

Maintenant, voici un exemple où la TA demanderait moins d’interventions que le contenu récupéré de la mémoire :

Four of the ‘At Risk’ projects have had no change in overall performance rating since September 30th, 2011.

Les deux phrases les plus ressemblantes de la mémoire de traduction :

Anglais Français
These three ‘At Risk’ projects have had no change in overall performance rating since March 31st 2011. La note de rendement de ces trois projets, qui sont considérés comme étant « à risque », n’a pas changé depuis le 31 mars 2011.
Three of the ‘At Risk’ projects have had no change in overall performance rating since June 30th, 2011. La cote de rendement de trois projets considérés comme étant « à risque » n’a pas changé depuis le 30 juin 2011.

Traduction du moteur du Bureau :

Quatre des projets « à risque » n’ont aucun changement dans la cote de rendement globale depuis le 30 septembre 2011.

Ici, il suffit d’ajouter le mot « connu » entre les deux mots en gras, et le tour est joué. Il me semble donc que c’est la « meilleure » solution, mais je ne prétends pas être un spécialiste du domaine.

Traduction de Google Traduction :

Quatre «à risque» des projets n’ont pas eu changement de notation de la performance globale depuis Septembre 30th, 2011.

Voici enfin un dernier cas où, vraiment, j’ai été épaté :

Moreover, the revised Client Feedback Questionnaire (CFQ) includes the eight core questions of the Common Measurement Tool (CMT) recommended by the Treasury Board Secretariat.

Traduction du moteur du Bureau :

De plus, la version révisée du questionnaire de rétroaction des clients (CFQ) comprend les huit questions fondamentales de l’outil de mesures communes (OMC) recommandée par le Secrétariat du Conseil du Trésor.

Traduction de Google Traduction :

En outre, le questionnaire du client révisé Commentaires (CFQ) comprend les questions fondamentales huit de l’outil de mesures communes (OMC) recommandés par le Secrétariat du Conseil du Trésor.

Ce que je trouve dans la mémoire :

Anglais Français
In addition, the Client Feedback Questionnaire (CFQ) is being revised to include the eight core questions of the Common Measurement Tool (CMT) recommended by the Treasury Board Secretariat. De plus, nous sommes à réviser le questionnaire de rétroaction de la clientèle afin d’y inclure les huit questions fondamentales de l’Outil de mesures communes (OMC) recommandées par le Secrétariat du Conseil du Trésor (SCT).

J’ai beau ne pas être un spécialiste du domaine, je peux constater que la phrase produite par le moteur de TA est à peu près impeccable.

Et j’en ai vu d’autres, beaucoup d’autres.