Kim Lacroix
(L'Actualité langagière, volume 9, numéro 4, 2013, page 8)

Savoir établir et utiliser des corpus est un élément essentiel de la compétence traductionnelle moderne…
Krista Varantola (2003)

Pour traduire efficacement, il faut avoir une bonne connaissance non seulement de la langue cible, mais également de la langue source. Et l’un des meilleurs outils pour se familiariser avec une langue – ses caractéristiques et ses caprices, ses tournures complexes, ses expressions idiomatiques et ses cooccurrents – est le corpus.

Les corpus sont des ressources utilisées depuis longtemps en traduction. Les linguistes s’en servent pour étudier les cooccurrences et l’évolution de la langue et, de nos jours, la plupart des traducteurs les utilisent au quotidien (peut-être même sans le savoir!).

Mais qu’est-ce qu’un corpus, au juste? Il s’agit d’une collection de documents qui ont été rassemblés pour un usage en particulier. Aujourd’hui, les documents d’un corpus sont surtout électroniques et l’on utilise des programmes appelés concordanciers pour faciliter le dépouillement de ces documents. Un concordancier extrait toutes les occurrences d’un élément de recherche donné, avec leurs contextes immédiats, et les affiche dans un format facile à lire. Les corpus (et les concordanciers) peuvent être unilingues ou bilingues. J’expliquerai en quoi ces deux types de corpus peuvent être utiles aux traducteurs professionnels.

Les corpus bilingues

La plupart des cabinets de traduction (sinon tous) conservent les traductions qu’ils ont produites. Une fois réunis, ces documents archivés forment un corpus bilingue (aussi appelé corpus parallèle) que les traducteurs peuvent utiliser comme référence ou pour voir, par exemple, comment un mot ou un passage a été traduit dans le passé. Pour améliorer l’efficacité de la recherche, les concordanciers bilingues alignent les versions anglaise et française d’un document, section par section. Ainsi, quand on utilise un concordancier, on voit immédiatement la version traduite du passage recherché dans les résultats.

En plus des corpus internes qu’on peut constituer à partir de ses propres traductions, il existe des corpus en ligne qui, au moyen de concordanciers bilingues, affichent aussi des résultats alignés. Ces corpus ont été établis par des humains, généralement à partir de documents publics, et tout le monde peut les utiliser gratuitement. Lorsqu’on sait que le contenu d’un corpus fait l’objet d’un contrôle par des humains, on peut généralement se fier aux usages anglais et français qu’il contient et s’en inspirer dans ses traductions*.

Les corpus unilingues

Il est assez facile de voir en quoi des documents appariés à leur traduction peuvent être utiles aux traducteurs. Mais qu’en est-il des corpus unilingues? Les traducteurs peuvent (et devraient) les utiliser pour étudier le fonctionnement et les usages d’une langue.

Le corpus unilingue le plus facile à utiliser est sans doute le Web (dans lequel on peut chercher avec Google). Combien de traducteurs utilisent un moteur de recherche comme Google pour trouver le sens d’une expression inconnue, vérifier si une expression est courante dans un domaine en particulier ou trouver les bons cooccurrents d’un terme ou d’une expression? Lorsque vous effectuez une recherche pour l’une ou l’autre de ces raisons, vous utilisez le Web en tant que corpus. Google a de nombreux avantages, mais comporte aussi certains risques.

Les principaux avantages d’une telle utilisation de Google sont : a) la taille du corpus (le Web est énorme!) et b) la vitesse à laquelle Google fournit les résultats d’une recherche. Pour savoir rapidement si un terme ou une expression existe – où que ce soit –, Google peut faire l’affaire. Il permet également de chercher de nouveaux termes et expressions qui sont d’usage récent. En ce qui concerne la fréquence d’emploi d’une expression, Google peut vous en donner une bonne idée, mais vous ne pouvez pas vous fier aveuglément au « nombre de résultats » que fournit le moteur de recherche. Pourquoi? Parce que le nombre indiqué sur la première page de résultats n’est en fait qu’un nombre estimatif. Parfois, si vous actualisez la page ou cliquez sur la deuxième, la cinquième ou la vingti&egrae;me page, vous verrez que le « nombre de résultats » n’est plus le même; Google a révisé son estimation. Vous remarquerez peut-être aussi que tous les résultats d’une page proviennent du même site ou de pages identiques qui ont été copiées d’un site à un autre. Ainsi le nombre de résultats vous donne une idée générale de la fréquence d’un terme, mais n’est jamais aussi fiable que celui fourni par le concordancier.

L’autre inconvénient de Google est que vous ne connaissez pas le contenu du corpus. Quiconque peut créer une page Web, et Google indexe toutes sortes de pages : des sites sérieux bien écrits, mais aussi des blogues et des sites personnels, des sites de vente, des pages pourriels, etc. On ne peut pas toujours se fier à la qualité de la langue utilisée dans ces sites. Par ailleurs, de nombreuses pages ont été rédigées par des locuteurs qui n’écrivent pas dans leur langue maternelle et peuvent contenir des expressions non idiomatiques. Faites-en l’expérience : tapez « les de » dans Google, entre guillemets. En vous fondant sur le nombre de résultats obtenus, pouvez-vous conclure que l’expression « les de » est courante et correcte en français?

Dans un corpus anglais valide – un corpus unilingue contenant des documents rédigés par des locuteurs de langue maternelle anglaise –, vous pouvez trouver comment une expression doit être employée et ce qu’elle signifie. Les corpus unilingues en langue source fournissent des informations linguistiques et encyclopédiques sur des termes et des expressions que vous devez traduire. Parfois, les définitions des dictionnaires ne sont pas suffisantes! Examiner les différents contextes dans lesquels ces termes et expressions sont utilisés aide à clarifier leur sens. Vous pourrez aussi y trouver d’autres cooccurrents, avoir une meilleure idée du niveau de langue d’une expression ou voir dans quel domaine un terme ou une expression sont utilisés, ce qui aide à orienter votre recherche.

Il va sans dire qu’un corpus unilingue français peut aussi être utile. Un corpus en langue cible peut vous aider à trouver les cooccurrents de différents termes et expressions (et ainsi à rédiger de façon plus idiomatique), à déterminer les expressions les plus couramment employées (à moins de traduire de la littérature, il faut employer des expressions courantes, et non obscures), à reconnaître des calques dans vos textes (si l’expression ne figure pas dans votre corpus, c’est peut-être qu’elle n’est pas idiomatique!) et à établir le sens « courant » d’un terme ou d’une expression (le sens qu’on lui donne actuellement par opposition au sens figurant dans les dictionnaires).

Les traducteurs sont des langagiers qui doivent connaître le fonctionnement de la langue pour l’utiliser efficacement et produire des traductions fidèles et idiomatiques. Les corpus bilingues et unilingues font partie de l’arsenal du traducteur des temps modernes, tout comme les dictionnaires et les bases de données terminologiques. Ne sommes-nous pas chanceux d’avoir tous ces outils à notre disposition?

Exemples de corpus unilingues en ligne

Remarques