André Guyon
(L'Actualité langagière, volume 9, numéro 2, 2012, page 22)

Dans une chronique précédente*, j’ai souligné à quel point une recherche sur les mots-clés fait toute la différence. Je voudrais maintenant attirer votre attention sur des éléments de tous les jours comme les particules « non significatives », qui pourraient vous aider à mieux comprendre les moteurs de recherche comme tels, mais aussi la recherche intégrée aux outils des langagiers.

Les mots vides

Les utilisateurs chevronnés de TERMIUM Plus® connaissent bien le concept. Ils savent qu’il ne sert à rien d’employer des mots vides – des petits mots omniprésents comme les articles et les prépositions, ou les déterminants si vous avez appris la nouvelle grammaire – dans leurs recherches. On qualifie ces mots de vides parce qu’ils portent peu de sens et servent principalement de charnières dans la phrase.

Ainsi, dans TERMIUM Plus®, une recherche à l’aide de la clé « termes anglais » ramène le même résultat, qu’on cherche « government in Canada » ou « Government of Canada ». Surpris? Sachez que la banque de données terminologiques du gouvernement du Canada est loin d’être la seule à procéder de la sorte!

C’est voulu. Mais pourquoi? Tout simplement parce que l’indexation de mots extrêmement fréquents ralentit substantiellement la plupart des index.

À la limite, la recherche d’une expression comme « oui mais » ou « one of the » peut facilement prendre cent, voire mille fois plus de temps que la recherche d’une expression constituée de deux mots « significatifs ».

De nos jours

Les machines et les logiciels sont plus que jamais performants. Par conséquent, les concepteurs de nouveaux produits choisissent souvent, dans un premier temps, de limiter les index, puis de les accroître graduellement pour y inclure les nombres et les mots vides, selon les moyens disponibles.

Longueur des expressions recherchées et effets fascinants des répétitions

Vous le savez, Google indexe des milliards de documents en anglais. Amusons-nous à chercher plus que deux ou trois mots dans le moteur le plus utilisé de la planète.

Je vais énoncer une lapalissade : plus une phrase est longue, plus elle est rare, même dans un corpus gigantesque. Est-ce vrai seulement pour les phrases de 100 mots? Est-ce vrai aussi pour les phrases de 20 mots? Pour celles de 15? Voyons voir…

Dans Google, lançons une recherche exacte sur la chaîne de mots suivante : “Why doesn’t she love”.

Nous devrions trouver près de 1, 5 million de résultats. Ajoutons le mot « me »; nous devrions obtenir environ la moitié des résultats (876 000). Ajoutons maintenant le mot « anymore »; ça passe à 125 000. Nous avons ici une phrase extrêmement courante. Ajoutons maintenant « like », et on arrive à un maigre 913 résultats.

Le plus fascinant, c’est que la plupart des 913 occurrences font partie de la phrase « Why doesn’t she love me anymore like I love her? ».

Coup de chance? Essayons maintenant à partir de « The history of Canada », puis ajoutons « is », puis « not », puis « quite ». Nous obtenons quelques milliers de résultats dont la plupart semblent pointer vers la phrase « The history of Canada is not quite as explosive ».

Qu’est-ce que ça prouve? Tout simplement que, passé une certaine longueur, une phrase, même dans un corpus gigantesque, se retrouvera généralement dans des contextes identiques ou très semblables.

Bref, la longueur des phrases recherchées suffit probablement à remplacer bon nombre des mécanismes complexes mis en place qui préoccupent tant de chercheurs du Web sémantique sur le plan du classement des documents.

Conseil à mes collègues langagiers

En plus d’employer les bons mots-clés, allongez les expressions recherchées, quitte à les raccourcir si vous ne trouvez rien.

Évidemment, si un moteur permet en outre une recherche en cascade, le résultat sera encore meilleur.

Une recherche en cascade part d’un ensemble ciblé (par exemple, un corpus en particulier), mais quand la recherche n’a rien donné avec les critères initiaux, on l’étend à l’ordre de préférence de l’utilisateur.

Je pense que le Bureau de la traduction voudra probablement suivre une telle logique dans les outils destinés à ses langagiers. Par exemple, l’utilisateur d’un outil de terminologie partagé pourrait chercher d’abord dans ses propres fiches, puis dans les fiches de son groupe de travail, puis dans celles d’autres équipes qui travaillent dans des domaines semblables, puis faute de mieux, dans l’ensemble complet des fiches.

Phrase trouvée n’équivaut pas toujours à phrase utilisée. Quelle est l’économie réelle?

Trop souvent, les concordanciers bilingues et les mémoires de traduction à base de bitextes donnent des résultats fondés sur le nombre de recherches qui ont ramené des résultats (par opposition aux recherches infructueuses), et leurs concepteurs concluent que ce qui fut trouvé sera utilisé, donc que c’est autant d’économie. On ira même jusqu’à chiffrer le temps économisé, souvent sans aucune mesure sérieuse.

Il y a économie quand une ancienne façon de chercher aurait été plus longue si et seulement si le résultat est utilisable. Tout calcul qui ne tient pas compte d’environ 20 à 25 % de recherches fructueuses qu’on n’utilisera pas est fait avec des lunettes roses. De cette économie, il faut déduire les recherches infructueuses qui auraient été plus rapides si elles avaient été faites autrement. Je préfère toujours les calculs qui prévoient une marge substantielle de résultats non utilisés.

Retour à la remarque 1* Voir « Chroniques de langue Ma quête d’information en 2010 », L’Actualité langagière, vol. 7, no 2 (juin 2010).