André Guyon
(L'Actualité langagière, volume 7, numéro 2, 2010, page 30)

Une partie de mon travail consiste à trouver de l’information sur le Web. Il s’est écrit des millions de pages sur la recherche Web. J’avoue ne pas les avoir toutes lues, mais je pense que ma démarche pourrait intéresser quelques lecteurs.

Premièrement, je voudrais m’attaquer au mythe de la syntaxe. Au risque de perdre quelques amis, je tiens à vous dire que je trouve presque toujours ce que je cherche, sans trop me casser la tête avec la syntaxe.

L’expression exacte

Pour moi, c’est l’expression correcte qui est la clé. Je ne cherche généralement pas à l’aide de mots-clés mais bien d’expressions exactes. Les moteurs de recherche ont une fâcheuse tendance : ils donnent toutes les pages qui contiennent la totalité ou une partie des mots recherchés, pas nécessairement en séquence. Par exemple, si on cherche « affaire louche » (sans les guillemets), les moteurs donnent aussi les pages qui parlent à la fois d’affaires et de louches pour la soupe.

Pour mieux illustrer à quel point l’expression correcte est la clé, je suggère les deux recherches suivantes :

"Bureau de la traduction" Weidner

"Bureau des traductions" Weidner

Je cherche ici à connaître un peu les faits sur les essais de traduction automatique qui ont eu lieu avant mon arrivée au Bureau de la traduction. Fascinant, n’est-ce pas? Les plus âgés se souviennent certainement qu’à l’époque, c’était le Bureau des traductions, et non de la traduction.

Enfin, la recherche sans les guillemets donne non seulement ce qui m’intéresse, mais aussi bien d’autres choses qui ne m’intéressent pas. La recherche par expression exacte, quant à elle, donne surtout des pages qui m’intéressent.

La langue

Parfois, on va trouver dans une langue, mais pas dans une autre. Lapalissade, direz-vous? Je suis d’accord. J’ai cependant une anecdote.

Lors de conversations distinctes avec deux chercheurs (l’un possède une compagnie privée, l’autre travaille dans un centre de recherche) sur la reconnaissance vocale, les deux m’ont dit n’avoir rien trouvé au sujet de la productivité et de la dictée après que j’ai cité l’article de Mme Laroque-Divirgilio paru dans Meta en 1981.

Or, mes interlocuteurs avaient fait des recherches en anglais, même s’ils sont tous deux francophones. Dans la mouvance actuelle, on rédige tout ce qui compte en anglais*.

Bref, un petit tuyau aux absolutistes : demandez-vous d’où vient ce que vous cherchez – ce qui pourrait vous donner une indication de la langue dans laquelle le contenu aura été produit –, puis essayez de trouver quelqu’un qui parle cette langue pour lancer les recherches; au pis aller, utilisez les moteurs de traduction pour lancer votre recherche dans la langue voulue et interpréter les résultats.

En définitive, ma démarche dans l’arborescence électronique ressemble beaucoup à celle que j’utilisais dans une forêt urbaine de documents.

En 1980, je visitais les bibliothèques des universités. Maintenant, je visite le Web. Je commençais généralement par une recherche dans le fichier « sujets », puis je demandais aux bibliothécaires de m’aider à trouver mon chemin dans la jungle des tablettes. Je leur demandais aussi souvent conseil quant aux ouvrages recommandés.

Une fois ma récolte déposée sur une table, je faisais une lecture superficielle qui me permettait de voir où j’avais le plus de chances de trouver ce que je cherchais. Je vérifiais si le livre était une œuvre originale ou une traduction, lisais le profil de son auteur, etc.

Ensuite, le vrai travail de recherche commençait : la lecture fébrile à la recherche de l’information qui me permettrait de mieux comprendre le sujet ou de trouver l’expression valable à utiliser dans ma traduction.

Plus tard, je validais mes choix grâce à mon réseau personnel. Ainsi, pour la traduction d’un texte sur les pluies acides en 1981, j’ai demandé à deux amis ingénieurs de me dire ce qu’ils pensaient de mon choix d’ouvrages et s’ils en avaient d’autres à me proposer. Je leur ai ensuite demandé de s’assurer que la traduction ne disait pas de faussetés.

Aujourd’hui, je fais encore appel aux mêmes personnes à l’occasion, mais plus souvent par l’intermédiaire des médias sociaux. J’ai tendance à limiter mon cercle d’amis et la taille de mes réseaux, et j’aimerais bien comparer l’efficacité de mon réseau personnel avec celui des gens qui ont des milliers d’amis sur Facebook.

Je ne sais pas encore si j’utiliserai Twitter ou Buzz un jour. Je me tiens au courant et j’évalue les possibilités.

En tant que spécialiste des technologies langagières, j’estime que les contacts les plus utiles pour moi sont les gens dans l’industrie, les chercheurs et, surtout, les utilisateurs de la technologie. Au besoin, je peux leur écrire pour valider ou invalider certaines hypothèses, parfois pour orienter un peu ce qui arrivera.

Depuis près d’un an, j’utilise les alertes Google pour me tenir au courant de ce qui se passe près de chez moi. Quand il y a des nouvelles touchant les projets qui m’intéressent (un projet résidentiel et un centre sportif), je reçois des courriels au sujet de faits assez récents. Bien entendu, la recherche est en anglais et en français…

Plus récemment, j’ai commencé à utiliser les alertes aussi pour les types de produits langagiers présentant de l’intérêt pour moi. Auparavant, j’utilisais beaucoup l’agent de recherche Copernic, qui me tenait au courant des changements sur des pages Web qui m’intéressent. Avec les fils RSS**, l’agent est devenu beaucoup moins utile.

Faire le tri

Une fois que j’ai trouvé des liens, c’est un peu comme quand j’avais une liste de livres à la bibliothèque. Je veux faire le tri en validant un peu la qualité du contenu. La personne qui a rédigé le contenu est-elle fiable? Le contenu semble-t-il bien écrit et facile à lire ou la lecture est-elle laborieuse? L’institution qui publie le contenu est-elle de grande renommée?

Une partie des liens pointera inévitablement vers Wikipédia. En général, les idées sont bien organisées dans les articles. Par contre, j’ai tendance à vérifier les références. J’hésiterais à indiquer Wikipédia comme source dans un rapport, car le contenu de l’article cité risque d’être complètement différent de ce qu’il était quand on lira mon texte.

Quand j’étais étudiant, on nous suggérait d’avoir toujours au moins trois sources d’information distinctes pour considérer une information comme valable; j’applique le même principe au contenu trouvé sur Internet. Et je me méfie du contenu où des auteurs passent leur temps à se citer eux-mêmes ou à se renvoyer l’ascenseur***.

Je suis aussi toujours à l’affût des conflits d’intérêts. Un véritable scientifique peut très bien s’être associé à la compagnie dont il fait l’éloge, être devenu son représentant, etc. Quand une compagnie publie les témoignages d’utilisateurs extrêmement satisfaits du nouveau produit qu’elle vient de mettre sur le marché, ces utilisateurs sont souvent ses propres employés! C’est un peu comme pour le courrier des lecteurs du premier numéro d’une nouvelle revue : c’est louche!

Les entreprises pharmaceutiques ont souvent d’excellents sites décrivant les maladies. Le contenu de ces sites est très fiable, sauf pour la partie traitement. Il faut savoir qui est le propriétaire du site pour comprendre quelle partie est probablement fiable et quelle partie est probablement moins impartiale.

Enfin, l’information que je cherche n’apparaît pas toujours, loin de là, dans les pages indexées par les moteurs de recherche. Encore une fois, apprendre à connaître l’organisation des sites qui m’intéressent me permet de fouiller plus profondément.

Par contre, je frappe parfois un mur infranchissable. Une partie de l’information est réservée à quelques privilégiés. Par exemple, tout le monde me parle de Wave de Google, mais personne n’y a accès. C’était la même chose quand le Google Translator Toolkit était en version bêta. On pouvait lire à ce sujet, mais presque personne n’y avait accès. J’essaie de voir si des gens de mon réseau personnel peuvent m’inviter, mais à l’heure actuelle, mes démarches n’ont pas été fructueuses, et je pense qu’elles ne l’auraient pas été davantage si j’avais eu des milliers d’amis sur un média social.

Lire, comprendre et synthétiser

Une fois que j’ai choisi les pages qui m’intéressent et que je me suis assuré que ces sources sont indépendantes les unes des autres, il ne me reste plus qu’à lire et à faire la synthèse de ce que j’ai lu. Évidemment, à l’occasion, j’ajouterai mon grain de sel.

Honnêtement, c’est long. Je dois lire attentivement le texte et voir s’il contient des indices qui me permettront, grâce à d’autres recherches, de trouver plus de renseignements d’une autre source. Les compagnies qui vendent des produits informatiques, par exemple, n’évoquent que très rarement leurs concurrents.

Par contre, une fois que je sais dans quelle catégorie ils situent leurs logiciels, je peux faire une recherche sur la catégorie et souvent trouver des comparatifs « indépendants ». Quand l’analyse indépendante est faite par un blogueur anonyme, c’est peut-être de la pub nouvelle où l’on mousse un produit en relatant les propos de gens qui n’existent pas.

La meilleure validation que je puisse faire, c’est de voir si des gens qui ne s’aiment pas beaucoup racontent la même chose. Par exemple, dans le domaine de la traduction automatique, il y a des années, j’avais entendu la même histoire au sujet d’un entrepreneur spécialisé en pannes (dont le système tombait en panne quand quelqu’un arrivait avec de vraies données à tester), mais racontée par des gens qui ne se parlent plus.

Si le sujet qui m’intéresse concerne aussi des utilisateurs, j’essaie d’entrer en contact avec eux; ils sont ma source la plus précieuse d’information. Au lieu de penser que quelque chose pourrait être bon pour des langagiers, je peux alors savoir pourquoi c’est bon, ce qu’il reste à améliorer, etc.

Voilà comment se résume ma quête d’information en 2010.

Remarques