Le Projet ARTFL (ARTFL: American and French Research on the Treasury of the French Language) est un projet commun du Centre national de la recherche scientifique (CNRS, France) et de l'Université de Chicago (Illinois, États-Unis). À l'origine, ce projet a pour but de constituer une base de données de 2.000 textes des 13e-20e siècles ayant trait à la littérature, la philosophie, les arts et les sciences.
En 1998, l'ARTFL travaille à la version en ligne exhaustive de la première édition (1751-1772) de l'Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d'Alembert. 72.000 articles rédigés par plus de 140 collaborateurs - dont Voltaire, Rousseau, d'Alembert, Marmontel, d'Holbach, Turgot, etc. - ont fait de cette encyclopédie un monumental ouvrage de référence pour les arts et les sciences. Destinée à rassembler puis divulguer les connaissances de l'époque, elle porte la marque des courants intellectuels et sociaux du 18e siècle, et c'est grâce à elle qu'ont été propagées les idées du Siècle des Lumières.
L'Encyclopédie comprend 17 volumes de texte - qui représentent 18.000 pages et 20.736.912 mots - et 11 volumes de planches.
La base de données correspondant au premier volume est accessible en ligne à titre expérimental. La recherche peut être effectuée par mot, portion de texte, auteur ou catégorie, ou par la combinaison de ces critères entre eux. On dispose de renvois d'un article à l'autre, au moyen de liens permettant d'aller d'une planche au texte ou du texte au fac-similé des pages originales. L'automatisation complète des procédures de saisie entraîne des erreurs typographiques et des erreurs d'identification qui sont ensuite corrigées au fil des mois. La recherche d'images par mot, portion de texte ou catégorie est également possible dans un deuxième temps.
L'ARTFL travaille aussi à un projet de base de données pour le Dictionnaire de l'Académie française, dont les différentes éditions se sont échelonnées entre 1694 et 1935. Ce projet inclut la saisie et l'édition du texte, ainsi que la création d'un moteur de recherche spécifique. La première édition (1694) et la cinquième édition (1798) du dictionnaire sont les premières à être disponibles pour une recherche par mot, puis pour une recherche en texte intégral. Les différentes éditions sont ensuite combinées dans une base de données unique, qui permet de juger de l'évolution d'un terme en consultant aussi bien une édition particulière que l'ensemble des éditions.
Les autres projets de l'ARTFL sont la version image de l'édition de 1740 du Dictionnaire historique et critique de Philippe Bayle, le Roget's Thesaurus de 1911, le Webster's Revised Unabridged Dictionary de 1913, le Thresor de la langue française de Jean Nicot (1606), un projet multilingue sur La Bible comprenant entre autres La Bible française de Louis Segond (1910), etc.
= Travlang
Travlang, site dédié à la fois aux voyages et aux langues, est créé par Michael C. Martin en 1994 sur le site de son université alors qu'il était étudiant en physique. Devenu chercheur au Lawrence Berkeley National Laboratory (Californie), Michael Martin poursuit la gestion de ce site devenu très populaire.
La section Foreign Languages for Travelers donne la possibilité d'apprendre les rudiments de soixante langues sur le web. La section Translating Dictionaries donne accès à des dictionnaires gratuits dans diverses langues (afrikaans, allemand, danois, espagnol, espéranto, finnois, français, frison, hollandais, hongrois, italien, latin, norvégien, portugais et tchèque). Ces dictionnaires sont le plus souvent sommaires et de qualité inégale. Le site offre aussi de nombreux liens vers des services de traduction, des écoles de langue, des librairies multilingues, etc.
Michael Martin écrit en août 1998: «Je pense que le web est un endroit idéal pour rapprocher les cultures et les personnes, et ceci inclut d'être multilingue. Notre site Travlang est très populaire pour cette raison, et les gens aiment le contact avec d'autres parties du monde. (…) L'internet est vraiment un outil important pour communiquer avec des gens avec lesquels on n'aurait pas l'occasion de dialoguer autrement. J'apprécie vraiment la collaboration générale qui a rendu possibles les pages de Foreign Languages for Travelers. (…) Je pense que les traductions intégrales informatisées vont devenir monnaie courante, et qu'elles permettront de communiquer à la base avec davantage de gens. Ceci aidera aussi à amener davantage l'internet au monde non anglophone.»
= Les projets de Tyler
Créée par Tyler Chambers en mai 1994, la Human-Languages Page est un catalogue détaillé de 1.800 ressources linguistiques dans une centaine de langues. Ces ressources sont classées dans plusieurs rubriques: langues et littérature, écoles et institutions, ressources linguistiques, produits et services, organismes, emplois et stages, dictionnaires et cours de langues.
Tyler Chambers mène aussi un autre projet relatif aux langues, l'Internet Dictionary Project, un projet coopératif ouvert à tous pour la constitution de dictionnaires en accès libre sur le web, de l'anglais vers d'autres langues (allemand, espagnol, français, italien, latin et portugais).
Comme expliqué sur le site web, «le but de l'Internet Dictionary Project est de créer des dictionnaires de traduction grâce à l'aide des internautes. Ce site permet aux usagers du monde entier de consulter et de participer à la traduction de termes anglais dans d'autres langues. Les listes de termes anglais et leurs correspondants dans d'autres langues sont ensuite mis à la disposition de tous sur ce site, sans restriction d'aucune sorte. (…) L'Internet Dictionary Project a débuté en 1995 pour combler une lacune et procurer des dictionnaires de traduction gratuits à la communauté des internautes et à tous ceux qui s'intéressent à l'informatique. Non seulement il est très utile d'avoir immédiatement accès à des dictionnaires par le World Wide Web, mais ceci permet aussi le développement de logiciels pouvant tirer parti de tels dictionnaires, que ce soit des programmes de traduction ou des vérificateurs d'orthographe ou encore des guides d'apprentissage des langues. En facilitant la création de ces dictionnaires en ligne par des milliers de volontaires, et en les mettant gratuitement à la disposition de tous, l'Internet Dictionary Project espère imprimer sa marque sur l'internet et susciter d'autres projets qui seront plus bénéfiques que de générer des revenus purement financiers.»
Tyler écrit en septembre 1998 lors d'un entretien par courriel: «Le multilinguisme sur le web était inévitable bien avant que ce médium ne se développe vraiment. Mon premier vrai contact avec l'internet date de 1994, un peu après ses débuts mais bien avant son expansion. 1994 a été aussi l'année où j'ai débuté mon premier projet web multilingue [The Human-Languages Page, NDLR], et il existait déjà un nombre significatif de ressources linguistiques en ligne. Ceci était antérieur à la création de Netscape. Mosaic était le seul navigateur sur le web, et les pages web étaient essentiellement des documents textuels reliés par des hyperliens. Avec l'amélioration des navigateurs et l'expérience acquise par les usagers, je ne pense pas qu'il existe une langue vivante qui ne soit pas maintenant représentée sur le web, que ce soit la langue des Indiens d'Amérique ou les dialectes moyen-orientaux. De même une pléthore de langues mortes peut maintenant trouver une audience nouvelle avec des érudits et autres spécialistes en ligne. À ma connaissance, très peu de jeux de caractères ne sont pas disponibles en ligne: les navigateurs ont maintenant la possibilité de visualiser les caractères romains, asiatiques, cyrilliques, grecs, turcs, etc. Accent Software a un produit appelé "Internet avec accents" qui serait capable de visualiser plus de 30 encodages différents. S'il existe encore des obstacles à la diffusion d'une langue spécifique sur le web, ceci ne devrait pas durer.»
En ce qui concerne les projets en ligne de Tyler: «Mon activité en ligne a été de rendre l'information linguistique accessible à davantage de gens par le biais de deux de mes projets sur le web [Human-Languages Page et Internet Dictionary Project, NDLR]. Bien que je ne sois pas multilingue, ni même bilingue moi-même, je suis conscient du fait que très peu de domaines ont une importance comparable à celle des langues et du multilinguisme. L'internet m'a permis de toucher des millions de personnes et de les aider à trouver ce qu'elles cherchaient, chose que je suis heureux de faire. (…) Dans l'ensemble, je pense que le web est important pour la sensibilisation aux langues et pour les questions culturelles. Dans quel autre endroit peut-on chercher au hasard pendant vingt minutes et trouver des informations susceptibles de vous intéresser dans trois langues différentes sinon plus? Les médias de communication rendent le monde plus petit en rapprochant les gens; je pense que le web est le premier médium - bien plus que le courrier, le télégraphe, le téléphone, la radio ou la télévision - à réellement permettre à l'usager moyen de franchir les frontières nationales et culturelles. (…) Notre monde est désormais suffisamment petit pour tenir sur un écran d'ordinateur.»
Comment Tyler voit-il l'avenir? «Je pense que l'avenir de l'internet réside dans davantage de multilinguisme, d'exploration et de compréhension multiculturelles que nous n'en avons jamais vu. Toutefois l'internet sera seulement le médium au travers duquel l'information circule. Comme le papier qui sert de support au livre, l'internet en lui-même augmente très peu le contenu de l'information. Par contre il augmente énormément la valeur de celle-ci dans la capacité qu'il a de communiquer cette information. Dire que l'internet aiguillonne le multilinguisme est à mon sens une opinion fausse. C'est la communication qui aiguillonne le multilinguisme et l'échange multiculturel. L'internet est seulement le mode de communication le plus récent qui soit accessible aux gens plus ou moins ordinaires. L'internet a un long chemin à parcourir avant d'être omniprésent dans le monde entier, mais il est vraisemblable que lui-même ou un médium de la même lignée atteigne ce but. Les langues deviendront encore plus importantes qu'elles ne le sont quand tout le monde pourra communiquer à l'échelle de la planète (à travers le web, les discussions, les jeux, le courrier électronique, ou toute application appartenant encore au domaine de l'avenir), mais je ne sais pas si ceci mènera à un renforcement des attaches linguistiques ou à une fusion des langues jusqu'à ce qu'il n'en subsiste plus que quelques-unes ou même une seule. Une chose qui m'apparaît certaine est que l'internet sera toujours la marque de notre diversité, y compris la diversité des langues, même si cette diversité diminue. Et c'est une des choses que j'aime au sujet de l'internet, c'est un exemple à l'échelle mondiale du dicton: "Cela n'a pas vraiment disparu tant que quelqu'un s'en souvient." Et les gens se souviennent.»
Au printemps 2001, la Human-Languages Page fusionne avec le Languages Catalog (Catalogue des langues), une section de la WWW Virtual Library, pour devenir iLoveLanguages. En septembre 2003, iLoveLanguages offre 2.000 ressources linguistiques dans une centaine de langues. Quant à l'Internet Dictionary Project, faute de temps, Tyler met fin à ce projet en janvier 2007, tout en laissant les dictionnaires existants tels quels sur le web pour consultation ou téléchargement.
= NetGlos
NetGlos - abrégé de The Multilingual Glossary of Internet Terminology - est lancé en 1995 à l'initiative du WorldWide Language Institute (WWLI). Il s'agit d'un projet coopératif en treize langues (allemand, anglais, chinois, croate, espagnol, français, grec, hébreu, hollandais/flamand, italien, maori, norvégien et portugais), avec la participation de nombre de traducteurs et autres professionnels des langues.
Brian King, directeur du WorldWide Language Institute, explique en septembre 1998: «Bien que l'anglais soit la langue la plus importante du web et de l'internet en général, je pense que le multilinguisme fait inévitablement partie des futures orientations du cyberespace. Voici quelques éléments qui, à mon sens, permettront que le web multilingue devienne une réalité:
1.
2.
3.
Une période intermédiaire précède bien sûr ce changement. Une grande partie de la terminologie technique disponible sur le web n'est pas encore traduite dans d'autres langues. Et, comme nous nous en sommes rendus compte dans NetGlos, notre glossaire multilingue de la terminologie de l'internet, la traduction de ces termes n'est pas toujours facile. Avant qu'un nouveau terme soit accepté comme le terme correct, il y a une période d'instabilité avec plusieurs candidats en compétition. Souvent un terme emprunté à l'anglais est le point de départ et, dans de nombreux cas, il est aussi le point d'arrivée. Finalement émerge un vainqueur qui est ensuite utilisé aussi bien dans les dictionnaires techniques que dans le vocabulaire quotidien de l'usager non spécialiste. La dernière version de NetGlos est la version russe, et elle devrait être disponible dans deux semaines environ [à savoir fin septembre 1998, NDLR]. Elle sera sans nul doute un excellent exemple du processus dynamique en cours pour la russification de la terminologie du web.
4.
5.
En ce qui concerne le WorldWide Language Institute, quelles sont les perspectives? «Comme l'existence de notre organisme est liée à l'importance attachée aux langues, je pense que son avenir sera excitant et stimulant. Mais il est impossible de pratiquer l'autosuffisance à l'égard de nos réussites et de nos réalisations. La technologie change à une allure frénétique. L'apprentissage durant toute la vie est une stratégie que nous devons tous adopter si nous voulons rester en tête et être compétitifs. C'est une tâche qui est déjà assez difficile dans un environnement anglophone. Si nous ajoutons à cela la complexité apportée par la communication dans un cyberespace multilingue et multiculturel, la tâche devient encore plus astreignante. Probablement davantage encore que par le passé, la coopération est aussi indispensable que la concurrence. Les germes d'une coopération par le biais de l'internet existent déjà. Notre projet NetGlos dépend du bon vouloir de traducteurs volontaires de nombreux pays: Canada, États-Unis, Autriche, Norvège, Belgique, Israël, Portugal, Russie, Grèce, Brésil, Nouvelle-Zélande, etc. À mon avis, les centaines de visiteurs qui consultent quotidiennement les pages de NetGlos constituent un excellent témoignage du succès de ce type de relations de travail. Les relations de coopération s'accroîtront encore à l'avenir, mais pas nécessairement sur la base du volontariat.»
= Logos
Fondé en 1979 à Modène (Italie) par Rodrigo Vergara, Logos est une société de traduction offrant des services dans 35 langues en 1997, avec 300 traducteurs travaillant sur place et un réseau mondial de 2.500 traducteurs travaillant en free-lance. La moyenne de production est de 200 textes par jour.
Fin 1997, Logos décide de mettre tous ses outils professionnels en accès libre sur le web. Le Logos Dictionary est un dictionnaire multilingue de 7,5 millions d'entrées. La Wordtheque est une base de données multilingue de 328 millions de mots, constituée à partir de milliers de traductions, notamment des romans et des documents techniques. La recherche dans la Wordtheque est possible par langue, par mot, par auteur ou par titre. Linguistic Resources offre un point d'accès unique à 553 glossaires. L'Universal Conjugator propose des tableaux de conjugaison dans 17 langues.
Annie Kahn, journaliste au quotidien Le Monde, publie le 7 décembre 1997 un article Les mots pour le dire, dans lequel Robert Vergara relate: «Nous voulions que nos traducteurs aient tous accès aux mêmes outils de traduction. Nous les avons donc mis à leur disposition sur internet, et tant qu’à faire nous avons ouvert le site au public. Cela nous a rendus très populaires, nous a fait beaucoup de publicité. L’opération a drainé vers nous de nombreux clients, mais aussi nous a permis d’étoffer notre réseau de traducteurs grâce aux contacts établis à la suite de cette initiative.»
Annie Kahn explique dans le même article: «Le site de Logos est beaucoup plus qu'un dictionnaire ou qu'un répertoire de liens vers d'autres dictionnaires en ligne. L'un des piliers du système est un logiciel de recherche documentaire fonctionnant sur un corpus de textes littéraires disponibles gratuitement sur internet. Lorsque l'on recherche la définition ou la traduction d'un mot, "didactique" par exemple, on trouve non seulement le résultat recherché, mais aussi une phrase d'une œuvre littéraire utilisant ce mot (en l'occurrence, un essai de Voltaire). Un simple clic permet d'accéder au texte intégral de l'œuvre ou de commander le livre grâce à un partenariat avec Amazon.com, le libraire en ligne bien connu. Il en est de même avec les traductions étrangères. Si aucun texte utilisant ce mot n'a été trouvé, le système fonctionne alors comme un moteur de recherche et renvoie aux sites web concernant ce mot. Pour certains termes, il est proposé d'en entendre la prononciation. Si une traduction manque, le système fait un appel au peuple. A chacun d'enrichir la base, les traducteurs de l'entreprise valident ensuite les traductions proposées.»
En 2007, la Wordtheque, devenue la Logos Library, comprend 710 millions de termes. Conjugation of Verbs, devenu l’Universal Conjugator, propose des tableaux de conjugaison dans 36 langues. Et Linguistic Resources offre un point d’accès unique à 1.215 glossaires.
= Dictionnaires imprimés en ligne
Le premier dictionnaire de langue française en accès libre est le Dictionnaire universel francophone en ligne, qui répertorie 45.000 mots et 116.000 définitions tout en présentant «sur un pied d’égalité, le français dit "standard" et les mots et expressions en français tel qu’on le parle sur les cinq continents».
Issu de la collaboration entre Hachette et l’AUPELF-UREF (devenu depuis l’AUF: Agence universitaire de la Francophonie), il correspond à la partie «noms communs» du dictionnaire imprimé disponible chez Hachette. L’équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.
En mars 2000, les 20 volumes de l’Oxford English Dictionary (OED) sont mis en ligne par l’Oxford University Press (OUP). La consultation du site est payante. Le dictionnaire bénéficie d’une mise à jour trimestrielle d’environ 1.000 entrées nouvelles ou révisées.
Deux ans après cette première expérience, en mars 2002, l’Oxford University Press met en ligne l’Oxford Reference Online (ORO), une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Avec 60.000 pages et un million d’entrées, elle représente l’équivalent d’une centaine d’ouvrages de référence.
= Répertoires de dictionnaires
Le répertoire Dictionnaires électroniques est un excellent répertoire établi par la section française des Services linguistiques centraux (SLC-f) de l'Administration fédérale suisse. Cette liste très complète de dictionnaires monolingues (allemand, anglais, espagnol, français, italien), bilingues et multilingues est complétée par des répertoires d'abréviations et acronymes et des répertoires géographiques, essentiellement des atlas.
Marcel Grangier, responsable de la section française des Services linguistiques centraux, écrit en janvier 1999: «Travailler sans internet est devenu tout simplement impossible: au-delà de tous les outils et commodités utilisés (messagerie électronique, consultation de la presse électronique, activités de services au profit de la profession des traducteurs), internet reste pour nous une source indispensable et inépuisable d'informations dans ce que j'appellerais le "secteur non structuré" de la toile. Pour illustrer le propos, lorsqu'aucun site comportant de l'information organisée ne fournit de réponse à un problème de traduction, les moteurs de recherche permettent dans la plus grande partie des cas de retrouver le chaînon manquant quelque part sur le réseau.»
Comment voit-il l'avenir? «La multiplication des langues présentes sur internet est inévitable, et ne peut que bénéficier aux échanges multiculturels. Pour que ces échanges prennent place dans un environnement optimal, il convient encore de développer les outils qui amélioreront la compatibilité. La gestion complète des diacritiques ne constitue qu'un exemple de ce qui peut encore être entrepris.»
Quelques années après, le répertoire Dictionnaires électroniques rejoint le site de la Conférence des Services de traduction des États européens (CST).
= yourDictionary.com
Robert Beard, professeur de langues à la Bucknell University (États- Unis), crée d'abord en 1995 A Web of Online Dictionaries (Un web de dictionnaires en ligne), qui est un répertoire de dictionnaires en ligne (avec 800 liens en automne 1998) dans de nombreuses langues, auquel s'ajoutent d'autres sections: dictionnaires multilingues, dictionnaires anglophones spécialisés, thésauri et vocabulaires, grammaires en ligne, et enfin outils linguistiques pour non spécialistes.
Robert Beard écrit en septembre 1998: «On a d'abord craint que le web représente un danger pour le multilinguisme, étant donné que l'HTML et d'autres langages de programmation sont basés sur l'anglais et qu'on trouve tout simplement plus de sites web en anglais que dans toute autre langue. Cependant, les sites web que je gère montrent que le multilinguisme est très présent et que le web peut en fait permettre de préserver des langues menacées de disparition. Je propose maintenant des liens vers des dictionnaires dans 150 langues et des grammaires dans 65 langues. De plus, ceux qui développent les logiciels de navigation manifestent une attention nouvelle pour la diversité des langues dans le monde, ce qui favorisera la présence d'un nombre encore plus grand de sites web dans différentes langues.»
Robert Beard co-fonde ensuite le portail yourDictionary.com, qui intègre son site précédent, avec mise en ligne du portail en février 2000.
Il écrit en janvier 2000: «Nos nouvelles idées sont nombreuses. Nous projetons de travailler avec l'Endangered Language Fund aux États-Unis et en Grande-Bretagne pour rassembler des fonds pour cette fondation et nous publierons les résultats sur notre site. Nous aurons des groupes de discussion et des bulletins d'information sur les langues. Il y aura des jeux de langue destinés à se distraire et à apprendre les bases de la linguistique. La page Linguistic Fun [qui propose des éléments de linguistique pour les non initiés, NDLR] deviendra un journal en ligne avec des extraits courts, intéressants et même amusants dans différentes langues, choisis par des experts du monde entier. (…) Si l'anglais domine encore le web, on voit s'accentuer le développement de sites monolingues et non anglophones du fait des solutions variées apportées aux problèmes de caractères.»
En septembre 2003, yourDictionary.com, devenu un portail de référence, répertorie plus de 1.800 dictionnaires dans 250 langues, ainsi que de nombreux outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues, etc. En avril 2007, le répertoire comprend 2.500 dictionnaires et grammaires dans 300 langues.
Soucieux de servir toutes les langues sans exception, le portail propose comme prévu l'Endangered Language Repository, une section spécifique consacrée aux langues menacées. «Les langues menacées sont essentiellement des langues non écrites, écrit Robert Beard en janvier 2000. Un tiers seulement des quelques 6.000 langues existant dans le monde sont à la fois écrites et parlées. Je ne pense pourtant pas que le web va contribuer à la perte de l’identité des langues et j’ai même le sentiment que, à long terme, il va renforcer cette identité. Par exemple, de plus en plus d’Indiens d’Amérique contactent des linguistes pour leur demander d’écrire la grammaire de leur langue et de les aider à élaborer des dictionnaires. Pour eux, le web est un instrument à la fois accessible et très précieux d’expression culturelle.»
= Le Grand Dictionnaire terminologique
Le Grand dictionnaire terminologique (GDT) est une initiative majeure de l'Office québécois de la langue française (OQLF). C'est en effet la première fois qu'un organisme propose une base terminologique aussi importante en accès libre sur le web, en septembre 2000. Le GDT est précédé par Le Signet, une base terminologique pour les technologies de l'information, dont les 10.000 fiches bilingues français-anglais sont ensuite intégrées au GDT.
Le GDT est un dictionnaire bilingue français-anglais de 3 millions de termes appartenant au vocabulaire industriel, scientifique et commercial. Sa mise en ligne est le résultat d'un partenariat entre l'OQLF, auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Événement célébré par de très nombreux linguistes, cette mise en ligne est un succès. Dès le premier mois, le GDT est consulté par 1,3 million de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l'OQLF lui-même, et non plus par une société prestataire.
= Eurodicautom et IATE
Géré par le service de traduction de la Commission européenne, Eurodicautom est une base terminologique multilingue de termes économiques, scientifiques, techniques et juridiques permettant de combiner entre elles les onze langues officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais, suédois), ainsi que le latin, avec une moyenne de 120.000 consultations par jour en 2003.
Fin 2003, Eurodicautom annonce son intégration dans une base terminologique plus vaste regroupant les bases terminologiques de plusieurs institutions de l’Union européenne, notamment EUTERPE, la base du Parlement européen, et TIS, la base du Conseil de l'Union européenne. Cette nouvelle base traiterait non plus douze langues mais une vingtaine, du fait de l'élargissement de l’Union européenne prévu l'année suivante pour intégrer plusieurs pays d'Europe de l'Est.
Un projet de base terminologique commune est évoqué dès 1999 afin de renforcer la coopération inter-institutionnelle. Les partenaires de ce projet sont le Parlement européen, le Conseil de l'Union européenne, la Commission européenne, la Cour de justice, la Cour des comptes européenne, le Comité économique et social européen, le Comité des régions, la Banque européenne d'investissement, la Banque centrale européenne et enfin le Centre de traduction des organes de l'Union européenne.
La nouvelle base terminologique voit le jour au printemps 2004 sous le nom de IATE (Inter-Active Terminology for Europe), d'abord pour un usage interne dans les institutions de l'Union européenne avant de migrer sur le web en juin 2007 en tant que service public, avec 1,4 million d’entrées dans les 23 langues officielles de l'Union européenne, plus le latin. L'Union européenne est en effet passée de 15 à 25 pays membres en mai 2004, pour atteindre 27 pays membres en janvier 2007, d'où la nécessité de 23 langues officielles au lieu des 11 langues officielles présentes dans Eurodicautom.
Le site web de IATE est administré par le Centre de traduction des organes de l'Union européenne à Luxembourg (capitale du pays du même nom), pour le compte des partenaires du projet. Comme expliqué dans la brochure de IATE, elle-même disponible en 23 langues, «les termes sont introduits dans la base de données par les terminologues et les traducteurs de l'Union européenne sur la base des informations fournies par les traducteurs, les administrateurs, les juristes-linguistes, les experts et d'autres sources fiables.» En 2009, IATE comprend 8,4 millions de termes, dont 540.000 abréviations et 130.000 expressions.
= WordReference.com
Le site WordReference.com est lancé en 1999 par Michael Kellogg pour offrir des dictionnaires bilingues gratuits en ligne. En mars 2010, Michael relate sur son site: «L'internet a été un incroyable outil ces dernières années pour rassembler des gens du monde entier. L'un des principaux obstacles à cela reste bien entendu la langue. Le contenu de l'internet est pour une grande part en anglais et de très nombreux usagers lisent ces pages alors que l'anglais est leur deuxième langue et non leur langue maternelle. De par mes propres expériences avec la langue espagnole, je sais que de nombreux lecteurs comprennent une grande partie de ce qu'ils lisent, mais pas la totalité.
J'ai débuté ce site en 1999 pour procurer des dictionnaires bilingues gratuits en ligne et d'autres outils pour tous sur l'internet. Depuis, le site s'est progressivement développé pour devenir l'un des sites de dictionnaires en ligne les plus utilisés, et le principal dictionnaire en ligne pour les paires de langues anglais-espagnol, anglais-français, anglais-italien, espagnol-français et espagnol-portugais. Ce site est toujours classé sans interruption parmi les 500 sites les plus visités du web. Aujourd'hui, je suis heureux de continuer à améliorer ces dictionnaires, les autres outils linguistiques du site et les forums de langues. J'ai vraiment plaisir à créer de nouvelles fonctionnalités pour rendre ce site de plus en plus utile.»
Les dictionnaires les plus populaires sont le dictionnaire espagnol (espagnol-anglais et anglais-espagnol), le dictionnaire français et le dictionnaire italien. On trouve aussi un dictionnaire allemand, un dictionnaire russe et un dictionnaire monolingue anglais. Des tableaux de conjugaison sont disponibles pour l'espagnol, le français et l'italien.
Pour l'anglais, on trouve également des dictionnaires de l'anglais vers les langues suivantes: arabe, chinois, coréen, grec, japonais, polonais, portugais, roumain, tchèque et turc, et vice versa.
Pour l'espagnol, en plus des deux dictionnaires d'Espasa Calpe et d'Oxford complétés par le supplément propre à WordReference.com, on peut consulter un dictionnaire monolingue espagnol, un dictionnaire espagnol de synonymes, un dictionnaire espagnol-français et un dictionnaire espagnol-portugais.
Pour le français et l'italien, outre les dictionnaires d'Oxford, WordReference.com propose deux dictionnaires qui lui sont propres, à savoir un dictionnaire français-anglais de 250.000 termes et un dictionnaire italien-anglais de 200.000 termes.
WordReference.com offre également des forums linguistiques très actifs et de qualité. Si les usagers ont une question sur un problème linguistique donné, ils peuvent faire une recherche dans les centaines de milliers de questions précédentes, avant de poser leur propre question dans l'un des forums si nécessaire, pour être aidés par des gens des quatre coins du monde.
WordReference Mini est une version miniature du site qui permet son intégration dans d'autres sites, par exemple des sites d'apprentissage de langues.
Une version pour appareil mobile est également disponible pour plusieurs dictionnaires: anglais-espagnol, espagnol-anglais, anglais- français, français-anglais, anglais-italien, italien-anglais, avec d'autres paires de langues à venir.
= Quelques expériences
Maria Victoria Marinetti, de nationalité mexicaine, est titulaire d'un doctorat en ingénierie. Depuis son installation en France, elle est professeur d'espagnol dans plusieurs entreprises du bassin annécien, en Haute-Savoie, et également traductrice.
Elle raconte en août 1999: «J'ai accès à un nombre important d'informations au niveau mondial, ce qui est très intéressant pour moi. J'ai également la possibilité de transmettre ou de recevoir des fichiers, dans un va-et-vient d'information constant. L'internet me permet de recevoir ou d'envoyer des traductions générales ou techniques du français vers l'espagnol et vice versa, ainsi que des textes espagnols corrigés. Dans le domaine technique ou chimique, je propose une aide technique, ainsi que des informations sur l'exportation d'équipes de haute technologie vers le Mexique ou d'autres pays d'Amérique latine.»
Elle ajoute en août 2001: «Depuis notre premier entretien, j'utilise beaucoup l'internet pour des échanges avec ma famille au Mexique et avec mes amis un peu partout dans le monde. C'est un outil de communication rapide, agréable et fantastique pour moi. Par contre, pour l'utilisation d'internet comme outil de télétravail, très peu d'entreprises ont le matériel et l'expérience nécessaires pour échanger des données dans le travail quotidien, notamment par la voix et l'image (par exemple pour la formation ou les conférences par l'internet). Pour ma part, je rencontre ce problème car je souhaite proposer une téléformation en langue espagnole, en utilisant la voix et l'image. Mais mes entreprises clientes ne sont pas habituées à utiliser ces moyens de communication malgré leur caractère pratique (pas de déplacements à faire) et malgré la fiabilité accrue de ces nouveaux moyens de communication par l'internet. En conclusion, les sociétés de conseil informatique ont encore beaucoup à faire pour familiariser les entreprises à l'utilisation des nouvelles technologies liées aux transferts de données par l'internet.»
Robert Beard, professeur de langues et créateur du portail yourDictionary.com, écrit en septembre 1998: «En tant que professeur de langues, je pense que le web présente une pléthore de nouvelles ressources disponibles dans la langue étudiée, de nouveaux instruments d'apprentissage (exercices interactifs Java et Shockwave) et de test, qui sont à la disposition des étudiants quand ceux-ci en ont le temps ou l'envie, 24 heures par jour et 7 jours par semaine. Aussi bien pour mes collègues que pour moi, et bien sûr pour notre établissement, l'internet nous permet aussi de publier pratiquement sans limitation.»
Comment voit-il l'avenir? «L'internet nous offrira tout le matériel pédagogique dont nous pouvons rêver, y compris des notes de lecture, exercices, tests, évaluations et exercices interactifs plus efficaces que par le passé, parce que reposant davantage sur la notion de communication.»
Une autre expérience est celle de Russon Wooldridge, professeur au département des études françaises de l'Université de Toronto (Canada), qui relate en février 2001: «Tout mon enseignement exploite au maximum les ressources d'internet (le web et le courriel): les deux lieux communs d'un cours sont la salle de classe et le site du cours, sur lequel je mets tous les matériaux des cours. Je mets toutes les données de mes recherches des vingt dernières années sur le web (réédition de livres, articles, textes intégraux de dictionnaires anciens en bases de données interactives, de traités du 16e siècle, etc.). Je publie des actes de colloques, j'édite un journal, je collabore avec des collègues français, mettant en ligne à Toronto ce qu'ils ne peuvent pas publier en ligne chez eux. En mai 2000 j'ai organisé à Toronto un colloque international sur "Les études françaises valorisées par les nouvelles technologies". (…) Je me rends compte que sans internet mes activités seraient bien moindres, ou du moins très différentes de ce qu'elles sont actuellement. Donc je ne vois pas l'avenir sans.»
= Des outils pour les enseignants
Depuis ses débuts en 1989, le Computer in Teaching Initiative (CTI) Centre for Modern Languages est un centre inclus dans l'Institut des langues de l'Université d'Hull (Royaume-Uni) et vise à promouvoir l'utilisation des ordinateurs dans l'apprentissage et l'enseignement des langues. Connu sous le nom de CTI Centre, il procure des informations sur la manière dont l'apprentissage des langues assisté par ordinateur peut être effectivement intégré à des cours existants, et il offre un soutien aux professeurs qui utilisent - ou souhaitent utiliser - l'informatique dans l'enseignement qu'ils dispensent.
June Thompson, responsable du CTI Centre, écrit en décembre 1998: «Avec l'internet, on a la possibilité de favoriser l'utilisation des langues étrangères, et notre organisation ne soutient absolument pas la suprématie de l'anglais en tant que langue de l'internet. L'utilisation de l'internet a apporté une nouvelle dimension à notre tâche qui consiste à soutenir les professeurs de langue dans l'utilisation de la technologie correspondante. Je pense que, dans un avenir proche, l'utilisation de supports linguistiques sur l'internet va continuer à se développer en même temps que d'autres activités liées aux technologies, par exemple l'utilisation de CD-ROM - certains établissements n'ont pas suffisamment de matériel informatique en réseau. A l'avenir, il me semble que l'utilisation de l'internet jouera un rôle plus grand, mais seulement si ces activités sont à caractère pédagogique. Notre organisme travaille étroitement avec le WELL, qui se consacre à ces problèmes.»
Le WELL (Web Enhanced Language Learning) est un projet britannique mené à bien entre 1997 et 2000 pour donner accès à des ressources en ligne de qualité dans douze langues différentes. Sélectionnées et décrites par des experts, ces ressources sont complétées par des informations et des exemples sur la manière de les utiliser pour l'enseignement ou l'apprentissage d'une langue.
Ce projet est l'œuvre de l'association EUROCALL (European Association for Computer-Assisted Language Learning), qui regroupe des professionnels de l'enseignement des langues exerçant en Europe et dans le monde entier. Ses objectifs sont de favoriser l'utilisation des langues étrangères en Europe, encourager une vision européenne de l'utilisation des technologies pour l'apprentissage des langues, et enfin promouvoir la création et la diffusion d'un matériel de qualité.
Un autre projet d'EUROCALL est CAPITAL (Computer-Assisted Pronunciation Investigation Teaching and Learning), qui regroupe des chercheurs et praticiens souhaitant utiliser l'informatique dans ce domaine.
= La LINGUIST List
Gérée par l'Eastern Michigan University et la Wayne State University, deux universités des États-Unis, la LINGUIST List est une liste de diffusion à destination des linguistes. Les messages reçus sont classés dans diverses rubriques: profession (conférences, associations linguistiques, programmes, etc.), recherche et soutien à la recherche (articles, résumés de mémoires, projets, bibliographies, dossiers, textes), publications, pédagogie, ressources linguistiques (langues, familles linguistiques, dictionnaires, informations régionales) et soutien informatique (polices de caractères et logiciels). La LINGUIST List propose aussi un centre de documentation virtuel, dénommé Virtual Library.
Helen Dry, modératrice de la LINGUIST List, explique en août 1998: «La LINGUIST List, que je modère, a pour politique d'accepter les informations dans toutes les langues, puisque c'est une liste pour linguistes. Nous ne souhaitons cependant pas que le message soit publié dans plusieurs langues, tout simplement à cause de la charge de travail que cela représenterait pour notre personnel de rédaction (nous ne sommes pas une liste fourre-tout, mais une liste modérée: avant d'être publié, chaque message est classé par nos étudiants-rédacteurs dans une section comprenant des messages du même type). Notre expérience nous montre que pratiquement tout le monde choisit de publier en anglais. Mais nous relions ces informations à un système de traduction qui présente nos pages dans cinq langues différentes. Ainsi un abonné ne lit LINGUIST en anglais que s'il le souhaite. Nous essayons aussi d'avoir au moins un étudiant-éditeur qui soit réellement multilingue, afin que les lecteurs puissent correspondre avec nous dans d'autres langues que l'anglais.»
= La liste de Caoimhín
Contrairement aux clichés véhiculés dans les médias, l’internet ne favorise pas forcément l'hégémonie de l'anglais et n'entraîne pas la disparition des langues minoritaires. L'internet peut au contraire contribuer à protéger ces langues, s'il existe une volonté politique et culturelle dans ce sens. En témoigne l'expérience de Caoimhín.
Caoimhín Ó Donnaíle est professeur d’informatique à l’Institut Sabhal Mór Ostaig, situé sur l’île de Skye, en Écosse. Il dispense ses cours en gaélique écossais. Il est également le webmestre du site de l’institut, qui est bilingue anglais-gaélique et qui se trouve être la principale source d’information mondiale sur le gaélique écossais. Sur ce site, il tient à jour la page European Minority Languages, une liste elle aussi bilingue anglais-gaélique, avec classement par ordre alphabétique de langues et par famille linguistique.
Interviewé en août 1998, Caoimhín raconte: «L'internet a contribué et contribuera au développement fulgurant de l'anglais comme langue mondiale. L'internet peut aussi grandement aider les langues minoritaires. Ceci ne se fera pas tout seul, mais seulement si les gens choisissent de défendre une langue. Le web est très utile pour dispenser des cours de langues, et la demande est grande.»
Près de trois ans plus tard, en mai 2001, il ajoute: «Nos étudiants utilisent un correcteur d’orthographe en gaélique et une base terminologique en ligne en gaélique. (…) Il est maintenant possible d’écouter la radio en gaélique (écossais et irlandais) en continu sur l’internet partout dans le monde. Une réalisation particulièrement importante a été la traduction en gaélique du navigateur Opera. C’est la première fois qu’un logiciel de cette taille est disponible en gaélique.»
La langue gaélique est promue par toute une communauté linguistique. Mais qu'en est-il des langues menacées? «En ce qui concerne l’avenir des langues menacées, l’internet accélère les choses dans les deux sens. Si les gens ne se soucient pas de préserver les langues, l’internet et la mondialisation qui l’accompagne accéléreront considérablement la disparition de ces langues. Si les gens se soucient vraiment de les préserver, l’internet constituera une aide irremplaçable.»
= Le site Windows on Haiti
Guy Antoine, créateur de Windows on Haiti, site de référence sur la langue haïtienne, relate en novembre 1999: «J’ai fait de la promotion du kreyòl (créole haïtien) une cause personnelle, puisque cette langue est le principal lien unissant tous les Haïtiens, malgré l’attitude dédaigneuse d’une petite élite haïtienne - à l’influence disproportionnée - vis-à-vis de l’adoption de normes pour l’écriture du kreyòl et le soutien de la publication de livres et d’informations officielles dans cette langue. A titre d’exemple, il y avait récemment dans la capitale d’Haïti un Salon du livre de deux semaines, à qui on avait donné le nom de "Livres en folie". Sur les 500 ouvrages d’auteurs haïtiens présentés lors du salon, il y en avait une vingtaine en kreyòl, ceci dans le cadre de la campagne insistante que mène la France pour célébrer la Francophonie dans ses anciennes colonies. A Haïti cela se passe relativement bien, mais au détriment direct de la Créolophonie.
En réponse à l’attitude de cette minorité haïtienne, j’ai créé sur mon site Windows on Haiti deux forums de discussion exclusivement en kreyòl. Le premier forum regroupe des discussions générales sur toutes sortes de sujets, mais en fait ces discussions concernent principalement les problèmes socio-politiques qui agitent Haïti. Le deuxième forum est uniquement réservé aux débats sur les normes d’écriture du kreyòl. Ces débats sont assez animés, et un certain nombre d’experts linguistiques y participent. Le caractère exceptionnel de ces forums est qu’ils ne sont pas académiques. Je n’ai trouvé nulle part ailleurs sur l’internet un échange aussi spontané et aussi libre entre des experts et le grand public pour débattre dans une langue donnée des attributs et des normes de la même langue.»
En juin 2001, Guy Antoine rejoint l’équipe dirigeante de Mason Integrated Technologies, une société dont l’objectif est de créer des outils permettant l’accessibilité des documents publiés dans des langues dites minoritaires. «Étant donné l’expérience de l’équipe en la matière, nous travaillons d’abord sur le créole haïtien (kreyòl), qui est la seule langue nationale d’Haïti, et l’une des deux langues officielles (l’autre étant le français). Cette langue ne peut guère être considérée comme une langue minoritaire dans les Caraïbes puisqu’elle est parlée par huit à dix millions de personnes.»
= Des projets précurseurs
Robert Beard, professeur de langues et co-fondateur du portail yourDictionary.com, écrit en septembre 1998: «Le web sera une encyclopédie du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de connaissances utiles qui ne soient pas disponibles, si bien que l'obstacle principal à la compréhension internationale et interpersonnelle et au développement personnel et institutionnel sera levé. Il faudrait une imagination plus débordante que la mienne pour prédire l'effet de ce développement sur l'humanité.»
Les premières grandes encyclopédies en ligne apparaissent en décembre 1999 avec WebEncyclo et l’Encyclopaedia Universalis en langue française et Britannica.com en langue anglaise.
WebEncyclo, publié par les éditions Atlas, est la première grande encyclopédie francophone en accès libre. La recherche est possible par mots-clés, thèmes, médias (à savoir les cartes, liens internet, photos ou illustrations) et idées. Un appel à contribution incite les spécialistes d’un sujet donné à envoyer des articles, qui sont regroupés dans la section WebEncyclo contributif. Après avoir été libre, l’accès est ensuite soumis à une inscription préalable gratuite.
La version web de l’Encyclopaedia Universalis est mise en ligne à la même date, soit un ensemble de 28.000 articles signés par 4.000 auteurs. Si la consultation est payante sur la base d’un abonnement annuel, de nombreux articles sont en accès libre.
Le site Britannica.com est la première grande encyclopédie anglophone en accès libre. Le site web propose l’équivalent numérique des 32 volumes de la 15e édition de l’Encyclopaedia Britannica, parallèlement à la version imprimée et à la version CD-ROM, toutes deux payantes. Le site offre aussi une sélection d’articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d’un moteur de recherche unique. En septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, la consultation devient payante sur la base d’un abonnement annuel ou mensuel. Fin 2008, Britannica.com annonce l'ouverture prochaine de son site à des contributeurs extérieurs, avec inscription obligatoire pour écrire et modifier des articles.
= Wikipédia
Issu du terme hawaïen «wiki» (qui signifie: vite, rapide), un wiki est un site web permettant à plusieurs utilisateurs de collaborer en ligne sur un même projet. A tout moment, ces utilisateurs peuvent contribuer à la rédaction du contenu, modifier ce contenu et l'enrichir en permanence. Le wiki est utilisé par exemple pour créer et gérer des dictionnaires, des encyclopédies ou encore des sites d'information sur un sujet donné. Le programme présent derrière l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère du texte et des hyperliens. Un programme élaboré permet d'inclure des images, des graphiques, des tableaux, etc. L’encyclopédie wiki la plus connue est Wikipédia.
Fondée en janvier 2001 à l’initiative de Jimmy Wales et de Larry Sanger (Larry quitte ensuite l'équipe), Wikipédia est une encyclopédie gratuite écrite collectivement et dont le contenu est librement réutilisable. Elle est immédiatement très populaire. Sans publicité et financée par des dons, cette encyclopédie coopérative est rédigée par des milliers de volontaires - appelés Wikipédiens, et qui s'inscrivent sous un pseudonyme - avec possibilité de corriger et compléter les articles, aussi bien les leurs que ceux d'autres contributeurs. Les articles restent la propriété de leurs auteurs, et leur libre utilisation est régie par la licence GFDL (GNU free documentation license).
En décembre 2004, Wikipédia compte 1,3 million d'articles rédigés dans une centaine de langues par 13.000 contributeurs. En décembre 2006, Wikipédia compte 6 millions d'articles dans 250 langues, et devient l'un de dix sites les plus visités du web. En mai 2007, Wikipédia compte 7 millions d'articles dans 192 langues, dont 1,8 million en anglais, 589.000 en allemand, 500.000 en français, 260.000 en portugais et 236.000 en espagnol. En 2009, Wikipédia fait partie des cinq sites les plus visités du web.
Fondée en juin 2003, la Wikimedia Foundation gère non seulement Wikipédia mais aussi Wiktionary, un dictionnaire et thésaurus multilingue lancé en décembre 2002, puis Wikibooks (livres et manuels en cours de rédaction) lancé en juin 2003, auxquels s'ajoutent ensuite Wikiquote (répertoire de citations), Wikisource (textes appartenant au domaine public), Wikimedia Commons (sources multimédia), Wikispecies (répertoire d'espèces animales et végétales), Wikinews (site d'actualités) et enfin Wikiversity (matériel d'enseignement), lancé en août 2006.
Peter Raggett, sous-directeur (puis directeur) du Centre de documentation et d'information (CDI) de l'OCDE (Organisation de coopération et de développement économiques), écrit en août 1999: «Je pense qu'il appartient aux organisations et sociétés européennes d'offrir des sites web si possible en trois ou quatre langues. À l'heure de la mondialisation et du commerce électronique, les sociétés ont un marché potentiel sur plusieurs pays à la fois. Permettre aux usagers francophones, germanophones ou nippons de consulter un site web aussi facilement que les usagers anglophones donnera une plus grande compétitivité à une firme donnée.»
«Vers la communication sur internet dans toutes les langues…», tel est le sous-titre de la page d'accueil de Babel, un projet conjoint d'Alis Technologies et de l'Internet Society lancé en 1997 dans l'optique d'une internationalisation de l'internet. À cette date, le site multilingue de Babel (en anglais, allemand, espagnol, français, italien, portugais et suédois) propose deux grands secteurs: (a) un secteur langues, avec trois sections: langues du monde, glossaire typographique et linguistique, Francophonie; (b) un secteur internet et multilinguisme, avec deux sections: développer votre site web multilingue, et codage des écritures du monde. Babel propose aussi la page Palmarès des langues de la toile, qui est la première à donner la répartition réelle des langues sur le réseau.
Bill Dunlap est le fondateur de Euro-Marketing Associates, une société de conseil en marketing qu'il lance en 1985 à Paris et San Francisco. En 1995, il restructure cette société en service de conseil en ligne dénommé Global Reach, le but étant de promouvoir les sites web des entreprises dans d'autres pays, afin d'attirer plus de visiteurs, et donc d'augmenter les ventes. Cette méthode comprend la traduction d'un site web dans plusieurs langues, la promotion active du site, et enfin l'accroissement de la fréquentation locale au moyen de bandeaux publicitaires ciblés.
Bill Dunlap explique en décembre 1998: «Il y a très peu de gens aux États-Unis qui sont intéressés de communiquer dans plusieurs langues. Pour la plupart, ils pensent encore que le monde entier parle anglais. Par contre, en Europe, les pays sont petits, si bien que, depuis des siècles, une perspective internationale est nécessaire. Depuis 1981, début de mon activité professionnelle, j'ai été impliqué dans la venue de sociétés américaines en Europe. Ceci est pour beaucoup un problème de langue, puisque leurs informations commerciales doivent être disponibles dans les langues européennes pour être prises en compte en Europe. Comme le web est devenu populaire en 1995, j'ai donné à ces activités une dimension "en ligne", et j'en suis venu à promouvoir le cybercommerce européen auprès de mes compatriotes américains. (…)
Promouvoir un site est aussi important que le créer, sinon plus. On doit être préparé à utiliser au moins autant de temps et d'argent à promouvoir son site qu'on en a passé à l'origine à le créer. Le programme Global Reach permet de promouvoir un site dans des pays non anglophones, afin d'atteindre une clientèle plus large… et davantage de ventes. Une société a de nombreuses bonnes raisons de considérer sérieusement le marché international. Global Reach est pour elle le moyen d'étendre son site web à de nombreux pays, de le présenter à des visiteurs en ligne dans leur propre langue, et de pénétrer le réseau de commerce en ligne présent dans ces pays.»
Bill Dunlap ajoute en juillet 1999: «Une fois que la page d'accueil d'un site est disponible en plusieurs langues, l'étape suivante est le développement du contenu dans chaque langue. Un webmestre notera quelles langues attirent plus de visiteurs (et donc plus de ventes) que d'autres. Ce seront donc dans ces langues que débutera une campagne de promotion multilingue sur le web. Parallèlement, il est toujours bon de continuer à augmenter le nombre de langues dans lesquelles un site web est disponible. Au début, seule la page d'accueil traduite en plusieurs langues suffit, mais ensuite il est souhaitable de développer un véritable secteur pour chaque langue.»
Le World Wide Web Consortium (W3C) est un consortium industriel international fondé en 1994 pour développer les protocoles communs du web. Le site du W3C propose notamment une section Internationalization/Localization, qui donne une définition des protocoles utilisés: HTML (hypertext markup language), jeux (de base) de caractères, nouveaux attributs, HTTP (hypertext transfer protocol), négociation de la langue, URL (uniform resource locator) et autres identificateurs incluant des caractères non ASCII (American standard code for information interchange). Le site propose aussi des conseils pour créer un site multilingue.
L'internet étant une source d'information à vocation mondiale, il semble indispensable d'augmenter fortement les activités de traduction. Auteur des Chroniques de Cybérie, une chronique hebdomadaire en ligne des actualités du réseau, Jean-Pierre Cloutier déplore en août 1999 «qu’il se fasse très peu de traductions des textes et essais importants qui sont publiés sur le web, tant de l’anglais vers d’autres langues que l’inverse. (…) La nouveauté d’internet dans les régions où il se déploie présentement y suscite des réflexions qu’il nous serait utile de lire. À quand la traduction des penseurs hispanophones et autres de la communication?»
Créé à Amsterdam (Pays-Bas) par la firme Vorontsoff, Wesseling & Partners, Aquarius est le premier répertoire non commercial de traducteurs et interprètes. En novembre 1998, il comprend 6.100 traducteurs, 800 sociétés de traduction, 91 domaines d'expertise et 369 combinaisons de langues. Le site permet de localiser particuliers et sociétés et de les contacter directement, sans intermédiaire. La recherche est possible par lieu, par combinaison de langues et par spécialité.
De plus, depuis décembre 1997, des logiciels de traduction automatique sont en accès libre sur le web - à commencer par ceux de SYSTRAN sur AltaVista - et permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles. Il va sans dire que la traduction automatique n’offre pas la qualité de travail des professionnels de la traduction, et qu’il est préférable de faire appel à ces derniers lorsqu'on a le temps et l’argent nécessaires. Ces logiciels sont toutefois très pratiques pour obtenir une traduction approximative en quelques secondes.
De plus en plus utilisée, la traduction assistée par ordinateur permet de coupler traduction automatique et travail du traducteur professionnel. Elle est une branche de l'ingénierie du langage, tout comme le traitement de la langue naturelle et la traduction automatique (traitée dans le chapitre suivant).
Lancé en janvier 1999 par la Commission européenne, le site HLTCentral (HLT: Human Languages Technologies) propose une courte définition de l'ingénierie du langage: «L'ingénierie du langage permet de vivre en toute convivialité avec la technologie. Nous pouvons utiliser notre connaissance du langage pour développer des systèmes capables de reconnaître à la fois la parole et l'écrit, de comprendre un texte suffisamment en profondeur pour être capable de sélectionner des informations, de le traduire dans différentes langues et de générer aussi bien un discours oral qu'un texte imprimé. L'application de ces technologies nous permet de repousser les limites actuelles de notre utilisation du langage. Les systèmes à commande vocale sont appelés à jouer un rôle prépondérant et à faire partie intégrante de notre vie quotidienne.»
Contrairement à la traduction automatique (TA) qui analyse le texte dans la langue source et génère automatiquement le texte correspondant dans la langue cible, sans intervention humaine pendant ce processus, la traduction assistée par ordinateur (TAO) est basée sur l'interaction entre l'homme et la machine pendant le processus de traduction.
La TAO est par exemple adoptée dès le milieu des années 1990 par le Bureau des services linguistiques de l'Organisation mondiale de la santé (OMS) à Genève (Suisse). Ce bureau travaille dans les six langues officielles de l'organisation: anglais, arabe, chinois, espagnol, français et russe.
Des expériences de traduction automatique (TA) sont également tentées, à plusieurs reprises, mais les traductions obtenues demandent un travail de révision trop important, si bien que, compte-tenu du type de documents à traduire, la TAO semble bien préférable.
Au sein de l'OMS, l'Unité de traduction assistée par ordinateur et de terminologie (CTT) explore les possibilités techniques offertes par les systèmes les plus récents de TAO, qui reposent sur la notion de «mémoire de traduction».
Comme expliqué sur le site web, «ces systèmes permettent au traducteur d'avoir immédiatement accès au patrimoine du "déjà traduit" dans lequel il peut puiser, quitte à rejeter ou modifier les solutions retenues par ses prédécesseurs, son choix définitif venant ensuite enrichir la mémoire. Ainsi, en archivant la production quotidienne, le traducteur aurait vite à sa disposition une "mémoire" colossale de solutions toutes faites à un nombre important de problèmes de traduction.»
En complément, le CTT utilise aussi plusieurs applications pour l'archivage électronique et la recherche en texte intégral, l'alignement de textes bilingues et multilingues, la gestion de mémoires de traduction et de bases de données terminologiques, et enfin la reconnaissance vocale.
Basé à Washington, D.C., au sein de l'Organisation panaméricaine de la santé (OPS), le Bureau régional de l'OMS pour les Amériques utilise par contre un système de traduction automatique développé par les linguistes computationnels, traducteurs et programmeurs de l'OPS.
Le service de traduction utilise SPANAM (de l'espagnol vers l'anglais) depuis 1980 et ENGSPAN (de l'anglais vers l'espagnol) depuis 1985, ce qui lui a permis de traiter plus de 25 millions de mots entre 1980 et 1998 dans les deux langues officielles de l'OPS. Le personnel et les traducteurs extérieurs post-éditent ensuite l'information brute avec un gain de productivité de 30 à 50%. Le système est installé sur le réseau local du siège de l'organisation et dans plusieurs bureaux régionaux pour pouvoir être utilisé par le personnel des services techniques et administratifs. Il est également diffusé auprès d'organismes publics et d'organismes à but non lucratif aux États-Unis, en Amérique latine et en Espagne. Ce système est plus tard renommé PAHOMTS, avec l'introduction de nouvelles paires de langues pour le portugais.
Autre expérience, celle de Wordfast. Lancé en 1999 par Yves Champollion, Wordfast est un logiciel de traduction avec terminologie disponible en temps réel et contrôle typographique. Il est compatible avec d'autres logiciels très utilisés comme le WebSphere Translation Server d’IBM et les logiciels de TMX ou de Trados. Une version simplifiée de Wordfast est téléchargeable gratuitement, avec un manuel d’utilisation disponible en seize langues.
Wordfast devient au fil des ans le numéro un mondial des logiciels de traduction utilisables sous toute plateforme (Windows, Mac, Linux), et le numéro deux mondial en nombre de ventes (après SDL Trados), avec 20.000 clients dans le monde en 2009, dont les Nations Unies, Nomura Securities, la NASA (National Aeronautics and Space Administration) et McGraw-Hill.
= Définition
Un logiciel de traduction automatique (TA) analyse le texte dans la langue à traduire (langue source) et génère automatiquement le texte dans la langue désirée (langue cible), en utilisant des règles précises pour le transfert de la structure grammaticale. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur (TAO), qui implique une interaction entre l'homme et la machine.
Si la traduction automatique reste très approximative, les logiciels de traduction sont toutefois très pratiques pour fournir un résultat immédiat et à moindres frais sinon gratuit. Ces logiciels n'ont cessé de s'améliorer au fil des ans, sans toutefois avoir la prétention d'égaler le travail du cerveau humain. De plus, depuis décembre 1997, des logiciels en accès libre sur le web permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles.
SYSTRAN, société franco-américaine pionnière dans le traitement automatique des langues, explique sur son site web: «Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue source (texte à traduire) vers la langue cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain.»
L'EAMT (European Association for Machine Translation) donne pour sa part la définition suivante: «La traduction automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organisations de traduction professionnelles.»
= Historique
L'intéressant historique donné sur le site de Globalink, une société spécialisée dans les logiciels et services de traduction (disparue depuis), est résumé dans les paragraphes suivants.
Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle progressent de pair avec l'évolution de l'informatique quantitative. Pendant la Seconde guerre mondiale, le développement des premiers ordinateurs programmables est accéléré par les premiers efforts cryptographiques pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procurent une base de travail au secteur émergent de la théorie de l'information.
Pendant les années 1950, la recherche sur la traduction automatique prend forme au sens de traduction littérale (mot à mot) sans utiliser de règles linguistiques. Le projet débuté à l'Université de Georgetown au début des années 1950 représente la première tentative systématique pour créer un système de traduction automatique utilisable pour le russe.
Jusqu'au milieu des années 1960, plusieurs projets de recherche aussi bien universitaires que gouvernementaux sont menés aux États-Unis et en Europe. Au même moment, les progrès rapides dans le domaine de la linguistique théorique culminent en 1965 avec la publication du livre Aspects de la théorie syntaxique de Noam Chomsky, et transforment radicalement les concepts permettant de comprendre la phonologie, la morphologie, la syntaxe et la sémantique du langage humain.
En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committee) remis au gouvernement des États-Unis fait une estimation prématurément négative de la valeur des systèmes de traduction automatique et des perspectives sur leurs applications pratiques, mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante.
Il faut attendre la fin des années 1970 pour que des expériences sérieuses soient à nouveau entreprises, parallèlement aux progrès de l’informatique et des technologies des langues. Cette période voit le développement de systèmes de transfert d’une langue à l’autre et le lancement des premières tentatives commerciales. Des sociétés comme SYSTRAN et METAL sont persuadées de l'utilité et de la viabilité d’un tel marché. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central.