Chapter 2

ML: "Comment voyez-vous le multilinguisme sur le Web?"

RB: "On a d'abord craint que le Web représente un danger pour le multilinguisme, étant donné que le HTML [hypertext markup language] et d'autres langages de programmation sont basés sur l'anglais et qu'on trouve tout simplement plus de sites web en anglais que dans toute autre langue. Cependant, les sites web que je gère montrent que le multilinguisme est très présent et que le Web peut en fait permettre de préserver des langues menacées de disparition. Je propose maintenant des liens vers des dictionnaires dans 150 langues différentes et des grammaires en 65 langues différentes. De plus, comme ceux qui développent les navigateurs manifestent une attention nouvelle pour la diversité des langues dans le monde, ceci favorisera la présence de davantage encore de sites web dans différentes langues."

ML: "Quel a été le bénéfice de l'utilisation d'Internet dans votre vie professionnelle?"

RB: "En tant que professeur de langues, je pense que le Web présente une pléthore de nouvelles ressources disponibles dans la langue étudiée, de nouveaux instruments d'apprentissage (exercices interactifs Java et Shockwave) et de test, qui sont à la disposition des étudiants quand ceux-ci en ont le temps ou l'envie, 24 heures par jour et 7 jours par semaine. Aussi bien pour mes collègues que pour moi, et bien sûr pour notre établissement, Internet nous permet aussi de publier pratiquement sans limitation."

ML: "Comment voyez-vous l'évolution vers un Internet multilingue?"

RB: "Internet nous offrira tout le matériel pédagogique dont nous pouvons rêver, y compris des notes de lecture, exercices, tests, évaluations et exercices interactifs plus efficaces que par le passé parce que reposant davantage sur la notion de communication. Le Web sera une encyclopédie du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de connaissances utiles qui ne soient pas diponibles, si bien que l'obstacle principal à la compréhension internationale et interpersonnelle et au développement personnel et institutionnel sera levé. Il faudrait une imagination plus débordante que la mienne pour prédire l'effet de ce développement sur l'humanité."

Depuis 1995, à l'initiative du WorldWide Language Institute (Institut des langues du monde entier), NetGlos (The Multilingual Glossary of Internet Terminology) (Le glossaire multilingue de la terminologie d'Internet) est le projet commun d'un certain nombre de traducteurs et autres professionnels. Ce glossaire est préparé dans les langues suivantes: allemand, anglais, chinois, croatien, espagnol, français, grec, hébreu, hollandais/flamand, italien, maori, norvégien et portugais.

Brian King, directeur du WorldWide Language Institute, a répondu à mes questions dans son courrier électronique du 15 septembre 1998.

ML: "Comment voyez-vous le multilinguisme sur le Web?"

BL: "Bien que l'anglais soit la langue la plus importante du Web et d'Internet en général, je pense que le multilinguisme fait inévitablement partie des futures orientations du cyberespace.

Voici quelques-uns des éléments qui, à mon sens, permettront que le Web multilingue devienne une réalité:

a) La popularisation de la technologie de l'information

La technologie des ordinateurs a longtemps été le seul domaine d'une élite 'technicienne', à l'aise à la fois dans des langages de programmation complexes et en anglais, la langue universelle des sciences et techniques. A l'origine, les ordinateurs n'ont jamais été conçus pour manier des systèmes d'écriture ne pouvant être traduits en ASCII. Il n'y avait pas de place pour autre chose que les 26 lettres de l'alphabet anglais dans un système de codage qui, à l'origine, ne pouvait même pas reconnaître les accents aigus et les trémas, sans parler de systèmes non alphabétiques comme le chinois.

Mais la tradition a été bouleversée, et la technologie popularisée. Des interfaces graphiques tels que Windows et Macintosh ont accéléré le processus. La stratégie de marketing de Microsoft a consisté à présenter son système d'exploitation comme facile à utiliser par le client moyen. A l'heure actuelle cette facilité d'utilisation s'est étendue au-delà du PC vers le réseau Internet, si bien que maintenant même ceux qui ne sont pas programmeurs peuvent insérer des applets Java dans leurs pages web sans comprendre une seule ligne de programmation.

b) La compétition des grandes sociétés pour une part de 'marché global'

L'extension de cette popularisation locale est l'exportation de la technologie de l'information dans le monde entier. La popularisation est maintenant effective à l'échelon mondial, et l'anglais n'est plus nécessairement la langue obligée de l'utilisateur. Il n'y a plus vraiment de langue indispensable, mais seulement les langues personnelles des utilisateurs. Une chose est certaine: il n'est plus nécessaire de comprendre l'anglais pour utiliser un ordinateur, de même qu'il n'est plus nécessaire d'avoir un diplôme d'informatique.

La demande des utilisateurs non anglophones et l'effort entrepris par les sociétés high-tech se faisant concurrence pour obtenir les marchés mondiaux a fait de la localisation un secteur en expansion rapide dans le développement des logiciels et du matériel. Le premier pas a été le passage de l'ASCII à l'ASCII étendu. Ceci signifie que les ordinateurs commençaient à reconnaître les accents et les symboles utilisés dans les variantes de l'alphabet anglais, symboles qui appartenaient le plus souvent aux langues européennes. Cependant une page ne pouvait être affichée qu'en une seule langue à la fois.

c) L'innovation technologique

L'innovation la plus récente est UNICODE. Bien qu'il soit encore en train d'évoluer et qu'il ait tout juste été incorporé dans les derniers logiciels, ce nouveau système de codage traduit chaque caractère en 16 octets. Alors que l'ASCII étendu à 8 octets pouvait prendre en compte un maximum de 256 caractères, UNICODE peut prendre en compte plus de 65.000 caractères uniques et il a donc la possibilité de traiter informatiquement tous les systèmes d'écriture du monde.

Les instruments sont maintenant plus ou moins en place. Ils ne sont pas encore parfaits, mais on peut désormais surfer sur le Web en utilisant le chinois, le japonais, le coréen, et de nombreuses autres langues qui n'utilisent pas l'alphabet occidental. Comme Internet s'étend à des parties du monde où l'anglais est très peu utilisé, par exemple la Chine, il est naturel que ce soit le chinois et non l'anglais qui soit utilisé. La majorité des usagers en Chine n'a pas d'autre choix que sa langue maternelle.

Une période intermédiaire précède bien sûr ce changement. Une grande partie de la terminologie technique disponible sur le Web n'est pas encore traduite dans d'autres langues. Et, comme nous nous en sommes rendus compte dans NetGlos, notre glossaire multilingue de la terminologie d'Internet, la traduction de ces termes n'est pas toujours facile. Avant qu'un nouveau terme ne soit accepté comme le terme correct, il y a une période d'instabilité avec plusieurs candidats en compétition. Souvent un terme emprunté à l'anglais est le point de départ et, dans de nombreux cas, il est aussi le point d'arrivée. Finalement émerge un vainqueur qui est ensuite utilisé aussi bien dans les dictionnaires techniques que dans le vocabulaire quotidien de l'usager non spécialiste. La dernière version de NetGlos est la version russe et elle devrait être disponible dans deux semaines environ [fin septembre 1998]. Elle sera sans nul doute un excellent exemple du processus dynamique en cours pour la russification de la terminologie du Web.

d) La démocratie linguistique

Dans un rapport de l'UNESCO du début des années 50, l'enseignement dispensé dans sa langue maternelle était considéré comme un droit fondamental de l'enfant. La possibilité de naviguer sur Internet dans sa langue maternelle pourrait bien être son équivalent à l'Age de l'information. Si Internet doit vraiment devenir le réseau mondial qu'on nous promet, tous les usagers devraient y avoir accès sans problème de langue. Le considérer comme la chasse gardée de ceux qui, par accident historique, nécessité pratique ou privilège politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne connaissent pas cette langue.

e) Le commerce électronique

Bien qu'un Web multilingue soit souhaitable sur le plan moral et éthique, un tel idéal ne suffit pas pour en faire une réalité dépassant les limites actuelles. De même que l'utilisateur non anglophone peut maintenant avoir accès à la technologie dans sa propre langue, l'impact du commerce électronique peut constituer une force majeure qui fasse du multilinguisme la voie la plus naturelle vers le cyberespace.

Les vendeurs de produits et services dans le marché virtuel mondial que devient Internet doivent être préparés à faire face à un monde virtuel qui soit aussi multilingue que le monde physique. S'ils veulent réussir, ils doivent s'assurer qu'ils parlent bien la langue de leurs clients!"

ML: "Quel a été le bénéfice de l'utilisation du Web dans votre activité?"

BK: "Le principal service que nous offrons est l'enseignement des langues par le biais du Web. Notre organisme est dans la position unique d'en être venu à exister du fait d'Internet!"

ML: "Comment voyez-vous l'évolution vers un Internet multilingue?"

BK: "Comme l'existence de notre organisme est liée à l'importance attachée aux langues, je pense que son avenir sera excitant et stimulant. Mais il est impossible de pratiquer l'autosuffisance à l'égard de nos réussites et de nos réalisations. La technologie change à une allure frénétique. L'apprentissage durant toute la vie est une stratégie que nous devons tous adopter si nous voulons rester en tête et être compétitifs. C'est une tâche qui est déjà assez difficile dans un environnement anglophone. Si nous ajoutons à cela la complexité apportée par la communication dans un cyberespace multilingue et multiculturel, la tâche devient encore plus astreignante. Probablement plus encore que par le passé, la coopération est aussi indispensable que la concurrence.

Les germes d'une coopération par le biais d'Internet existent déjà. Notre projet NetGlos a dépendu du bon vouloir de traducteurs volontaires de nombreux pays: Canada, Etats-Unis, Autriche, Norvège, Belgique, Israël, Portugal, Russie, Grèce, Brésil, Nouvelle-Zélande, etc. Je pense que les centaines de visiteurs qui consultent quotidiennement les pages de NetGlos constituent un excellent témoignage du succès de ce type de relations de travail. Les relations de coopération s'accroîtront encore à l'avenir, mais pas nécessairement sur la base du volontariat."

3.4. Bases de données textuelles

Des bases de données textuelles sont accessibles par abonnement payant, par exemple FRANTEXT et l'ARTFL Project pour la langue française.

FRANTEXT, présent sur le Web depuis début 1995, est l'oeuvre de l'Institut national de la langue française (INaLF), une branche du CNRS (Centre national de la recherche scientifique, France). La base comprend, en mode interactif, 180 millions de mots-occurrences résultant du traitement informatique d'une collection représentative de 3.500 unités textuelles en arts, sciences et techniques couvrant cinq siècles (16e-20e siècles). Début 1998, 82 centres de recherche et bibliothèques universitaires d'Europe, d'Australie, du Japon et du Canada étaient abonnés, ce qui représentait 1.250 postes de travail ayant accès à la base. Le nombre de sessions d'interrogations était d'une cinquantaine par jour.

Dans son courrier électronique du 11 juin 1998, Arlette Attali indiquait les changements apportés par Internet dans sa vie professionnelle:

"Etant moi-même plus spécialement affectée au développement des bases textuelles à l'INaLF, j'ai été amenée à explorer les sites du Web qui proposaient des textes électroniques et à les 'tester'. Je me suis donc transformée en 'touriste textuelle' avec les bons et mauvais côtés de la chose. La tendance au zapping et au survol étant un danger permanent, il faut bien cibler ce que l'on cherche si l'on ne veut pas perdre son temps. La pratique du Web a totalement changé ma façon de travailler: mes recherches ne sont plus seulement livresques et donc d'accès limité, mais elles s'enrichissent de l'apport des textes électroniques accessibles sur Internet.

[A l'avenir je pense] contribuer à développer des outils linguistiques associés à la base FRANTEXT et à les faire connaître auprès des enseignants, des chercheurs, des étudiants et aussi des lycéens."

En janvier 1998, elle a mené une enquête auprès des utilisateurs de FRANTEXT pour mieux connaître ses utilisateurs. Les résultats de cette enquête sont disponibles en ligne.

L'ARTFL Project (ARTFL: American and French Research on the Treasury of the French Language - Recherche franco-américaine sur les trésors de la langue française) est un projet commun du Centre national de la recherche scientifique (CNRS, France) et de l'Université de Chicago (Illinois, USA), qui vise à constituer une base de données de 2.000 textes du 13e au 20e siècle concernant la littérature, la philosophie, les arts ou les sciences.

L'ARTFL travaille aussi à la version en ligne exhaustive de la première édition (1751-1772) de l'Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d'Alembert. 72.000 articles écrits par plus de 140 collaborateurs (dont Voltaire, Rousseau, d'Alembert, Marmontel, d'Holbach, Turgot, etc.) ont fait de cette encyclopédie un monumental ouvrage de référence pour les arts et les sciences. Destinée à rassembler puis divulguer les connaissances de l'époque, elle porte la marque des courants intellectuels et sociaux du 18e siècle, et c'est grâce à elle qu'ont été propagées les idées du Siècle des Lumières.

Les chiffres sont éloquents quant à l'ampleur du travail: l'Encyclopédie comprend 17 volumes de texte et 11 volumes de planches, 18.000 pages de texte et 20.736.912 mots. La base de données correspondant au premier volume est accessible en ligne à titre expérimental. La recherche peut être effectuée par mot, portion de texte, auteur ou catégorie, ou par la combinaison de ces critères entre eux. On dispose de renvois d'un article à l'autre, et des liens permettent d'aller d'une planche au texte, ou du texte au fac-similé des pages originales. L'automatisation complète des procédures de saisie a entraîné quelques erreurs typographiques et des erreurs d'identification qui seront corrigées plus tard. La recherche d'images par mot, portion de texte ou catégorie sera également possible à l'avenir.

L'ARTFL travaille aussi à un projet de base de données pour le Dictionnaire de l'Académie française, dont les différentes éditions se sont échelonnées entre 1694 et 1935. Ce projet inclut la saisie et l'édition du texte, ainsi que le développement d'un moteur de recherche spécifique. Les différentes éditions pourront être combinées dans une seule base de données qui permettra de consulter aussi bien une édition particulière que l'ensemble de celles-ci pour juger de l'évolution d'un terme. Pour le moment, seules deux éditions, la première (1694) et la cinquième (1798), sont disponibles pour une recherche par mot. Une fonction de recherche en texte intégral est prévue par la suite.

Une rubrique présente une liste des autres projets de l'ARTFL, notamment la version image de l'édition de 1740 du Dictionnaire historique et critique de Philippe Bayle, le Roget's Thesaurus de 1911, le Webster's Revised Unabridged Dictionary de 1913, le Thresor de la langue française de Jean Nicot (1606), un projet multilingue sur La Bible comprenant La Bible française de Louis Segond (1910), etc.

De par la quantité d'oeuvres dactylographiées à cette intention, le Project Gutenberg est la plus ancienne et la plus grande cyberbibliothèque qui existe. Créée en 1971 par Michael Hart aux Etats-Unis, elle a pour but de mettre gratuitement le plus grand nombre possible de textes à la disposition du plus grand nombre possible de lecteurs, à raison d'environ 45 titres par mois. Ses objectifs pour 2001 sont un stock de 10.000 textes littéraires et une transmission de 1.000 milliards de textes électroniques, soit 10.000 livres numériques vers 100 millions de lecteurs.

Le projet débuta en 1971 quand on donna à Michael Hart un compte de 100 millions de dollars de "temps machine" au Materials Research Lab de l'Université d'Illinois (USA). Immédiatement après avoir reçu ce crédit, il décida de le consacrer à la recherche et au stockage des oeuvres conservées dans les bibliothèques. Il décida aussi de stocker des textes électroniques de la manière la plus simple possible, en format ASCII, avec des lettres capitales pour les termes en italique, gras ou soulignés, afin que ces textes puissent être lus quels que soient la machine et le logiciel utilisés.

Cinquante heures environ sont nécessaires pour sélectionner, dactylographier, corriger et mettre en page un texte électronique. La dactylographie des textes est l'oeuvre de volontaires. Un ouvrage de taille moyenne - par exemple un roman de Stendhal ou de Jules Verne - est composé de deux fichiers ASCII.

Le Project Gutenberg inclut trois grands secteurs: la littérature de divertissement (Light Literature), comme Alice au pays des merveilles, Peter Pan ou les Fables d'Esope, la littérature "sérieuse" (Heavy Literature) comme La Bible, les oeuvres de Shakespeare ou Moby Dick, et la littérature de référence (Reference Literature), composée d'encyclopédies et de dictionnaires, par exemple le Thesaurus de Roget.

Sur le site web, Michael Hart explique que la collection de littérature de divertissement est destinée à amener devant l'écran aussi bien un enfant d'âge pré-scolaire qu'une personne du troisième âge. Des enfants ou des grand-parents vont rechercher le texte électronique de Peter Pan après avoir vu Hook au cinéma, ou bien ils lisent Alice au pays des merveilles après l'avoir regardé à la télévision. Pratiquement tous les épisodes de Star Trek ont mentionné des livres qui ont leur correspondant électronique dans le Project Gutenberg (Moby Dick, Peter Pan…). L'objectif est que les gens puissent retrouver des citations qu'ils ont entendues dans des conversations, des films, des musiques, d'autres livres, et ce à l'aide d'une bibliothèque contenant tous ces éléments dans un format facile pour la recherche.

En juillet 1997, le Projet Gutenberg fêtait son vingt-sixième anniversaire avec la mise en ligne des Merry Adventures of Robin Hood de Howard Pyle. En septembre 1997, il fêtait son millième texte électronique avec la version anglaise de la Divine comédie de Dante. Dans sa lettre d'information d'octobre 1997, Michael Hart annonçait son intention de compléter la collection d'Oscar Wilde, de "séparer" les oeuvres complètes de Shakespeare en fichiers individuels pour chaque oeuvre, et de mettre en ligne des ouvrages non anglophones.

Outre l'anglais, on trouve quelques oeuvres en allemand, espagnol, français, italien et latin, mais elles ne sont pas encore légion. En janvier 1998, si on lançait une recherche sur les ouvrages disponibles en langue française, on trouvait neuf titres, dont six romans de Stendhal (L'Abbesse de Castro, La Chartreuse de Parme, La Duchesse de Palliano, Le Rouge et le Noir, Les Cenci, Vittoria Accorambani), deux romans de Jules Verne (De la terre à la lune et Le tour du monde en 80 jours) et French Cave Paintings, un ouvrage sur les peintures préhistoriques. A part ce dernier ouvrage, disponible depuis 1995, tous ces ouvrages n'ont été intégrés à la bibliothèque que début 1997. Si aucun titre de Stendhal n'était disponible en anglais, il existait trois oeuvres de Jules Verne dans cete langue: 20,000 Leagues Under the Sea (disponible depuis septembre 1994), Around the World in 80 Days (disponible depuis janvier 1994) et From the Earth to the Moon (disponible depuis septembre 1993).

Début septembre 1998, le nombre de titres d'ouvrages en langue française était monté à onze, avec Cyrano de Bergerac, d'Edmond Rostand, disponible depuis mars 1998, et La Révolution française, de Thomas Carlyle, disponible depuis mai 1998.

La lettre d'information d'octobre 1997 annonçait le développement des collections étrangères du Projet Gutenberg. Dans celle de mars 1998, Michael Hart indiquait que les volontaires du projet préparaient maintenant des textes électroniques en allemand, espagnol, français et portugais. Ces prochains mois, il espérait aussi recevoir des textes dans les langues suivantes: arabe, catalan, chinois, coréen, danois, espéranto, grec, hébreu, hollandais, hongrois, italien, japonais, latin, lituanien, polonais, roumain, russe, slovaque et slovène.

3.5. Bases de données terminologiques

La consultation gratuite sur le Web de bases terminologiques est très appréciée des linguistes. Voici par exemple quatre bases terminologiques gérées par des organisations internationales: Eurodicautom, géré par le Service de traduction de la Commission européenne, ILOTERM, géré par l'Organisation internationale du Travail (OIT), TERMITE (Base de données terminologique des Télécommunications de l'UIT), géré par l'Union internationale des télécommunications (UIT) et WHOTERM (WHO Terminology Information System), géré par l'Organisation mondiale de la santé (OMS).

Eurodicautom est la base de terminologie multilingue préparée par le Service de traduction de la Commission européenne. Mise en place à l'origine pour aider les traducteurs de la Commission, elle est consultée aujourd'hui par un nombre croissant de fonctionnaires de l'Union européenne autres que des traducteurs, ainsi que par des professionnels des langues dans le monde entier. Constamment mise à jour, cette base est disponible dans douze langues: allemand, anglais, danois, espagnol, finnois, grec, hollandais, italien, latin, portugais et suédois, et elle couvre de nombreux sujets.

ILOTERM est une base de données terminologique quadrilingue (allemand, anglais, espagnol et français) qui est gérée par l'Unité de terminologie et de références du Service des documents officiels (OFFDOC) de l'Organisation internationale du Travail (OIT). Comme l'indique le site web,

"sa principale finalité est d'apporter des solutions, conformes à l'usage courant, à des problèmes terminologiques dans le domaine du travail et des questions sociales. Les termes figurent en anglais avec leurs équivalents en français, espagnol et/ou allemand. La base de données contient également (dans une à quatre langues) des articles concernant la structure et les programmes de l'OIT, les noms officiels d'institutions internationales, d'organismes nationaux et d'organisations nationales d'employeurs et de travailleurs, ainsi que les titres de réunions et d'instruments internationaux."

Géré par la section de traduction de l'Union internationale des télécommunications (UIT), TERMITE (Base de données terminologique des Télécommunications de l'UIT) est également quadrilingue (anglais, espagnol, français et russe).

"TERMITE contient tous les termes qui apparaissent dans tous les glossaires de l'UIT imprimés depuis 1980, ainsi que des termes plus récents en rapport avec les différentes activités de l'Union (en tout quelques 59.000 entrées). Normalement les collaborateurs qui s'occupent de l'amélioration et de la mise à jour de cete base de données sont des traducteurs ou des éditeurs techniques. TERMITE est surtout visité par les traducteurs internes mais aussi par des utilisateurs externes, travaillant dans le domaine des télécommunications."

Géré par l'Organisation mondiale de la santé (OMS), le système d'information terminologique WHOTERM (WHO Terminology Information System) est trilingue (anglais, espagnol et français). Il est constitué à partir des expressions et concepts des documents de l'OMS afin d'"améliorer la rigueur et la cohérence des textes rédigés, préparés ou traduits. Il permet également à tous ceux qui collaborent à des programmes techniques de l'OMS d'enrichir les terminologies nouvelles, de promouvoir leur normalisation et de garantir leur diffusion."

[Dans ce chapitre:]

[4.1. Services de traduction / 4.2. Traduction automatique / 4.3. Traduction assistée par ordinateur]

4.1. Services de traduction

Créé par Vorontsoff, Wesseling & Partners (Amsterdam, Pays-Bas), Aquarius est un répertoire de traducteurs et interprètes incluant 6.100 traducteurs, 800 sociétés de traduction, 91 domaines d'expertise et 369 combinaisons de langues. Ce site non commercial permet de localiser et de contacter les meilleurs traducteurs directement, sans intermédiaire ni agence. La recherche est possible par lieu, combinaison de langues et spécialité.

Fondé by Bill Dunlap, Euro-Marketing Associates propose Global Reach, une méthode permettant aux sociétés d'étendre leur présence sur Internet dans un contexte international, ce qui comprend la traduction de leur site web dans d'autres langues, le promotion de ce site et l'utilisation de bandeaux publicitaires nationaux pour augmenter la consultation locale. Bill Dunlap précise:

"Promouvoir votre site est aussi important que de le créer, sinon plus. Vous devez être préparé à utiliser au moins autant de temps et d'argent à promouvoir votre site que vous en avez passé à l'origine à le créer. Le programme Global Reach vous permettra de promouvoir votre site dans des pays non anglophones, afin d'atteindre une clientèle plus large… et davantage de ventes. Il existe de nombreuses bonnes raisons pour considérer sérieusement le marché international. Global Reach est pour vous le moyen d'étendre votre site web à de nombreux pays, de le présenter à des visiteurs en ligne dans leur propre langue, et d'atteindre les marchés en ligne de ces pays."

Dans son courrier électronique du 11 décembre 1998, il expliquait aussi comment il en était venu à intégrer Internet dans sa vie professionnelle:

"Depuis 1981, début de ma vie professionnelle, j'ai été impliqué dans la venue de sociétés américaines en Europe. Ceci est pour beaucoup un problème de langue, puisque leurs informations commerciales doivent être disponibles dans les langues européennes pour être prises en compte ici, en Europe. Comme le Web est devenu populaire en 1995, j'ai donné à ces activités une dimension 'en ligne', et j'en suis venu à promouvoir le cybercommerce européen auprès de mes compatriotes américains. Récemment, lors de l'Internet World à New York, j'ai parlé du cybercommerce européen et de la manière d'utiliser un site web pour toucher les différents marchés d'Europe."

4.2. Traduction automatique

La traduction automatique (TA) analyse le texte dans la langue-source et génère automatiquement le texte correspondant dans la langue-cible. L'être humain n'intervient pas au cours du processus, contrairement à la traduction assistée par ordinateur, qui exige une certaine interaction entre l'homme et la machine.

SYSTRAN, société spécialisée dans les logiciels de traduction, explique sur son site web:

"Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue-source (texte à traduire) vers la langue-cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain."

La European Association for Machine Translation (EAMT) (Association européenne pour la traduction automatique) donne la définition suivante:

"La traduction automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organisations de traduction professionnelles."

Voici l'historique donné sur le site de Globalink, société spécialisée dans les logiciels et services de traduction :

"Dès leurs débuts, la traduction automatique et le traitement de la langue naturelle ont progressé de pair avec l'évolution de l'informatique quantitative. Le développement des premiers ordinateurs programmables pendant la Seconde guerre mondiale a été mené et accéléré par les premiers efforts cryptographiques pour tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite à la guerre, la traduction et l'analyse du texte en langue naturelle procura une base de travail au secteur émergent de la théorie de l'information.

Pendant les années 50, la recherche sur la traduction automatique prit forme dans le sens de traduction littérale, ou traduction mot à mot, sans utiliser de règles linguistiques.

Le projet russe débuté à l'Université de Georgetown au début des années 50 représentait la première tentative systématique pour créer un système de traduction automatique utilisable.Tout au long des années 50 et au début des années 60, un certain nombre de recherches universitaires et recherches financées par les gouvernements furent menées aux Etats-Unis et en Europe. Au même moment, les progrès rapides dans le domaine de la linguistique théorique culminaient en 1965 avec la publication de Aspects of the Theory and Syntax (Aspects de la théorie et de la syntaxe) de Noam Chomsky, et transformaient radicalement la structure permettant de discuter et comprendre la phonologie, la morphologie, la syntaxe et la sémantique du langage humain.

En 1966, le rapport ALPAC du gouvernement des Etats-Unis faisait une estimation prématurément négative de la valeur et des perspectives des systèmes d'application pratique de la traduction automatique, mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la décennie suivante. Ce fut seulement à la fin des années 70, avec le développement de la technologie de l'informatique et des langues, que des tentatives sérieuses furent à nouveau entreprises. Cette période d'intérêt renouvelé vit aussi le développement du modèle de transfert de la traduction automatique et l'émergence des premiers systèmes commerciaux de traduction automatique.

Des entreprises commerciales comme SYSTRAN et METAL commençaient à prouver que la traduction automatique était viable et utile. Parallèlement à la mise sur le marché de produits et services de traduction automatique, ces systèmes liés à un processeur central mettaient aussi en lumière de nombreux problèmes. Des coûts élevés de développement, une lexicographie émanant d'un travail intensif et son implémentation linguistique, le lent développement de nouvelles combinaisons de langues, l'inaccessibilité pour l'utilisateur moyen et l'incapacité d'accéder aisément à de nouveaux stades de développement sont les caractéristiques de ces systèmes de la seconde génération."

Un certain nombre de sociétés sont spécialisées dans le développement de la traduction automatique, par exemple Lernout & Hauspie, Globalink, Logos ou SYSTRAN.

Basé à Ypres (Belgique) et Burlington (Massachussets, USA), Lernout & Hauspie (L&H), leader international dans ce domaine, développe une technologie avancée du langage dans diverses applications et produits commerciaux. La société offre quatre technologies de base: la reconnaissance automatique de la langue, la compression numérique de la parole, le passage du texte à la parole et le passage du texte au texte. Les produits émanant des trois premières technologies sont vendus aux grandes sociétés des industries suivantes: télécommunications, informatique, multimédias, électronique grand public et électronique automotrice. Les services de traduction (passage du texte au texte) sont à destination des sociétés de technologie de l'information, des marchés verticaux et des marchés d'automatisation.

Le Machine Translation Group (Groupe de traduction automatique) de Lernout & Hauspie comprend des entreprises qui développent, produisent et vendent des systèmes de traduction automatique hautement sophistiqués: L&H Language Technology, AppTek, AILogic, NeocorTech et Globalink. Chaque entreprise est un leader international dans sa propre partie.

Fondé en 1990, Globalink est une société américaine spécialisée dans les logiciels et services de traduction. Elle offre des solutions sur mesure à partir d'une gamme de logiciels, options en ligne et services de traduction professionnelle. La société diffuse ses logiciels de traduction en allemand, anglais, espagnol, français, italien et portugais, et propose des solutions aux problèmes de traduction à tous niveaux: particuliers, petites sociétés, multinationales et gouvernements, que ce soit pour un produit individuel donnant une traduction préliminaire rapide ou un système complet permettant de gérer des traductions de documents professionnels.

Le site web donne les informations suivantes:

"Avec les logiciels d'application de Globalink, l'ordinateur utilise trois ensembles de données : le texte à traiter, le programme de traduction et un dictionnaire de mots et d'expressions dans la langue-source, ainsi que des informations sur les concepts évoqués par le dictionnaire et les règles applicables à la phrase: règles de syntaxe et de grammaire, y compris des algorithmes gouvernant la conjugaison des verbes, l'adaptation de la syntaxe, les accords de genre et de nombre et la mise en ordre des mots.

Une fois que l'utilisateur a sélectionné le texte et lancé le processus de traduction, le programme commence à comparer les mots du texte à traiter avec ceux qui sont stockés dans le dictionnaire. Une fois l'adéquation trouvée, l'application prépare une notice complète qui inclut des informations sur les significations possibles du mot et, d'après le contexte, ses relations avec les autres mots dans la même phrase. Le temps requis pour la traduction dépend de la longueur du texte. Un document de trois pages et 750 mots demande un traitement de trois minutes environ pour une première traduction."

Randy Hobler est directeur de marketing pour les produits et services Internet de Globalink. Dans son courrier électronique du 3 septembre 1998, il écrivait:

"En 1998, 85 % du contenu du Web est en anglais, et ce chiffre est à la baisse. Il y a non seulement plus de sites web et d'internautes non anglophones, mais aussi une localisation plus grande de sites de sociétés et d'organismes, et un usage accru de la traduction automatique pour traduire des sites web à partir ou vers d'autres langues.

Comme Internet n'a pas de frontières nationales, les internautes s'organisent selon d'autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j'appelle les 'nations des langues', tous ces internautes où qu'ils soient qu'on peut regrouper selon leur langue maternelle. Ainsi la nation de la langue espagnole inclut non seulement les internautes d'Espagne et d'Amérique latine, mais aussi tous les hispanophones vivant aux Etats-Unis, ou encore ceux qui parlent espagnol au Maroc.

Concernant la transparence de la langue, nous arrivons rapidement au point où une traduction très fidèle du texte et de la parole sera si commune qu'elle pourra faire partie des plate-formes ou même des puces. A ce point, quand le développement d'Internet aura atteint sa vitesse de croisière, que la fidélité de la traduction atteindra plus de 98% et que les différentes combinaisons de langues possibles auront couvert la grande majorité du marché, la transparence de la langue (toute communication d'une langue à une autre) sera une vision trop restrictive pour ceux qui vendent cette technologie. Le développement suivant sera la 'transparence transculturelle et transnationale' dans laquelle les autres aspects de la communication humaine, du commerce et des transactions au-delà du seul langage entreront en scène. Par exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci varie en fonction des sociétés. La lettre O réalisée avec le pouce et l'index signifie 'OK' aux Etats-Unis alors qu'en Argentine c'est un geste obscène.

Quand se produira l'inévitable développement de la vidéoconférence multilingue multimédias, il sera nécessaire de corriger visuellement les gestes. Le Media Lab du MIT [MIT: Massachussets Institute of Technology], Microsoft et bien d'autres travaillent à la reconnaissance informatique des expressions faciales, l'identification des caractéristiques biométriques par le biais du visage, etc. Il ne servira à rien à un homme d'affaires américain de faire une excellente présentation à un Argentin lors d'une vidéoconférence multilingue sur le Web, avec son discours traduit dans un espagnol argentin parfait, s'il fait en même temps le geste O avec le pouce et l'index. Les ordinateurs pourront intercepter ces types de messages et les corriger visuellement.

Les cultures diffèrent de milliers de façons, et la plupart d'entre elles peuvent être modifiées par voie informatique lorsqu'on passe de l'une à l'autre. Ceci inclut les lois, les coutumes, les habitudes de travail, l'éthique, le change monétaire, les différences de taille dans les vêtements, les différences entre le système métrique et le système de mesures anglophone, etc., etc. Les sociétés dynamiques répertorieront et programmeront ces différences, et elles vendront des produits et services afin d'aider les habitants de la planète à mieux communiquer entre eux. Une fois que ceux-ci seront largement répandus, ils contribueront réellement à une meilleure compréhension à l'échelle internationale."

Basée aux Etats-Unis, au Canada et en Europe, Logos est une société internationale spécialisée dans la traduction automatique depuis 25 ans. Elle procure différents outils de traduction, des systèmes de traduction automatique et des services de soutien.

SYSTRAN (acronyme de System Translation) est également une société spécialisée dans les logiciels de traduction automatique. Son siège est situé à Soisy-sous-Montmorency (France). C'est sa succursale, située à La Jolla (Californie), qui assure les ventes, le marketing et le développement des logiciels. Une des réalisations de la société est AltaVista Translation, un service de traduction automatique de pages web de l'anglais vers les langues suivantes : allemand, français, espagnol, italien et portugais, et vice versa. Ce service a été mis en place en décembre 1997 à la demande d'AltaVista, moteur de recherche utilisé par douze millions d'internautes, suite au problème des langues devenu sensible sur Internet.

Basée à Montréal (Québec), Alis Technologies développe et commercialise des solutions et services de traitement linguistique au moyen de logiciels, périphériques et solutions de traduction qui transforment des systèmes informatiques unilingues en outils multilingues.

Une autre réalisation intéressante est SPANAM/ENGSPAN, un système de traduction automatique développé par les linguistes computationnels, les traducteurs et le programmeur systèmes de l'Organisation panaméricaine de la santé (PAHO) (Bureau régional de l'Organisation mondiale de la santé pour les Amériques, situé à Washington, D.C., USA). Depuis 1980, le service de traduction utilise SPANAM (de l'espagnol vers l'anglais) et ENGSPAN (de l'anglais vers l'espagnol), ce qui lui a permis de traiter plus de 25 millions de mots dans les deux langues de travail de la PAHO. Le personnel et les traducteurs extérieurs post-éditent ensuite l'information brute avec un gain de productivité de 30 à 50%. Le système est installé sur le réseau local du siège de l'organisation et dans un certain nombre de bureaux régionaux pour pouvoir être utilisé par le personnel des services techniques et administratifs. Il est également diffusé auprès d'organismes publics et d'organismes à but non lucratif aux Etats-Unis, en Amérique latine et en Espagne.

Des associations contribuent au développement de la traduction automatique.

L'Association for Computational Linguistics (ACL) (Association pour la linguistique computationnelle) est le principal organisme international à la fois scientifique et professionnel rassemblant ceux qui travaillent sur les problèmes de la langue naturelle et de la computation. Publiée par la MIT Press, la revue trimestrielle de l'ACL, Computational Linguistics (ISSN 0891-2017) est un forum de premier plan dans le domaine de la linguistique computationnelle et du traitement de la langue naturelle. Cette revue est complétée par la lettre d'information The Finite String. La branche européenne de l'ACL est l'European Chapter of the Association of Computational Linguistics (EACL).

L'International Association for Machine Translation (IAMT) (Association internationale pour la traduction automatique) regroupe trois associations couvrant les Amériques, l'Europe et l'Asie/Pacifique: l'Association for Machine Translation in the Americas (AMTA), la European Association for Machine Translation (EAMT) et l'Asia-Pacific Association for Machine Translation (AAMT).

L'Association for Machine Translation in the Americas (AMTA) (Association pour la traduction automatique dans les Amériques) est à la disposition de tous ceux s'intéressent à la traduction automatique en Amérique latine, au Canada et aux Etats-Unis. Ses membres comprennent des demandeurs de traductions, des développeurs de systèmes commerciaux, des chercheurs, des sponsors et des personnes impliquées dans la science de la traduction automatique et sa diffusion.

Basée à Genève (Suisse), l'European Association for Machine Translation (EAMT) (Association européenne pour la traduction automatique) est également une organisation à la disposition de ceux qui s'intéressent à la traduction automatique et aux outils de traduction, y compris les utilisateurs de ces techniques, les développeurs et les chercheurs.

Créée en 1991, la Japan Association for Machine Translation, devenue ensuite l'Asia-Pacific Association for Machine Translation (AAMT) (Association de l'Asie et du Pacifique pour la traduction automatique), comprend des chercheurs, des fabricants et des utilisateurs de systèmes de traduction automatique. L'association participe au développement des technologies de traduction automatique, ainsi qu'à leur amélioration, leur enseignement et leur diffusion.

Dans Web embraces language translation (La traduction des langues sur le Web), un article de ZDNN (ZD Network News) paru le 21 juillet 1998, Martha L. Stone expliquait:

"Parmi les nouveaux produits d'un secteur de traduction représentant 10 milliards de dollars [60 milliards de FF], on trouve les traducteurs instantanés de sites web, de groupes de discussion, de courrier électronique et d'intranets d'entreprise.

Les principales sociétés de traduction se mobilisent pour saisir les opportunités du marché. Voici quelques exemples.

SYSTRAN s'est associé avec AltaVista pour produire babelfish.altavista.digital.com, avec 500 à 600 mille visiteurs quotidiens et environ un million de traductions par jour, traductions qui vont des recettes à des pages web complètes.

15.000 sites environ ont un lien vers babelfish, qui peut traduire [de l'anglais] vers le français, l'italien, l'allemand, l'espagnol et le portugais, et vice versa. Le japonais est prévu pour bientôt.

"Cette popularité est simple. Avec Internet, on peut maintenant utiliser l'information provenant des Etats-Unis. Tout ceci contribue à une demande en hausse", déclare de chez lui à Paris Dimitros Sabatakakis, directeur général de SYSTRAN.

Alis a mis au point le système de traduction du Los Angeles Times qui doit bientôt être lancé sur le site et qui proposera des traductions [de l'anglais] vers l'espagnol et le français, et plus tard le japonais. D'un clic de souris, une page web complète peut être traduite dans la langue désirée.

Globalink propose des logiciels, des systèmes de traduction de pages web, un service de messagerie électronique gratuit et des logiciels permettant de traduire le texte des groupes de discussion.

Cependant, alors que ces systèmes de traduction automatique deviennent populaires dans le monde entier, les directeurs des sociétés qui les développent admettent qu'ils ne peuvent répondre à toutes les situations.

Les porte-parole de Globalink, Alis et SYSTRAN utilisent des expressions comme "pas parfait" et "approximatif" quand ils décrivent la qualité des traductions, et précisent bien que les phrases soumises à la traduction doivent être simples, grammaticalement correctes et sans tournures idiomatiques.

"Les progrès réalisés en traduction automatique répondent à la loi de Moore: la qualité double tous les dix-huit mois, déclare Vin Crosbie, un analyste de l'industrie du Web basé à Greenwich, dans le Connecticut [USA]. "Ce n'est pas parfait, mais certains de mes correspondants ne se rendent même pas compte que j'utilise un logiciel de traduction."

Ces traductions font souffrir la syntaxe et l'utilisation des mots à bon escient, parce que les bases de données-dictionnaires ne peuvent déchiffrer la différence entre les homonymes […].

"La traduction humaine coûterait entre 50 et 60 dollars [300 à 360 FF] par page web, ou environ 20 cents [1,15 FF] par mot", explique Sabatakis, directeur de SYSTRAN.

Alors que cette dernière solution peut convenir pour les pages 'statiques' d'information sur l'entreprise, la traduction automatique, elle, est gratuite sur le Web, et le logiciel coûte souvent moins de 100 dollars [600 FF], selon le nombre de langues disponibles pour traduction et les caractéristiques propres au logiciel."

4.3. Traduction assistée par ordinateur

Contrairemant à la traduction automatique (TA) qui, sans intervention humaine, analyse le texte dans la langue-source et génère automatiquement le texte correspondant dans la langue-cible, la traduction assistée par ordinateur (TAO) exige une certaine interaction entre l'homme et la machine.

Le Bureau des services linguistiques de l'Organisation mondiale de la santé (OMS) (Genève, Suisse) travaille dans les six langues officielles de l'organisation: anglais, arabe, chinois, espagnol, français et russe.

Des expériences de traduction automatique ont été tentées à plusieurs reprises, mais les traductions obtenues demandaient un travail de révision trop important, si bien que, au stade actuel de son développement et compte tenu du type de documents à traduire, cette technologie n'a pas été jugée suffisamment rentable.

L'Unité de Traduction assistée par ordinateur et de Terminologie (CTT) explore donc les possibilités techniques qu'offrent les systèmes les plus récents de traduction assistée par ordinateur, reposant sur la notion de "mémoire de traduction". Comme il est expliqué sur le site web,

"ces systèmes permettent au traducteur d'avoir immédiatement accès au patrimoine du 'déjà traduit' dans lequel il peut puiser, quitte à rejeter ou modifier les solutions retenues par ses prédécesseurs, son choix définitif venant ensuite enrichir la mémoire. Ainsi, en archivant la production quotidienne, le traducteur aurait vite à sa disposition une 'mémoire' colossale de solutions toutes faites à un nombre important de problèmes de traduction."

Le CTT a entrepris l'évaluation de plusieurs applications dans les domaines suivants: archivage électronique et recherche en texte intégral, alignement de textes bilingues et multilingues, traduction assistée par ordinateur, gestion de mémoires de traduction et de bases de données terminologiques, et reconnaissance vocale.

Contrairement aux prévisions optimistes d'il y a cinquante ans annonçant l'apparition imminente de la machine à traduire universelle, les systèmes de traduction automatique ne produisent toujours pas de traductions de bonne qualité. Pourquoi? Pierre Isabelle et Patrick Andries, du Laboratoire de recherche appliquée en linguistique informatique (RALI) (Montréal, Québec) expliquent ce échec dans La traduction automatique, 50 ans après, un article publié dans les Dossiers du cyberquotidien Multimédium:

"L'objectif ultime de construire une machine capable de rivaliser avec le traducteur humain n'a cessé de fuir par devant les lentes avancées de la recherche. Les approches traditionnelles à base de règles ont conduit à des systèmes qui tendent à s'effondrer sous leur propre poids bien avant de s'élever au-dessus des nuages de l'ambiguïté sémantique. Les aproches récentes à base de gros ensembles de textes, appelés corpus - qu'elles soient fondées sur les méthodes statistiques ou les méthodes analogiques - promettent bien de réduire la quantité de travail manuel requise pour construire un système de TA [traduction automatique], mais il est moins sûr qu'elles promettent des améliorations substantielles de la qualité des traductions machine."

Reprenant les idées de Yehochua Bar-Hillel exprimées dans The State of MachineTranslation (L'état de la traduction automatique), article publié en 1951,Pierre Isabelle et Patrick Andries définissent trois stratégies d'application dela traduction automatique:

a) une aide pour "balayer" la production écrite et fournir des traductions approximatives,

b) des situations de "sous-langues naturelles simples", comme l'implantation réussie en 1977 du système METEO qui traduit les prévisions météorologiques du ministère de l'Environnement canadien,

c) pour de très bonnes traductions de textes complexes, le couplage de l'humain et de la machine avant, pendant et après le processus de traduction automatique, couplage qui n'est pas forcément économique comparé à la traduction traditionnelle.

Les auteurs penchent plus pour "un poste de travail pour le traducteur humain" que pour un "traducteur robot":

"Les recherches récentes sur les méthodes probabilistes ont en effet permis de démontrer qu'il était possible de modéliser d'une manière extrêmement efficace certains aspects simples du rapport traductionnel entre deux textes. Par exemple, on a mis au point des méthodes qui permettent de calculer le bon "appariement" entre les phrases d'un texte et de sa traduction, c'est-à-dire d'identifier à quelle(s) phrase(s) du texte d'origine correspond chaque phrase de la traduction. Appliquées à grande échelle, ces techniques permettent de constituer, à partir des archives d'un service de traduction, un mémoire de traduction qui permettra souvent de recycler des fragments de traduction antérieures. Des systèmes de ce genre ont déjà commencé à apparaître sur le marché (Translation Manager II de IBM, Translator's Workbench de Trados, TransSearch du RALI, etc.).

Les recherches les plus récentes se concentrent sur des modèles capables d'établir automatiquement les correspondances à un niveau plus fin que celui de la phrase: syntagmes et mots. Les résultats obtenus laissent entrevoir toute une famille de nouveaux outils pour le traducteur humain, dont les aides au dépouillement terminologique, les aides à la dictée et à la frappe des traductions ainsi que les détecteurs de fautes de traduction."

[Dans ce chapitre:]

[5.1. Traduction automatique et recherche / 5.2. Linguistique computationnelle / 5.3. Ingénierie du langage / 5.4. Internationalisation et localisation]

5.1. Traduction automatique et recherche

Au sein du Laboratoire CLIPS (Communication langagière et interaction personne-système) de la Fédération IMAG (France), le Groupe d'étude pour la traduction automatique (GETA) est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Les thèmes de recherche du GETA concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue. Le GETA est issu du CETA (1961- 1971), laboratoire pionnier de la traduction automatique en France.

Actuellement, le GETA reste actif en TAO du réviseur, mais réoriente sa recherche, depuis 1988, vers la TAO individuelle, qui comporte deux volets, la TAO du traducteur et celle du rédacteur. Les définitions de ces deux TAO sont données sur le site:

"La TAO du traducteur consiste à offrir des outils de bureautique linguistique à des traducteurs (professionnels ou occasionnels). C'est l'homme qui traduit. Dans ce domaine, nous travaillons en coopération avec d'autres groupes de recherche, qui apportent des données ou outils linguistiques (lexiques, lemmatiseurs), et nous nous intéressons aux problèmes informatiques liés à l'intégration de ces éléments sous une forme utilisable par des traducteurs occasionnels, désireux de les employer depuis leurs applications favorites. Nous avons récemment élaboré et proposé en collaboration avc SITE-Eurolang, le projet Montaigne, qui vise à mettre à disposition de la communauté scientifique le logiciel Eurolang-Optimizer, via Internet, et à l'utiliser pour constituer des grosses bases terminologiques pouvant ensuite aussi alimenter des systèmes automatiques.

La TAO du rédacteur est l'objectif principal des travaux en cours, regroupés dans le projet LIDIA. L'idée de base est d'offrir à un rédacteur unilingue la possibilité de rédiger dans sa langue, et, au prix d'un dialogue de standardisation et de désambiguïsation (qu'il conviendra de rendre le moins lourd et le plus convivial possible), d'être traduit dans plusieurs langues, sans révision ou avec une révision minimale. Il s'agit donc de TAO fondée sur le dialogue (DBMT, pour dialogue-based machine translation) et de préédition indirecte, mais c'est bien la machine qui traduit. Une première maquette, LIDIA-1, partant du français et allant vers l'allemand, le russe et l'anglais, a été spécifiée et réalisée au cours des trois dernières années.

Le GETA participe aussi au projet de l'Universal Networking Language (UNL) sous l'égide de l'Université des Nations Unies (UNU). Voici la présentation du projet préparée en septembre 1998 par Christian Boitet, directeur du GETA:

"Il s'agit non de TAO habituelle, mais de communication et recherche d'information multilingue. 14 groupes ont commencé le travail sur 12 langues (plus 2 annexes) depuis début 97. L'idée est:

- développer un standard, dit UNL, qui serait le HTML du contenu linguistique.

- pour chaque langue, développer un générateur (dit 'déconvertisseur') accessible sur un ou plusieurs serveurs, et un 'enconvertisseur'.

L'UNU (Université des Nations Unies, Tokyo) finance 50% du coût. D'après notre évaluation sur la première année, c'est plutôt 30 à 35%, car le travail (linguistique et informatique) est énorme, et le projet passionnant: les permanents des laboratoires s'y investissent plus que prévu. […]

La déconversion tourne pour le japonais, le chinois, l'anglais, le portugais, l'indonésien, et commence à tourner pour le français, l'allemand, le russe, l'italien, l'espagnol, l'hindi, l'arabe, et le mongol.

Chaque langue a une base lexicale de 30.000 à 120.000 liens UW [universal word]—lexème.

L'enconversion n'est pas (si on veut de la qualité pour du tout venant) une analyse classique. C'est une méthode de fabrication de graphes UNL qui suppose une bonne part d'interaction, avec plusieurs possibilités :

- analyse classique multiple suivie d'une désambiguïsation interactive en langue source,

- entrée sous langage contrôlé,

- encore plus séduisant (et encore pas clair, au niveau recherche pour l'instant), entrée directe via une interface graphique reliée à la base lexicale et à la base de connaissances.

Applications possibles :

- courriel multilingue

- informations multilingues

- dictionnaires actifs pour la lecture de langues étrangères sur le Web

- et bien sûr TA [traduction automatique] de mauvaise qualité (ce qu'on trouve actuellement, mais pour tous les couples à cause de l'architecture à pivot) pour le surf web et la veille.

On travaille actuellement sur les informations sportives sur le Web, surtout sur le foot. On construit une base de documents, où chaque fichier est structuré (à la HTML) et contient, pour chaque énoncé, l'énoncé original, sa structure UNL, et autant de traductions qu'on en a obtenu. Un tel document peut être recherché dans une base en traduisant la question en UNL, puis affiché (le UNL viewer existe depuis un an) dans autant de fenêtres d'un brauser Web que de langues sélectionnées.

Perspectives:

Le projet a un problème de volume: grande surface, pas assez d'épaisseur. Il faudrait 3 à 5 fois plus de monde partout pour que ça avance assez vite (pour que Microsoft et d'autres ne finissent pas par tout reprendre et revendre, alors qu'on vise une utilisation ouverte, du type de ce qu'on fait avec les serveurs et clients Web). Les subventions des sociétés japonaises à l'UNU pour ce projet (et d'autres) se tarissent à cause de la crise japonaise. Le groupe central est beaucoup trop petit (4 personnes qui font le logiciel, le japonais, l'anglais, l'administration, c'est peu même avec de la sous-traitance).

De plus, le plan général est d'ouvrir aux autres langues de l'ONU en 2000. Il faudrait arriver à un état satisfaisant pour les 13 autres avant.

Du point de vue politique et culturel, ce projet est très important, en ce qu'il montre pour la première fois une voie possible pour construire divers outils soutenant l'usage de toutes les langues sur Internet, qu'elles soient majoritaires ou minoritaires. En particulier, ce devrait être un projet majeur pour la francophonie.

Dans l'état actuel des choses, je pense que l'élan initial a été donné, mais que la première phase (d'ici 2000) risque de retomber comme un soufflé si on ne consolide pas très vite le projet, dans chaque pays participant.

Et donc:

L'UNU cherche comment monter un soutien puissant à la mesure de cette ambition. Je pense que, pour la francophonie par exemple, il faudrait un groupe d'une dizaine de personnes ne se consacrant qu'à ce projet pendant au moins 10 ans, plus des stagiaires et des collaborateurs sur le réseau, bénévoles ou intéressés par la mise à disposition gratuite de ressources et d'outils."

Voici quelques groupes de recherche anglophones.

Créé à la fin des années 80, le CL/MT Research Group (Computational Linguistics(CL) and Machine Translation (MT) Group - Groupe de linguistiquecomputationnelle et de traduction automatique) est un groupe de recherche duDépartement des langues et de linguistique de l'Université d'Essex(Royaume-Uni).

Fondé en 1986, le Center for Machine Translation (CMT) (Centre pour la traduction automatique) est un centre de recherche inclus dans le nouvel Institut des technologies des langues de l'Université Carnegie Mellon (Pittsburgh, Pennsylvanie, USA). Il est spécialisé dans les technologies de traitement de la langue naturelle, particulièrement la traduction automatique multilingue de haute qualité.

Le Computing Research Laboratory (CRL) (Laboratoire de recherche informatique) à la New Mexico State University (NMSU) (Université d'Etat du Nouveau Mexique - Etats-Unis) est un centre de recherche à but non lucratif qui se consacre à la recherche de base et au développement de logiciels dans les applications informatiques avancées du traitement de la langue naturelle, de l'intelligence artificielle et de la conception d'interfaces graphiques pour les utilisateurs. Les applications développées à partir de cette recherche de base incluent un ensemble de configurations de traduction automatique, extraction d'information, acquisition du savoir, enseignement intelligent, et systèmes de traduction pour poste de travail.

Géré par le Département de linguistique du Groupe de recherche sur la traduction de l'Université Brigham Young (Utah, USA), TTT.org (Translation, Theory and Technology) (Traduction, théorie et technologie) procure des informations sur la théorie et la technologie de la langue, particulièrement dans le domaine de la traduction. La technologie de la traduction inclut les outils de traduction pour poste de travail et la traduction automatique.

TTT.org s'intéresse aussi aux normes d'échanges de données permettant à divers outils de fonctionner en lien les uns avec les autres, ce qui permet l'intégration d'outils de la part de vendeurs multiples dans la chaîne multilingue de production de documents. Dans ce domaine, TTT.org est impliqué dans le développement de MARTIF (machine-readable terminology interchange format - format d'échange de terminologie lisible par la machine), un format permettant de faciliter l'interaction de données terminologiques entre les systèmes de gestion de terminologie. Ce format est le résultat de plusieurs années de collaboration internationale intense entre les terminologues et les experts en bases de données de plusieurs organisations, incluant les organismes universitaires, la Text Encoding Initiative (TEI) (Initiative pour le codage du texte) et la Localisation Industry Standards Association (LISA) (Association pour les normes de l'industrie de la localisation).

Le Natural Language Group (NLG) (Groupe de langue naturelle) de l'USC/ISI (University of Southern California/Information Sciences Institute - Université de la Californie du Sud/Institut des sciences de l'information) traite de plusieurs aspects du traitement de la langue naturelle: traduction automatique, résumé automatique de texte, accès multilingue aux verbes et gestion du texte, développement de taxonomies de concepts (ontologies), discours et génération de texte, élaboration de grands lexiques pour plusieurs langues, et communication multimédias.

Eduard Hovy, directeur du Natural Language Group, expliquait dans son courrier électronique du 27 août 1998:

"Le plan de votre étude me paraît très intéressant. Je me demande cependant où vous présentez les applications et fonctionnalités n'ayant pas trait à la traduction, comme la recherche documentaire et le résumé automatique de texte. On ne peut rien trouver sur le Web sans recherche documentaire, et tous les engins de recherche (AltaVista, Yahoo!, etc.) sont basés sur cette technologie. De même, bien que ceci soit plus récent, il y a des chances pour que beaucoup de gens utilisent bientôt des fonctions de résumé automatique pour condenser ou extraire le contenu principal d'un document long ou d'un ensemble de documents. […]

Dans ce contexte, le multilinguisme sur le Web est un autre facteur de complexité. Les gens écrivent dans leur propre langue pour diverses raisons: commodité, discrétion, communication locale, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons, une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux (ceux qui procurent l'information la plus récente qui sera ensuite utilisée par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auquel ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue 'passif' qui peut scanner rapidement les textes afin de supprimer ce qui est sans intérêt avant de donner les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas; comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis faire une traduction automatique rapide à partir du résultat obtenu, laissant à un être humain ou un classificateur de texte (type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.

Pour ces raisons, durant ces cinq dernières années, le gouvernement des Etats-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des textes dans toutes les langues. Ces textes seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles.

En consultant le MuST Multilingual Information Retrieval, Summarization, and Translation System (Système MuST de recherche documentaire, résumé et traduction multilingues), vous aurez une démonstration de notre version de ce programme de recherche, qui utilise l'anglais comme langue de l'utilisateur sur un ensemble d'environ 5.000 textes en anglais, japonais, arabe, espagnol et indonésien.

Entrez votre demande (par exemple, 'baby', ou ce que vous voulez) et appuyez sur la touche 'Retour'. Dans la fenêtre du milieu vous verrez les titres (ou bien les mots-clés, traduits). Sur la gauche vous verrez la langue de ces documents: 'Sp' pour espagnol, 'Id' pour indonésien, etc. Cliquez sur le numéro situé sur la partie gauche de chaque ligne pour voir le document dans la fenêtre du bas. Cliquez sur 'Summarize' pour obtenir le résumé. Cliquez sur 'Translate' pour obtenir la traduction (attention, les traductions en arabe et en japonais sont extrêmement lentes! Essayez plutôt l'indonésien pour une traduction rapide mot à mot).

Ce programme de démonstration n'est pas (encore) un produit. Nous avons de nombreuses recherches à mener pour améliorer la qualité de chaque étape. Mais ceci montre la direction dans laquelle nous allons."

5.2. Linguistique computationnelle

Le Laboratoire de recherche appliquée en linguistique informatique (RALI) (Montréal, Québec) réunit des informaticiens et des linguistes d'expérience dans le traitement automatique de la langue tant par des méthodes symboliques "classiques" que par de nouvelles méthodes probabilistes.

Un rapide historique du RALI est donné sur le site web: grâce au laboratoire Incognito fondé en 1983, le département d'informatique et de recherche opérationnelle (DIRO) de l'Université de Montréal avait acquis une stature de premier plan en matière de recherche en traitement automatique de la langue naturelle. En juin 1997, le DIRO a obtenu du ministère de l'Industrie du gouvernement canadien l'impartition du programme de recherche en traduction assistée par ordinateur (TAO) poursuivi depuis 1984 par le Centre d'innovation en technologie de l'information (CITI). C'est dans ce cadre qu'a été mis sur pied le RALI qui permet de mettre en valeur les résultats de ces recherches.

Les domaines de compétence du RALI sont les suivants: outils d'aide à la traduction, appariement automatique de textes, génération automatique de texte, réaccentuation automatique, recherche d'information aidée par des outils linguistiques, extraction d'information, identification de la langue et du codage, et transducteurs à états finis.

Dans le cadre du Projet TransX, le RALI élabore une nouvelle génération d'outils d'aide aux traducteurs (TransType, TransTalk, TransCheck et TransSearch). Ces outils sont tous fondés sur des modèles de traduction probabilistes qui calculent automatiquement les correspondances entre le texte produit par le traducteur et le texte en langue de départ.

"TransType accélère la saisie de la traduction en anticipant les choix du traducteur et, au besoin, en les critiquant. L'outil propose ses choix en tenant compte à la fois du texte en langue de départ et de la traduction partielle déjà produite par le traducteur.

TransTalk effectue la transcription automatique d'une traduction dictée. Cet outil se sert d'un modèle de traduction probabiliste pour améliorer la performance du module de reconnaissance vocale.

TransCheck détecte automatiquement certaines erreurs de traduction en vérifiant que les correspondances entre les segments d'une ébauche de traduction et les segments du texte en langue de départ respectent les propriétés souhaitées d'une bonne traduction.

TransSearch permet au traducteur d'effectuer des recherches dans des bases de données de traductions pré-existantes pour y retrouver des solutions toutes faites à ses problèmes de traduction. Les bases de données requises nécessitent un appariement entre la traduction et le texte en langue de départ."

Financés par le société XEROX, les projets du Xerox Palo Alto Research Center(PARC) incluent deux projets relatifs aux langues: Inter-Language Unification(ILU) et Natural Language Theory and Technology (NLTT).

L'Inter-Language Unification (ILU) System (Système d'unification inter-langues) est un système d'interface-objet multi-langues. Les interfaces-objet fournis par l'ILU dissimulent les différences d'implémentation entre les différentes langues, les différents espaces d'adresse et les types de systèmes d'exploitation. ILU peut être utilisé pour construire des bibliothèques multilingues orientées vers l'objet ("bibliothèques de catégorie") avec des interfaces bien spécifiés indépendants des langues. Il peut être utilisé aussi pour réaliser des systèmes distribués, ou pour définir et établir les documents des interfaces entre les modules de programmes non distribués.

Back to Index Next