*Interview of January 25, 2000 (original interview in French)
= Can you tell us about your website?
Our website was first conceived as an Intranet service for translators in Switzerland, who often deal with the same kind of material as the federal government's translators. Some parts of it are useful to any translators, wherever they are. The electronic dictionaries (Dictionnaires électroniques) are only one section of the website. Other sections deal with administration, law, the French language and general information. The site also hosts the pages of the Conference of Translation Services of European States (COTSOES).
= What exactly is your professional activity?
I'm head of the French Section of the Swiss Federal Government's Central Linguistic Services, which means I'm in charge of organising translation matters for all the linguistic services of the Swiss government.
= What do you think of the debate about copyright on the Web?
There's a problem here and the solution isn't obvious. It's a pity the battle against this kind of fraud will eventually justify, along with other abuses, a "Web police," which sadly is very far from the spirit in which the Web was created.
= How do you see the growth of a multilingual Web?
We now have a multilingual Internet. We have to build it up and ensure it's easy to access, which'll probably take a bit longer.
[EN] Barbara Grimes (Hawaii)
#Editor of Ethnologue: Languages of the World
The Ethnologue is a catalogue of more than 6,700 languages. A paper version and a CD-ROM are also available.
[Interview 18/08/1998 // Interview 15/01/2000]
*Interview of August 18, 1998
= How did using the Internet change your professional life?
We have found the Internet to be useful, convenient, and supplementary to our work. Our main use of it is for e-mail. It is a convenient means of making information more widely available to a wider audience than the printed Ethnologue provides.
On the other hand, many people in the audience we wish to reach do not have access to computers, so in some ways the Ethnologue on the Internet reaches a limited audience who own computers. I am particularly thinking of people in the so-called "third world".
= How do you see the growth of a multilingual Web?
Multilingual web pages are more widely useful, but much more costly to maintain. We have had requests for the Ethnologue in a few other languages, but we do not have the personnel or funds to do the translation or maintenance, since it is constantly being updated.
*Interview of January 15, 2000
= Can you tell us about the Ethnologue?
It is a catalog of the languages of the world, with information about where they are spoken, an estimate of the number of speakers, what language family they are in, alternate names, names of dialects, other sociolinguistic and demographic information, dates of published Bibles, a name index, a language family index, and language maps.
= What exactly is your professional activity?
I am the editor of the 8th to 14th editions, 1971-2000.
= What do you think of the debate about copyright on the Web?
Any copyrights should be respected, just as with print matter.
= What is your best experience with the Internet?
Receiving corrections and new reliable information.
= And your worst experience?
Unkind criticism or that which does not include corrections.
[FR] Barbara Grimes (Hawaii)
#Directrice de publication de l'Ethnologue, une encyclopédie des langues
Cette encyclopédie très documentée, qui en est à sa 14e édition, existe en version web, sur CD-Rom et en version imprimée. Elle répertorie 6.700 langues, avec de multiples critères de recherche. Barbara F. Grimes en est la directrice de publication.
[Entretien 18/08/1998 // Entretien 15/01/2000]
*Entretien du 18 août 1998 (entretien original en anglais)
= Quel est l'apport de l'internet dans votre vie professionnelle?
L'internet nous est utile, c'est un outil pratique qui apporte un complément à notre travail. Nous l'utilisons principalement pour le courrier électronique. C'est aussi un moyen commode pour mettre notre documentation à la disposition d'une audience plus large que celle de l'Ethnologue imprimé.
D'un autre côté, l'Ethnologue sur l'internet n'atteint en fait qu'une audience limitée disposant d'ordinateurs. Or, dans les personnes que nous souhaitons atteindre, nombreux sont ceux qui n'ont pas accès à des ordinateurs. Je pense particulièrement aux habitants du dit "Tiers-monde".
= Envisagez-vous des pages web multilingues?
Les pages web multilingues sont de plus en plus utiles, mais elles sont plus onéreuses à gérer. Nous avons eu des demandes nous demandant l'accès à l'Ethnologue dans plusieurs autres langues, mais nous n'avons pas le personnel ni les fonds pour la traduction ou la réactualisation, indispensables puisque notre site est constamment mis à jour.
*Entretien du 15 janvier 2000 (entretien original en anglais)
= En quoi consiste exactement l'Ethnologue?
Il s'agit d'un catalogue des langues dans le monde, avec des informations sur les endroits où elles sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres noms utilisés pour ces langues, les noms de dialectes, d'autres informations socio-linguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues, un index des familles linguistiques et des cartes géographiques relatives aux langues.
= Quelle est exactement votre activité?
Je suis la directrice de publication de l'Ethnologue, depuis 1971 et jusqu'en 2000 (8e-14e éditions).
= Que pensez-vous des débats liés au respect du droit d'auteur sur le web?
Tous les copyrights doivent être respectés, de la même façon que pour l'imprimé.
= Quel est votre meilleur souvenir lié à l'internet?
Le fait de recevoir des corrections et de nouvelles informations fiables.
= Et votre pire souvenir?
Des critiques peu aimables sans proposition de corrections.
[EN] Michael Hart (Illinois)
#Founder of Project Gutenberg, the oldest digital library on the Internet
Project Gutenberg, set up by Michael Hart in 1971 when he was a student at the University of Illinois (USA), was the Internet's first information provider. From the beginning, its mission has been to put at everybody's disposal, free, as many books as possible whose copyright has expired. It is now the biggest digital library on the Web in terms of the number of books (3,700 e-texts in July 2001) that have been patiently digitized in text format by 600 volunteers from all over the world. Some old documents are typed line by line, mainly because the originals are unclear, but most works are scanned using OCR (optical character recognition) software. Then they are read and corrected twice, sometimes by two different people. At first they were just books in English, but now ones in other languages are being digitized.
[Interview 23/08/1998 // Interview 23/07/1999]
*Interview of August 23, 1998
= How do you see the relationship between the print media and the Internet?
We consider e-text to be a new medium, with no real relationship to paper, other than presenting the same material, but I don't see how paper can possibly compete once people each find their own comfortable way to e-texts, especially in schools.
= How did using the Internet change your professional life?
My career couldn't have happened without the Internet, and neither could Project Gutenberg have happened. I presume you know that Project Gutenberg was the first information provider on the Net.
= What are your new projects?
My own personal goal is to put 10,000 Etext on the Net, and if I can get some major support, I would like to expand that to 1,000,000 and to also expand our potential audience for the average Etext from 1.x% of the world population to over 10%, thus changing our goal from giving away 1,000,000,000,000 Etexts to 1,000 time as many, a trillion and a quadrillion in US terminology.
*Interview of July 23, 1999
= What do you think of the debate about copyright on the Web?
The kind of copyright debate going on is totally impractical. It is run by and for the "Landed Gentry of the Information Age." Information Age? For whom? No one has said more against copyright extensions that I have, but Hollywood and the big publishers have seen to it that our Congress won't even mention it in public.
= What are exactly these copyright extensions?
Nothing will expire for another 20 years. We used to have to wait 75 years. Now it is 95 years. And it was 28 years (+ a possible 28 year extension, only on request before that) and 14 years (+ a possible 14 year extension before that). So, as you can see, this is a serious degrading of the public domain, as a matter of continuing policy.
= How do you see the growth of a multilingual Web?
We will eventually have a really good Babelfish (AltaVista's translation software). I am publishing in one new language per month right now, and will continue as long as possible.
= What is your best experience with the Internet?
The notes I get that tell me people appreciate that I have spent my life putting books, etc., on the Internet. Some are quite touching, and can make my whole day.
= And your worst experience?
Getting called on the Chancellor's carpet because Oxford University call him and really shook him up… but I had a team of 6 lawyers, half from the University of Illinois, who backed me up, so we made Oxford back down. You might say that was a good memory, but I hate that kind of politicking… the Chancellor was Tom Cruise's uncle, so that was fun.
[FR] Michael Hart (Illinois)
#Fondateur du Projet Gutenberg, la plus ancienne bibliothèque numérique sur l'internet
Créé par Michael Hart en 1971 alors qu'il était étudiant à l'Université d'Illinois (Etats-Unis), le Projet Gutenberg s'est donné comme mission de mettre à la disposition de tous le plus grand nombre possible d'oeuvres du domaine public. La plus ancienne bibliothèque numérique sur l'internet est aussi la plus importante puisqu'elle propose en téléchargement libre et gratuit 3.700 oeuvres (chiffres de juillet 2001) patiemment numérisées en mode texte par 600 volontaires de nombreux pays. Un total de 1.000 nouveaux livres devrait être traité en 2001. Si certains documents anciens sont parfois saisis ligne après ligne, le plus souvent parce que le texte original manque de clarté, les oeuvres sont en général scannées en utilisant un logiciel OCR (optical character recognition), puis elles sont relues et corrigées à double reprise, parfois par deux personnes différentes. D'abord essentiellement anglophones, les collections deviennent peu à peu multilingues. Michael Hart se définit lui-même comme un fou de travail dédiant toute sa vie à son projet, qu'il voit comme étant à l'origine d'une révolution néo-industrielle.
[Entretien 23/08/1998 // Entretien 23/07/1999]
*Entretien du 23 août 1998 (entretien original en anglais)
= Comment voyez-vous la relation entre l'imprimé et l'internet?
Nous considérons le texte électronique comme un nouveau médium, sans véritable relation avec le papier. Le seul point commun est que nous diffusons les mêmes oeuvres, mais je ne vois pas comment le papier peut concurrencer le texte électronique une fois que les gens y sont habitués, particulièrement dans les établissements d'enseignement.
= Quel est l'apport de l'internet dans votre vie professionnelle?
Ma carrière n'aurait pas existé sans l'internet, et le Projet Gutenberg n'aurait jamais eu lieu… Vous savez sûrement que le Projet Gutenberg a été le premier site d'information sur l'internet.
= Comment voyez-vous l'avenir?
Mon projet est de mettre 10.000 textes électroniques sur l'internet. Si je pouvais avoir des subventions importantes, j'aimerais aller jusqu'à un million et étendre aussi le nombre de nos usagers potentiels de 1,x% à 10% de la population mondiale, ce qui représenterait la diffusion de 1.000 fois un milliard de textes électroniques au lieu d'un milliard seulement.
*Entretien du 23 juillet 1999 (entretien original en anglais)
= Que pensez-vous des débats liés au respect du droit d'auteur sur le web?
Les débats actuels sont totalement irréalistes. Ils sont menés par "l'aristocratie terrienne de l'âge de l'information" et servent uniquement ses intérêts. Un âge de l'information? Et pour qui? J'ai été le principal opposant aux extensions du copyright (loi du 27 octobre 1998, ndlr), mais Hollywood et les grands éditeurs ont fait en sorte que le Congrès ne mentionne pas mon action en public.
= En quoi consiste exactement cette loi?
Le copyright a été augmenté de 20 ans. Aupararant on devait attendre 75 ans, on est maintenant passé à 95 ans. Bien avant, le copyright durait 28 ans (plus une extension de 28 ans si on la demandait avant l'expiration du délai) et il avait lui-même remplacé un copyright de 14 ans (plus une extension de 14 ans si on la demandait avant l'expiration du délai). Comme vous le voyez, on assiste à une dégradation régulière et constante du domaine public.
= Comment voyez-vous l'évolution vers un internet multilingue?
J'espère que nous aurons un jour un bon Babelfish (le service de traduction automatique d'Altavista, ndlr). Pour notre bibliothèque numérique, j'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible.
= Quel est votre meilleur souvenir lié à l'internet?
Le courrier que je reçois me montre combien les gens apprécient que j'aie passé ma vie à mettre des livres sur l'internet. Certaines lettres sont vraiment émouvantes, et elles me rendent heureux pour toute la journée.
= Et votre pire souvenir?
Etre convoqué par le président de l'Université d'Illinois suite à une plainte déposée par l'Université d'Oxford. Mais j'ai été défendu par une équipe de six avocats, la moitié étant de l'Université d'Illinois, et j'ai gagné le procès. On pourrait voir cela comme un bon souvenir, mais je hais ce genre de politique politicienne… Le président de l'université se trouvait être l'oncle de Tom Cruise, amusant, non?
[ES] Michael Hart (Illinois)
#Fundador del Proyecto Gutenberg, la ciberbiblioteca más antigua de Internet
Fundado por Michael Hart en 1971 cuando era estudiante en la Universidad de Illinois (EE UU), el Proyecto Gutenberg se dio como misión de poner gratuitamente a la disposición de todos el mayor número posible de obras del dominio público. La ciberbiblioteca más antigua de Internet es también la más importante por el número de obras (3.700 en Julio de 2001) pacientemente digitalizadas en modo texto por 600 voluntarios de muchos paises. Si algunos documentos antiguos están mecanografiados sobre el ordenador línea por línea, es porque a menudo el texto original falta de claridad, en general las obras están escanearizadas utilizando un programa OCR (optical character recognition), y luego leídas y corregidas dos veces, a menudo por dos personas diferentes. Primero anglofóno, el Proyecto Gutenberg ahora se hace multilingüe. Michael Hart se define él mismo como un "loco del trabajo" dedicando toda su vida a su proyecto, el cual ve como el origen de una revolución neo-industrial.
[Entrevista 23/08/1998 // Entrevista 23/07/1999]
*Entrevista del 23 de Agosto de 1998 (entrevisa original en inglés)
= ¿Cómo ve Ud. la relación entre el mundo del impreso y Internet?
Consideramos el texto electrónico como un nuevo medio, sin una verdadera relación con el papel. El único punto en común es que distribuimos las mismas obras, pero no veo cómo el papel puede hacer la competencia al texto electrónico una vez que la gente ya está acostumbrada a ello, particularmente en establecimientos de enseñanza.
= ¿Cuáles son los cambios obtenidos por Internet en su vida profesional?
Mi carrera no habría existido sin Internet, y el Proyecto Gutenberg no habría tenido lugar… Usted sabe seguramente que el Proyecto Gutenberg fue el primer sitio de información en Internet.
= ¿Cómo ve Ud. el futuro?
Mi proyecto es de poner 10 000 textos electrónicos en Internet. Si pudiera conseguir subvenciones más importantes, me gustaría ir hasta un millón y ampliar también nuestros usuarios potenciales de 1,x% a 10% de la población mundial, lo que representaría la distribución de 1000 veces un billón de textos electrónicos en lugar de solamente un billón.
*Entrevista del 23 de julio de 1999 (entrevista original en inglés)
= ¿Qué piensa Ud. de los debates con respecto a los derechos de autor en la Red?
Los debates actuales son totalmente irrealistas. Están dirigidos por "la aristocracia terrateniente de la edad de la información" y sirven únicamente para sus propios intereses. ¿Una edad de la información? ¿Y para quién? Fui el principal enemigo de las extensiones del del derecho de copiado (ley del 27 de octubre de 1998), pero Hollywood y los principales editores actuaron de tal modo que el Congreso no mencionó mi acción en público.
= ¿En qué consiste exactamente esta ley?
El derecho de copiado fue aumentado de 20 años. Antes se debía esperar 75 años, ahora debemos esperar 95 años. Mucho antes todavía, el derecho de copiado duraba 28 años (más una extensión de 28 años si uno la pedía antes de la expiración del plazo), y este último a su vez, ya había substituído un copyright de 14 años (más una extensión de 14 años si uno la pedía antes de la expiración del plazo). Como usted lo ve, asistimos a un deterioro regular y constante del dominio público.
= ¿Cómo ve Ud. la evolución hacia un Internet multilingüe?
Espero que tengamos un día un buen Babelfish (el servicio de traducción automática de Altavista). Para nuestra biblioteca digital, el Proyecto Gutenberg inaugura ahora una nueva lengua al mes, y voy a seguir con esta política durante el tiempo que sea posible.
= ¿Cuál es su mejor recuerdo relacionado con Internet?
El correo que recibo me muestra cuánto aprecia la gente que he pasado mi vida en poner libros en Internet. Algunas cartas son verdaderamente conmovedoras, et me dan alegría durante todo el día.
= ¿Y su peor recuerdo?
Ser convocado por el presidente de la Universidad de Illinois tras una denuncia declarada por la Universidad de Oxford. Pero fui defendido por un equipo de seis abogados (la midad eran de la Universitad de Illinois), y gané el juicio. Se podría ver esto como un buen recuerdo, pero odio esta política politizada… El lado bueno de esta situación era que el presidente de la Universidad era el tío de Tom Cruise.
[ES] Roberto Hernández Montoya (Caracas)
#Director de la biblioteca digital de la revista electrónica Venezuela Analítica
Roberto Hernández Montoya es licenciado en letras de la Universidad Central de Venezuela; miembro del consejo de redacción de Venezuela Analítica; miembro de las direcciones editoriales de Venezuela Cultural e Imagen; columnista de El Nacional, Letras, Imagen e Internet World Venezuela. Cursó estudios de análisis del discurso en la Escuela de Altos Estudios en Ciencias Sociales (Ecole des hautes études en sciences sociales - EHESS), París. Fue presidente fundador de la Asociación Venezolana de Editores, y director de la editorial del Ateneo de Caracas. Roberto Hernández Montoya a contestado a las preguntas en francés.
[FR] Roberto Hernández Montoya (Caracas)
#Directeur de la bibliothèque numérique du magazine électronique VenezuelaAnalítica
Roberto Hernández Montoya est licencié ès lettres de l'Université centrale du Venezuela. Il publie des articles dans El Nacional, Letras, Imagen et InternetiWorld Venezuela. Il est membre de l'équipe éditoriale de Venezuela Cultural, Venezuela Analítica et Imagen. Il a fait des études d'analyse du discours à l'Ecole des hautes études en sciences sociales (EHESS) de Paris. Il a été le président fondateur de l'Association vénézuélienne des éditeurs, et le rédacteur en chef de l'Ateneo de Caracas.
Magazine électronique conçu comme un forum public pour l'échange d'idées sur la politique, l'économie, la culture, la science et la technologie, Venezuela Analítica a créé en mai 1997 BitBlioteca, une bibliothèque numérique en espagnol, qui comprend aussi quelques titres en anglais, français et portugais.
*Entretien du 3 septembre 1998
= Comment voyez-vous la relation entre l'imprimé et l'internet?
Je crois qu'ils sont complémentaires. On ne peut pas remplacer le texte imprimé sur papier, au moins dans un futur proche. Le livre en papier est un objet formidable. On ne peut pas feuilleter un texte électronique de la même façon qu'un livre en papier. Mais un texte électronique permet de localiser beaucoup plus rapidement un mot ou un groupe de mots. D'une certaine manière on peut le lire avec plus de profondeur, même avec l'incommodité que représente la lecture sur écran. Le texte électronique est moins cher et peut être distribué plus facilement au monde entier (si on ne prend pas en ligne de compte le coût de l'ordinateur et de la connexion à l'internet).
= Quel est l'apport de l'internet dans votre vie professionnelle?
L'internet a été très important pour moi personnellement. Il est devenu ma principale activité. Il a donné à notre organisme la possibilité de communiquer avec des milliers de personnes alors que ceci aurait été impossible du point de vue financier si on avait publié un magazine sur papier. Je crois que, dans les années à venir, l'internet va devenir le médium primordial de communication et d'échange d'information.
[EN] Roberto Hernández Montoya (Caracas)
#Head of the digital library of the electronic magazine Venezuela Analítica
Roberto Hernández Montoya has a literature degree from the Central University ofVenezuela. He is a columnist at El Nacional, Letras, Imagen and Internet WorldVenezuela. He is a member of the editorial board of Venezuela Cultural,Venezuela Analítica and Imagen. He studied discourse analysis at the School ofHigh Studies in Social Sciences (Ecole des hautes études en sciences sociales -EHESS), Paris. He was the founding president of the Venezuelan Association ofEditors, and the editor of the Ateneo de Caracas.
Venezuela Analítica, an electronic magazine conceived as a public forum to exchange ideas on politics, economics, culture, science and technology, created in May 1997 BitBlioteca, a digital library which contains material mostly in Spanish, and also in French, English and Portuguese.
*Interview of September 3, 1998 (original interview in French)
= How do you see the relationship between the print media and the Internet?
The printed word can't be replaced, at least not in the foreseeable future. The paper book is a wonderful thing. We can't leaf through an electronic text in the same way. But we can find words and groups of words much more quickly. We can read an electronic text more carefully, even with the inconvenience of reading it on the screen. It is less expensive and can be more easily distributed worldwide (not counting the cost of the computer and Internet connection).
= How did using the Internet change your professional life?
The Internet has been personally very important for me. It's become the centre of my life. It's meant that our organization can now communicate with thousands of people — something we couldn't have afforded if we'd published a paper magazine. I think the Internet is going to be the chief means of communication and exchanging information in the future.
[EN] Randy Hobler (Dobbs Ferry, New York)
#Internet Marketing Consultant, among others at Globalink, a company specialized in language translation software and services
Randy Hobler has been a consultant in Internet& marketing at IBM, Johnson & Johnson, Burroughs Wellcome, Pepsi, Heublein, etc. In 1998, he was an Internet Marketing Consultant for Globalink, a company specialized in language translation software and services. He wrote: "The joy for me is the ability to combine my vocational skills in high-tech and marketing with avocational interests like language into one. To love what you do and do what you love." Globalink was bought by Lernout & Hauspie in 1999.
[Interview 03/09/1998 // Interview 10/09/2000]
*Interview of September 3, 1998
= How do you see the growth of a multilingual Web?
85% of the content of the Web in 1998 is in English and going down. This trend is driven not only by more websites and users in non-English-speaking countries, but by increasing localization of company and organization sites, and increasing use of machine translation to/from various languages to translate websites.
Because the Internet has no national boundaries, the organization of users is bounded by other criteria driven by the medium itself. In terms of multilingualism, you have virtual communities, for example, of what I call "Language Nations"… all those people on the Internet wherever they may be, for whom a given language is their native language. Thus, the Spanish Language nation includes not only Spanish and Latin American users, but millions of Hispanic users in the US, as well as odd places like Spanish-speaking Morocco.
= Can you tell us about the future of machine translation?
We are rapidly reaching the point where highly accurate machine translation of text and speech will be so common as to be embedded in computer platforms, and even in chips in various ways. At that point, and as the growth of the Web slows, the accuracy of language translation hits 98% plus, and the saturation of language pairs has covered the vast majority of the market, language transparency (any-language-to-any-language communication) will be too limiting a vision for those selling this technology. The next development will be "transcultural, transnational transparency", in which other aspects of human communication, commerce and transactions beyond language alone will come into play. For example, gesture has meaning, facial movement has meaning and this varies among societies. The thumb-index finger circle means 'OK' in the United States. In Argentina, it is an obscene gesture.
When the inevitable growth of multi-media, multi-lingual videoconferencing comes about, it will be necessary to 'visually edit' gestures on the fly. The MIT (Massachussets Institute of Technology) Media Lab, Microsoft and many others are working on computer recognition of facial expressions, biometric access identification via the face, etc. It won't be any good for a US business person to be making a great point in a Web-based multi-lingual video conference to an Argentinian, having his words translated into perfect Argentinian Spanish if he makes the "O" gesture at the same time. Computers can intercept this kind of thing and edit them on the fly.
There are thousands of ways in which cultures and countries differ, and most of these are computerizable to change as one goes from one culture to the other. They include laws, customs, business practices, ethics, currency conversions, clothing size differences, metric versus English system differences, etc. Enterprising companies will be capturing and programming these differences and selling products and services to help the peoples of the world communicate better. Once this kind of thing is widespread, it will truly contribute to international understanding.
*Interview of September 10, 2000
= What do you think about e-books?
E-books continue to grow as the display technology improves, and as the hardware becomes more physically flexible and lighter. Plus, among the early adapters will be colleges because of the many advantages for students (ability to download all their reading for the entire semester, inexpensiveness, linking into exams, assignments, need for portability, eliminating need to lug books all over).
[FR] Randy Hobler (Dobbs Ferry, New York)
#Consultant en marketing internet, notamment chez Globalink, société spécialisée en produits et services de traduction
Randy Hobler a été successivement consultant en marketing et internet chez IBM, Johnson & Johnson, Burroughs Wellcome, Pepsi, Heublein, etc. En 1998, il était consultant en marketing internet chez Globalink, société spécialisée en produits et services de traduction. "J'aime pouvoir combiner ensemble mes compétences en tant que formateur en haute technologie et en marketing avec ma passion pour les langues, écrivait-il. Aimer ce que je fais et faire ce que j'aime." Globalink a été racheté par Lernout & Hauspie en 1999.
[Entretien 03/09/1998 // Entretien 10/09/2000]
*Entretien du 3 septembre 1998 (entretien original en anglais)
= Comment voyez-vous l'évolution vers un web multilingue?
En 1998, 85 % du contenu du web est en anglais, et ce chiffre est à la baisse. Il y a non seulement plus de sites web et d'internautes non anglophones, mais aussi une localisation plus grande de sites de sociétés et d'organismes, et un usage accru de la traduction automatique pour traduire des sites web à partir ou vers d'autres langues.
Comme l'internet n'a pas de frontières nationales, les internautes s'organisent selon d'autres critères propres au médium. En termes de multilinguisme, vous avez des communautés virtuelles, par exemple ce que j'appelle les "nations des langues", tous ces internautes qu'on peut regrouper selon leur langue maternelle quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole inclut non seulement les internautes d'Espagne et d'Amérique latine, mais aussi tous les hispanophones vivant aux Etats-Unis, ou encore ceux qui parlent espagnol au Maroc.
= Comment voyez-vous l'avenir de la traduction automatique?
Nous arriverons rapidement au point où une traduction très fidèle du texte et de la parole sera si commune qu'elle pourra faire partie des plate-formes ou même des puces. A ce point, quand le développement de l'internet aura atteint sa vitesse de croisière, que la fidélité de la traduction atteindra plus de 98% et que les différentes combinaisons de langues possibles auront couvert la grande majorité du marché, la transparence de la langue (toute communication d'une langue à une autre) sera une vision trop restrictive pour ceux qui vendent cette technologie. Le développement suivant sera la "transparence transculturelle et transnationale" dans laquelle les autres aspects de la communication humaine, du commerce et des transactions au-delà du seul langage entreront en scène. Par exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci varie en fonction des sociétés. La lettre O réalisée avec le pouce et l'index signifie "OK" aux Etats-Unis alors qu'en Argentine c'est un geste obscène.
Quand se produira l'inévitable développement de la vidéoconférence multilingue multimédias, il sera nécessaire de corriger visuellement les gestes. Le Media Lab du MIT (Massachussets Institute of Technology), Microsoft et bien d'autres travaillent à la reconnaissance informatique des expressions faciales, l'identification des caractéristiques biométriques par le biais du visage, etc. Il ne servira à rien à un homme d'affaires américain de faire une excellente présentation à un Argentin lors d'une vidéoconférence multilingue sur le web, avec son discours traduit dans un espagnol argentin parfait, s'il fait en même temps le geste O avec le pouce et l'index. Les ordinateurs pourront intercepter ces types de messages et les corriger visuellement.
Les cultures diffèrent de milliers de façons, et la plupart d'entre elles peuvent être modifiées par voie informatique lorsqu'on passe de l'une à l'autre. Ceci inclut les lois, les coutumes, les habitudes de travail, l'éthique, le change monétaire, les différences de taille dans les vêtements, les différences entre le système métrique et le système de mesure anglophone, etc. Les sociétés dynamiques répertorieront et programmeront ces différences, et elles vendront des produits et services afin d'aider les habitants de la planète à mieux communiquer entre eux. Une fois que ceux-ci seront largement répandus, ils contribueront réellement à une meilleure compréhension à l'échelle internationale.
*Entretien du 10 septembre 2000 (entretien original en anglais)
= Quelle est votre opinion sur le livre électronique?
Les livres électroniques continueront de se développer avec l'amélioration de l'affichage sur écran et d'un matériel plus polyvalent et plus léger. Les premiers utilisateurs seront notamment les établissements d'enseignement, du fait de tous les avantages que peuvent procurer les livres électroniques aux étudiants: téléchargement des lectures de tout un trimestre, investissement peu coûteux, liens avec les examens et les dissertations, informations aisément transférables, équipement léger au lieu de piles de livres à transporter.
[EN] Eduard Hovy (Marina del Rey, California)
#Head of the Natural Language Group at USC/ISI (University of SouthernCalifornia / Information Sciences Institute)
The Natural Language Group (NLG) at the Information Sciences Institute of the University of Southern California (USC/ISI) is currently involved in various aspects of computational/natural language processing. The group's projects are: machine translation; automated text summarization; multilingual verb access and text management; development of large concept taxonomies (ontologies); discourse and text generation; construction of large lexicons for various languages; and multimedia communication.
Eduard Hovy, his director, is a member of the Computer Science Departments of USC and of the University of Waterloo. He completed a Ph.D. in Computer Science (Artificial Intelligence) at Yale University in 1987. His research focuses on machine translation, automated text summarization, text planning and generation, and the semi-automated construction of large lexicons and terminology banks. The Natural Language Group at ISI currently has projects in most of these areas.
Dr. Hovy is the author or editor of four books and over 100 technical articles.He currently serves as the President of the Association of Machine Translationin the Americas (AMTA). He is Vice President of the Association forComputational Linguistics (ACL), and has served on the editorial boards ofComputational Linguistics and the Journal of the Society of Natural LanguageProcessing of Japan.
[Interview 27/08/1998 // Interview 08/08/1999 // Interview 02/09/2000]
*Interview of August 27, 1998
= How do you see the growth of a multilingual Web?
In the context of information retrieval (IR) and automated text summarization (SUM), multilingualism on the Web is another complexifying factor. People will write their own language for several reasons — convenience, secrecy, and local applicability — but that does not mean that other people are not interested in reading what they have to say! This is especially true for companies involved in technology watch (say, a computer company that wants to know, daily, all the Japanese newspaper and other articles that pertain to what they make) or some government intelligence agencies (the people who provide the most up-to-date information for use by your government officials in making policy, etc.). One of the main problems faced by these kinds of people is the flood of information, so they tend to hire "weak" bilinguals who can rapidly scan incoming text and throw out what is not relevant, giving the relevant stuff to professional translators. Obviously, a combination of SUM and MT (machine translation) will help here; since MT is slow, it helps if you can do SUM in the foreign language, and then just do a quick and dirty MT on the result, allowing either a human or an automated IR-based text classifier to decide whether to keep or reject the article.
For these kinds of reasons, the US Government has over the past five years been funding research in MT, SUM, and IR, and is interested in starting a new program of research in Multilingual IR. This way you will be able to one day open Netscape or Explorer or the like, type in your query in (say) English, and have the engine return texts in all the languages of the world. You will have them clustered by subarea, summarized by cluster, and the foreign summaries translated, all the kinds of things that you would like to have.
You can see a demo of our version of this capability, using English as the user language and a collection of approx. 5,000 texts of English, Japanese, Arabic, Spanish, and Indonesian, by visiting MuST (Multilingual information retrieval, summarization, and translation system).
Type your query word (say, "baby", or whatever you wish) in and press Enter/Return. In the middle window you will see the headlines (or just keywords, translated) of the retrieved documents. On the left you will see what language they are in: "Sp" for Spanish, "Id" for Indonesian, etc. Click on the number at left of each line to see the document in the bottom window. Click on "Summarize" to get a summary. Click on 'Translate' for a translation (but beware: Arabic and Japanese are extremely slow! Try Indonesian for a quick word-by-word "translation" instead).
This is not a product (yet); we have lots of research to do in order to improve the quality of each step. But it shows you the kind of direction we are heading in.
= How do you see the future?
The Internet is, as I see it, a fantastic gift to humanity. It is, as one of my graduate students recently said, the next step in the evolution of information access. A long time ago, information was transmitted orally only; you had to be face-to-face with the speaker. With the invention of writing, the time barrier broke down — you can still read Seneca and Moses. With the invention of the printing press, the access barrier was overcome — now anyone with money to buy a book can read Seneca and Moses. And today, information access becomes almost instantaneous, globally; you can read Seneca and Moses from your computer, without even knowing who they are or how to find out what they wrote; simply open AltaVista and search for "Seneca". This is a phenomenal leap in the development of connections between people and cultures. Look how today's Internet kids are incorporating the Web in their lives.
The next step? — I imagine it will be a combination of computer and cellular phone, allowing you as an individual to be connected to the Web wherever you are. All your diary, phone lists, grocery lists, homework, current reading, bills, communications, etc., plus AltaVista and the others, all accessible (by voice and small screen) via a small thing carried in your purse or on your belt. That means that the barrier between personal information (your phone lists and diary) and non-personal information (Seneca and Moses) will be overcome, so that you can get to both types anytime. I would love to have something that tells me, when next I am at a conference and someone steps up, smiling to say hello, who this person is, where last I met him/her, and what we said then!
But that is the future. Today, the Web has made big changes in the way I shop (I spent 20 minutes looking for plane routes for my next trip with a difficult transition on the Web, instead of waiting for my secretary to ask the travel agent, which takes a day). I look for information on anything I want to know about, instead of having to make a trip to the library and look through complicated indexes. I send e-mail to you about this question, at a time that is convenient for me, rather than your having to make a phone appointment and then us talking for 15 minutes. And so on.
*Interview of August 8, 1999
= What has happened since our first interview?
Over the past 12 months I have been contacted by a surprising number of new information technology (IT) companies and startups. Most of them plan to offer some variant of electronic commerce (online shopping, bartering, information gathering, etc.). Given the rather poor performance of current non-research level natural language processing technology (when is the last time you actually easily and accurately found a correct answer to a question to the Web, without having to spend too much time sifting through irrelevant information?), this is a bit surprising. But I think everyone feels that the new developments in automated text summarization, question analysis, and so on, are going to make a significant difference. I hope so!—but the level of performance is not available yet.
It seems to me that we will not get a big breakthrough, but we will get a somewhat acceptable level of performance, and then see slow but sure incremental improvement. The reason is that it is very hard to make your computer really "understand" what you mean—this requires us to build into the computer a network of "concepts" and their interrelationships that (at some level) mirror those in your own mind, at least in the subjects areas of interest. The surface (word) level is not adequate — when you type in "capital of Switzerland", current systems have no way of knowing whether you mean "capital city" or "financial capital". Yet the vast majority of people would choose the former reading, based on phrasing and on knowledge about what kinds of things one is likely to ask the Web, and in what way.
Several projects are now building, or proposing to build, such large "concept" networks. This is not something one can do in two years, and not something that has a correct result. We have to develop both the network and the techniques for building it semi-automatically and self-adaptively. This is a big challenge.
= What do you think about the debate concerning copyright on the Web? What practical solutions would you suggest?
As an academic, I am of course one of the parasites of society, and hence all in favor of free access to all information. But as a part-owner of a small startup company, I am aware of how much it costs to assemble and format information, and the need to charge somehow.
To balance these two wishes, I like the model by which raw information (and some "raw" resources, such as programming languages and basic access capabilities like the Web search engines) are made available for free. This creates a market and allows people to do at least something. But processed information, and the systems that help you get and structure just exactly what you need, I think should be paid for. That allows developers of new and better technology to be rewarded for their effort.
Take an example: a dictionary, today, is not free. Dictionary companies refuse to make them available to research groups and others for free, arguing that they have centuries of work invested. (I have had several discussions with dictionary companies on this.) But dictionaries today are stupid products — you have to know the word before you can find the word! I would love to have something that allows me to give an approximate meaning, or perhaps a sentence or two with a gap where I want the word I am looking for, or even the equivalent in another language, and returns the word(s) I am looking for. This is not hard to build, but you need the core dictionary to start with. I think we should have the core dictionary freely available, and pay for the engine (or the service) that allows you to enter partial or only somewhat accurate information and helps you find the best result.
A second example: you should have free access to all the Web, and to basic search engines like those available today. No copyrights, no license fees. But if you want an engine that provides a good targeted answer, pinpointed and evaluated for trustworthiness, then I think it is not unreasonable to pay for that.
Naturally, an encyclopedia builder will not like my proposal. But to him or her I say: package your encyclopedia inside a useful access system, because without it the raw information you provide is just more data, and can easily get lost in the sea of data available and growing every hour.
*Interview of September 2, 2000
= What has happened since our last interview?
I see a continued increase in small companies using language technology in one way or another: either to provide search, or translation, or reports, or some other communication function. The number of niches in which language technology can be applied continues to surprise me: from stock reports and updates to business-to-business communications to marketing…
With regard to research, the main breakthrough I see was led by a colleague at ISI (I am proud to say), Kevin Knight. A team of scientists and students last summer at Johns Hopkins University in Maryland developed a faster and otherwise improved version of a method originally developed (and kept proprietary) by IBM about 12 years ago. This method allows one to create a machine translation (MT) system automatically, as long as one gives it enough bilingual text. Essentially the method finds all correspondences in words and word positions across the two languages and then builds up large tables of rules for what gets translated to what, and how it is phrased.
Although the output quality is still low — no-one would consider this a final product, and no-one would use the translated output as is — the team built a (low-quality) Chinese-to-English MT system in 24 hours. That is a phenomenal feat — this has never been done before. (Of course, say the critics: you need something like 3 million sentence pairs, which you can only get from the parliaments of Canada, Hong Kong, or other bilingual countries; and of course, they say, the quality is low. But the fact is that more bilingual and semi-equivalent text is becoming available online every day, and the quality will keep improving to at least the current levels of MT engines built by hand. Of that I am certain.)
Other developments are less spectacular. There's a steady improvement in the performance of systems that can decide whether an ambiguous word such as "bat" means "flying mammal" or "sports tool" or "to hit"; there is solid work on cross-language information retrieval (which you will soon see in being able to find Chinese and French documents on the Web even though you type in English-only queries), and there is some rather rapid development of systems that answer simple questions automatically (rather like the popular web system AskJeeves, but this time done by computers, not humans). These systems refer to a large collection of text to find "factiods" (not opinions or causes or chains of events) in response to questions such as "what is the capital of Uganda?" or "how old is President Clinton?" or "who invented the xerox process?", and they do so rather better than I had expected.
= What do you think about e-books?
E-books, to me, are a non-starter. More even that seeing a concert live or a film at a cinema, I like the physical experience holding a book in my lap and enjoying its smell and feel and heft. Concerts on TV, films on TV, and e-books lose some of the experience; and with books particularly it is a loss I do not want to accept. After all, it's much easier and cheaper to get a book in my own purview than a concert or cinema. So I wish the e-book makers well, but I am happy with paper. And I don't think I will end up in the minority anytime soon — I am much less afraid of books vanishing than I once was of cinemas vanishing.
= What is your definition of cyberspace?
I define cyberspace as the totality of information that we can access via the Internet and computer systems in general. It is not, of course, a space, and it has interesting differences with libraries. For example, soon my fridge, my car, and I myself will be "known" to cyberspace, and anyone with the appropriate access permission (and interest) will be able to find out what exactly I have in my fridge and how fast my car is going (and how long before it needs new shock absorbers) and what I am looking at now. In fact, I expect that advertisements will change their language and perhaps even pictures and layout to suit my knowledge and tastes as I walk by, simply by recognizing that "here comes someone who speaks primarily English and lives in Los Angeles and makes $X per year". All this behaviour will be made possible by the dynamically updatable nature of cyberspace (in contrast to a library), and the fact that computer chips are still shrinking in size and in price. So just as today I walk around in "socialspace" — a web of social norms, expectation, and laws — tomorrow I will be walking around in an additional cyberspace of information that will support me (sometimes) and restrict me (other times) and delight me (I hope often) and frustrate me (I am sure).
= And your definition of the information society?
An information society is one in which people in general are aware of the importance of information as a commodity, and attach a price to it as a matter of course. Throughout history, some people have always understood how important information is, for their own benefit. But when the majority of society starts working with and on information per se, then the society can be called an information society. This may sound a bit vacuous or circularly defined, but I bet you that anthropologists can go and count what percentage of society was dedicated to information processing as a commodity in each society. Where they initially will find only teachers, rulers' councillors, and sages, they will in later societies find people like librarians, retired domain experts (consultants), and so on. The jumps in communication of information from oral to written to printed to electronic every time widened (in time and space) information dissemination, thereby making it less and less necessary to re-learn and re-do certain difficult things. In an ultimate information society, I suppose, you would state your goal and then the information agencies (both the cyberspace agents and the human experts) would conspire to bring you the means to achieve it, or to achieve it for you, minimizing the amount of work you'd have to do to only that is truly new or truly needs to be re-done with the material at hand.
[FR] Eduard Hovy (Marina del Rey, Californie)
#Directeur du Natural Language Group de l'Université de Californie du Sud
Le Natural Language Group de l' USC/ISI (University of Southern California / Information Sciences Institute) traite de plusieurs aspects du traitement du langage naturel: traduction automatique, résumé automatique de texte, accès multilingue aux verbes et gestion du texte, développement de taxonomies de concepts (ontologies), discours et génération de texte, élaboration d'importants lexiques pour plusieurs langues, et communication multimédias.
Son directeur, Eduard Hovy, est docteur en informatique (spécialité: intelligence artificielle) de l'Université de Yale (doctorat obtenu en 1987). Il est membre des départements informatiques de l'Université de Californie du Sud et de l'Université de Waterloo. Ses recherches concernent principalement la traduction automatique, le résumé automatique de texte, l'organisation et la génération de textes, et l'élaboration semi-automatique d'importants lexiques et banques terminologiques. Tous ces thèmes sont des sujets de recherche au Natural Language Group.
Eduard Hovy est également l'auteur ou le directeur de publication de quatre ouvrages et d'une centaine d'articles techniques. Il a fait partie des comités de rédaction de Computational Linguistics et du Journal of the Society of Natural Language Processing of Japan. Il est actuellement le président de l'Association of Machine Translation in the Americas (AMTA, et le vice-président de l'Association for Computational Linguistics (ACL).
[Entretien 27/08/1998 // Entretien 08/08/1999 // Entretien 02/09/2000]
*Entretien du 27 août 1998 (entretien original en anglais)
= Le multilinguisme sur le web est-il un atout ou une barrière?
Dans le contexte de la recherche documentaire et du résumé automatique de texte, le multilinguisme sur le web est un facteur qui ajoute à la complexité du sujet. Les gens écrivent dans leur propre langue pour diverses raisons : commodité, discrétion, communication à l'échelon local, mais ceci ne signifie pas que d'autres personnes ne soient pas intéressées de lire ce qu'ils ont à dire ! Ceci est particulièrement vrai pour les sociétés impliquées dans la veille technologique (disons une société informatique qui souhaite connaître tous les articles de journaux et périodiques japonais relatifs à son activité) et des services de renseignements gouvernementaux (ceux qui procurent l'information la plus récente, utilisée ensuite par les fonctionnaires pour décider de la politique, etc.). Un des principaux problèmes auquel ces services doivent faire face est la très grande quantité d'informations. Ils recrutent donc du personnel bilingue "passif" qui peut scanner rapidement les textes afin de mettre de côté ce qui est sans intérêt et de donner ensuite les documents significatifs à des traducteurs professionnels. Manifestement, une combinaison de résumé automatique de texte et de traduction automatique sera très utile dans ce cas. Comme la traduction automatique est longue, on peut d'abord résumer le texte dans la langue étrangère, puis effectuer une traduction automatique rapide à partir du résultat obtenu, en laissant à un être humain ou un classificateur de texte (du type recherche documentaire) le soin de décider si on doit garder l'article ou le rejeter.
Pour ces raisons, durant ces cinq dernières années, le gouvernement des Etats-Unis a financé des recherches en traduction automatique, en résumé automatique de texte et en recherche documentaire, et il s'intéresse au lancement d'un nouveau programme de recherche en informatique documentaire multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou Explorer, entrer une demande en anglais, et obtenir la liste des documents dans toutes les langues. Ces documents seront regroupés par sous-catégorie avec un résumé pour chacun et une traduction pour les résumés étrangers, toutes choses qui seraient très utiles.
En consultant MuST (multilingual information retrieval, summarization, and translation system), vous aurez une démonstration de notre version de ce programme de recherche, qui utilise l'anglais comme langue de l'utilisateur sur un ensemble d'environ 5.000 textes en anglais, japonais, arabe, espagnol et indonésien.
Entrez votre demande (par exemple, "baby", ou tout autre terme) et appuyez sur la touche Retour. Dans la fenêtre du milieu vous verrez les titres (ou bien les mots-clés, traduits). Sur la gauche vous verrez la langue de ces documents: "Sp" pour espagnol, "Id" pour indonésien, etc. Cliquez sur le numéro situé sur la partie gauche de chaque ligne pour voir le document dans la fenêtre du bas. Cliquez sur "Summarize" pour obtenir le résumé. Cliquez sur "Translate" pour obtenir la traduction (attention, les traductions en arabe et en japonais sont extrêmement lentes! Essayez plutôt l'indonésien pour une traduction rapide mot à mot).
Ce programme de démonstration n'est pas (encore) un produit. Nous avons de nombreuses recherches à mener pour améliorer la qualité de chaque étape. Mais ceci montre la direction dans laquelle nous allons.
*Entretien du 8 août 1999 (entretien original en anglais)
= Quoi de neuf depuis notre premier entretien?
Durant les douze derniers mois, j'ai été contacté par un nombre surprenant de nouvelles sociétés et start-up en technologies de l'information. La plupart d'entre elles ont l'intention d'offrir des services liés au commerce électronique (vente en ligne, échange, collecte d'information, etc.). Etant donné les faibles résultats des technologies actuelles du traitement de la langue naturelle - ailleurs que dans les centres de recherche - c'est assez surprenant. Quand avez-vous pour la dernière fois trouvé rapidement une réponse correcte à une question posée sur le web, sans avoir eu à passer en revue pendant un certain temps des informations n'ayant rien à voir avec votre question? Cependant, à mon avis, tout le monde sent que les nouveaux développements en résumé automatique de texte, analyse des questions, etc., vont, je l'espère, permettre des progrès significatifs. Mais nous ne sommes pas encore arrivés à ce stade.
Il me semble qu'il ne s'agira pas d'un changement considérable, mais que nous arriverons à des résultats acceptables, et que l'amélioration se fera ensuite lentement et sûrement. Ceci s'explique par le fait qu'il est très difficile de faire en sorte que votre ordinateur "comprenne" réellement ce que vous voulez dire - ce qui nécessite de notre part la construction informatique d'un réseau de "concepts" et des relations de ces concepts entre eux - réseau qui, jusqu'à un certain stade au moins, reflèterait celui de l'esprit humain, au moins dans les domaines d'intérêt pouvant être regroupés par sujets. Le mot pris à la "surface" n'est pas suffisant - par exemple quand vous tapez: "capitale de la Suisse", les systèmes actuels n'ont aucun moyen de savoir si vous songez à "capitale administrative" ou "capitale financière". Dans leur grande majorité, les gens préféreraient pourtant un type de recherche basé sur une expression donnée, ou sur une question donnée formulée en langage courant.
Plusieurs programmes de recherche sont en train d'élaborer de vastes réseaux de "concepts", ou d'en proposer l'élaboration. Ceci ne peut se faire en deux ans, et ne peut amener rapidement un résultat satisfaisant. Nous devons développer à la fois le réseau et les techniques pour construire ces réseaux de manière semi-automatique, avec un système d'auto-adaptation. Nous sommes face à un défi majeur.
= Que pensez-vous des débats liés au respect du droit d'auteur sur le web?Quelles solutions pratiques suggérez-vous?
En tant qu'universitaire, je suis bien sûr un des parasites de notre société, et donc tout à fait en faveur de l'accès libre à la totalité de l'information. En tant que co-propriétaire d'une petite start-up, je suis conscient du coût que représente la collecte et la présentation de l'information, et de la nécessité de faire payer ce service d'une manière ou d'une autre.
Pour équilibrer ces deux tendances, je pense que l'information à l'état brut - et certaines ressources à l'état brut: langages de programmation ou moyens d'accès à l'information de base comme les navigateurs web - doivent être disponibles gratuitement. Ceci crée un marché et permet aux gens de les utiliser. Par contre l'information traitée et les systèmes vous permettant d'obtenir et structurer très exactement ce dont vous avez besoin doivent être payants. Cela permet de financer ceux qui développent ces nouvelles technologies.
Prenons un exemple: à l'heure actuelle, un dictionnaire n'est pas disponible gratuitement. Les sociétés éditrices de dictionnaires refusent de les mettre librement à la disposition des chercheurs et de toute personne intéressée, et elles avancent l'argument que ces dictionnaires ont demandé des siècles de travail (j'ai eu plusieurs discussions à ce sujet avec des sociétés de dictionnaires). Mais de nos jours les dictionnaires sont des instruments stupides: on doit connaître le mot avant de le trouver! J'aimerais avoir un outil qui me permette de donner une définition approximative, ou peut-être une phrase ou deux incluant un espace pour le mot que je cherche, ou même l'équivalent de ce mot dans une autre langue, et que la réponse me revienne avec le(s) mot(s) que je cherche. Un tel outil n'est pas compliqué à construire, mais il faut d'abord le dictionnaire de base. Je pense que ce dictionnaire de base devrait être en accès libre. Par contre on pourrait facturer l'utilisation du moteur de recherche ou du service permettant d'entrer une information - partielle ou non - qui soit très "ciblée", afin d'obtenir le meilleur résultat.
Voici un deuxième exemple. On devrait avoir accès librement à la totalité du web, et à tous les moteurs de recherche "de base" du type de ceux qu'on trouve aujourd'hui. Pas de copyright et pas de licence. Mais si on a besoin d'un moteur de recherche qui procure une réponse très "ciblée" et très fiable, je pense qu'il ne serait pas déraisonnable que ce service soit facturé.
Le créateur d'une encyclopédie ne va naturellement pas aimer ma proposition. Mais je lui suggérerais d'équiper son encyclopédie d'un système d'accès performant. Sans ce système, l'information brute donnée par cette encyclopédie n'est qu'un stock d'informations et rien d'autre, et ce stock peut aisément se perdre dans une masse considérable d'informations qui augmente tous les jours.
*Entretien du 2 septembre 2000 (entretien original en anglais)
= Quoi de neuf depuis notre dernier entretien?
Je vois de plus en plus de petites sociétés utiliser d'une manière ou d'une autre les technologies liées aux langues, pour procurer des recherches, des traductions, des rapports ou d'autres services permettant de communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être utilisées continue de me surprendre, et cela va des rapports financiers et leurs mises à jour aux communications d'une société à l'autre en passant par le marketing.
En ce qui concerne la recherche, la principale avancée que je vois est due à Kevin Knight, un collègue de l'ISI (Institut des sciences de l'information de l'Université de Californie du Sud), ce dont je suis très honoré. L'été dernier, une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins (Maryland) a développé une version à la fois meilleure et plus rapide d'une méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a douze ans environ. Cette méthode permet de créer automatiquement un système de traduction automatique, dans la mesure où on lui fournit un volume suffisant de texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre les mots et la position des mots d'une langue à l'autre, et ensuite elle construit des tableaux très complets de règles entre le texte et sa traduction, et les expressions correspondantes.
Bien que la qualité du résultat soit encore loin d'être satisfaisante - personne ne pourrait considérer qu'il s'agit d'un produit fini, et personne ne pourrait utiliser le résultat tel quel - l'équipe a créé en vingt-quatre heures un système (élémentaire) de traduction automatique du chinois vers l'anglais. Ceci constitue un exploit phénoménal, qui n'avait jamais été réalisé avant. Les détracteurs du projet peuvent bien sûr dire qu'on a besoin dans ce cas de trois millions de phrases disponibles dans chaque langue, et qu'on ne peut se procurer une quantité pareille que dans les parlements du Canada, de Hong-Kong ou d'autres pays bilingues. Ils peuvent bien sûr arguer également de la faible qualité du résultat. Mais le fait est que, tous les jours, on met en ligne des textes bilingues au contenu à peu près équivalent, et que la qualité de cette méthode va continuer de s'améliorer pour atteindre au moins celle des logiciels de traduction automatique actuels, qui sont conçus manuellement. J'en suis absolument certain.
D'autres développements sont moins spectaculaires. On observe une amélioration constante des résultats dans les systèmes pouvant décider de la traduction opportune d'un terme (homonyme) qui a des significations différentes (par exemple père, pair et père, ndlr). On travaille beaucoup aussi sur la recherche d'information par recoupement de langues (qui vous permettront bientôt de trouver sur le web des documents en chinois et en français même si vous tapez vos questions en anglais). On voit également un développement rapide des systèmes qui répondent automatiquement à des questions simples (un peu comme le populaire AskJeeves utilisé sur le web, mais avec une gestion par ordinateur et non par des êtres humains). Ces systèmes renvoient à un grand volume de texte permettant de trouver des "factiodes" (et non des opinions ou des motifs ou des chaînes d'événements) en réponse à des questions telles que: "Quelle est la capitale de l'Ouganda?", ou bien: "Quel âge a le président Clinton?", ou bien: "Qui a inventé le procédé Xerox?", et leurs résultats obtenus sont plutôt meilleurs que ce à quoi je m'attendais.
= Quelle est votre opinion sur le livre électronique?
Je ne crois pas au livre électronique. Encore plus que d'assister à un concert en public ou d'aller voir un film au cinéma, j'aime l'expérience physique d'avoir un livre sur les genoux et de prendre plaisir à son odeur, son contact et son poids. Les concerts à la télévision, les films à la télévision et les livres électroniques font qu'on perd un peu de ce plaisir. Et, pour les livres particulièrement, je ne suis pas prêt à cette perte. Après tout, dans mon domaine d'activité, il est beaucoup plus facile et beaucoup plus économique de se procurer un livre qu'une place de concert ou de cinéma. Tous mes souhaits vont aux fabricants de livres électroniques, mais je suis heureux avec les livres imprimés. Et je ne pense pas changer d'avis de sitôt, et me ranger dans la minorité qui utilise les livres électroniques. Je crains beaucoup moins la disparition des livres que je n'ai craint autrefois la disparition des cinémas.
= Comment définissez-vous le cyberespace?
Pour moi, le cyberespace est représenté par la totalité des informations auxquelles nous pouvons accéder par l'internet et les systèmes informatiques en général. Il ne s'agit bien sûr pas d'un espace, et son contenu est sensiblement différent de celui des bibliothèques. Par exemple, bientôt mon réfrigérateur, ma voiture et moi-même seront connus du cyberespace, et toute personne disposant d'une autorisation d'accès (et d'une raison pour cela) pourra connaître précisément le contenu de mon réfrigérateur et la vitesse de ma voiture (ainsi que la date à laquelle je devrai changer les amortisseurs), et ce que je suis en train de regarder maintenant.
En fait, j'espère que la conception de la publicité va changer, y compris les affiches et les présentations que j'ai sous les yeux en marchant, afin que cette publicité puisse correspondre à mes connaissances et à mes goûts, tout simplement en ayant les moyens de reconnaître que "voici quelqu'un dont la langue maternelle est l'anglais, qui vit à Los Angeles et dont les revenus sont de tant de dollars par mois". Ceci sera possible du fait de la nature dynamique d'un cyberespace constamment mis à jour (contrairement à une bibliothèque), et grâce à l'existence de puces informatiques de plus en plus petites et bon marché.