Chapter 5

La bibliothèque comprend 1.098 livres en juin 2007. Ces livres sont disponibles en plusieurs formats. Le format PRC permet la lecture sur assistant personnel (PDA) et sur smartphone. Le format PDF peut être lu avec JAWS, un logiciel de lecture d’écran sur plateforme Windows utilisé par 80% des personnes aveugles. Ces deux formats permettent notamment le défilement automatique du texte – le lecteur n’est donc plus dépendant d’un tiers pour tourner les pages - et le grossissement de la taille des caractères. Les livres audio sont au format WMA (Windows media audio), lisible sur les logiciels Windows Media et Real Player, tout comme sur baladeur WMA. Tous ces livres audio sont lus par des comédiens et parfois par les auteurs eux-mêmes, et sont disponibles par ailleurs en librairie sous forme de CD-Rom.

En septembre 2007, l'accès à la BnH est généralisé à toutes les personnes en situation de handicap - aveugles et malvoyants, sourds et malentendants, handicapés moteurs, handicapés psychiques et mentaux. Dans cette optique, Alain Patez précise en juin 2007: «Je travaille au rapprochement de la BnH avec des institutions ou des organisations nationales et internationales liées à la question du handicap, de tous les handicaps. La BnH est d'abord et avant tout un projet collaboratif, partenarial, et pourrait devenir un projet "sans frontière". C’est notamment le cas avec la Bibliothèque nationale de France. Concrètement, et dans un premier temps, les lecteurs handicapés pourront télécharger des ouvrages de la BnH à partir des postes informatiques qui leur sont dédiés.»

Il ajoute en août 2007: «La BnH s’adresse aux lecteurs quel que soit leur handicap, leur lieu géographique ou leur support de lecture; le handicap peut d’ailleurs être définitif ou temporaire, comme dans le cas d’une hospitalisation. Un don important de Hewlett-Packard France va permettre à un partenaire de la BnH, l’hôpital Raymond Poincaré de Garches (région parisienne), de créer le premier service de prêt de portables dans un hôpital public français. De quoi favoriser le développement de la lecture numérique en milieu hospitalier.»

7.5. Une future bibliothèque planétaire

En 2005, alors que le Projet Gutenberg poursuit tranquillement la mise en ligne gratuite des oeuvres du domaine public, une tâche immense entreprise depuis nombre d’années, le livre devient un objet convoité par les géants de l’internet que sont Google, Yahoo! et Microsoft, d’une part par souci méritoire de mettre le patrimoine mondial à la disposition de tous, d’autre part à cause de l’enjeu représenté par les recettes publicitaires générées par les liens commerciaux accolés aux résultats des recherches. L’Internet Archive considère quant à elle qu’un projet de cette ampleur ne doit pas être lié à des enjeux commerciaux et fonde à cet effet l’Open Content Alliance (OCA) pour fédérer un grand nombre de partenaires dans l’optique d’une bibliothèque planétaire publique.

= Google Book Search / Google Livres

Le moteur de recherche Google décide de mettre son expertise au service du livre. En octobre 2004, il lance la première partie de son programme Google Print, établi en partenariat avec les éditeurs pour pouvoir consulter à l’écran des extraits de livres, puis commander les livres auprès d’une librairie en ligne. La version bêta de Google Print est mise en ligne en mai 2005. En novembre 2004, Google lance Google Scholar, qui indexe la production scientifique et universitaire disponible sur le web. En décembre 2004, Google lance la deuxième partie de son programme Google Print, cette fois à destination des bibliothèques. Il s’agit d’un projet de bibliothèque numérique de 15 millions de livres consistant à numériser plusieurs grandes bibliothèques partenaires, à commencer par la bibliothèque de l’Université du Michigan (dans sa totalité, à savoir 7 millions d’ouvrages), les bibliothèques des Universités de Harvard, de Stanford et d’Oxford, et celle de la ville de New York. Le coût estimé au départ se situe entre 150 et 200 millions de dollars US, avec la numérisation de 10 millions de livres sur six ans, et une durée totale de dix ans. En août 2005, Google Print est suspendu pour un temps indéterminé pour cause de conflit avec les éditeurs de livres sous droits.

Le programme reprend en août 2006 sous le nouveau nom de Google Book Search, dénommé Google Livres pour la version française. Google Book Search permet des recherches par date, titre ou éditeur. La numérisation des fonds de grandes bibliothèques se poursuit, axée cette fois sur les livres libres de droit, tout comme le développement de partenariats avec les éditeurs qui le souhaitent. Les livres libres de droit sont consultables à l’écran en texte intégral, leur contenu est copiable et l’impression est possible page à page. Ils sont également téléchargeables sous forme de fichiers PDF et imprimables dans leur entier. Les liens publicitaires associés aux pages de livres sont situés en haut et à droite de l’écran. Le conflit avec les éditeurs se poursuit lui aussi, puisque Google continue de numériser des livres sous droits sans l’autorisation préalable des éditeurs en invoquant le droit de citation pour présenter des extraits sur le web. L’Authors Guild et l’Association of American Publishers (AAP) invoquent pour leur part le non respect de la législation relative au copyright pour attaquer Google en justice. Le feuilleton judiciaire promet de durer.

Alexandre Laumonier, directeur des éditions Kargo, participe au programme Google Livres en France. Dans La non affaire Google Livres, suite, un texte daté de juin 2006 et publié sur le site de l’éditeur, il propose une analyse lucide des véritables enjeux: «Sur le fond, au-delà des discours et des rebonds, au-delà des problèmes juridiques à régler, au-delà des intérêts économiques et/ou corporatistes que chacun(e) essaie de défendre, au-delà des technologies encore balbutiantes, au-delà d’un antiaméricanisme primaire qui se révèle ici et là, au fond les véritables interrogations que posent les transformations technologiques, notamment lorsqu’elles impliquent certaines formes de savoir, sont celles du partage de l’information, du savoir en tant que bien commun, des qualités et des défauts de l’écriture numérique, qui permet désormais une maniabilité du savoir comme jamais cela n’avait été possible auparavant. Rarement trouve-t-on, dans les quelques discussions ici et là sur Google Livres, les mots "bien commun", "partage du savoir", "démocratisation de l’écriture"… Car c’est bien de cela dont il s’agit, au moment où l’on constate que l’objet-livre, qui symboliquement et dans les faits, était jusqu’à maintenant le seul garant d’une vérité, ne l’est plus (seulement).»

Michel Valensi, directeur des éditions de l’Eclat, passe lui aussi un partenariat avec Google Livres en août 2005. Dans Faut-il une grande cuiller pour signer avec Google? (version 2.0), un texte en ligne daté de septembre 2006 et disponible sur le site de l’éditeur, il explique: «Le projet Google Livres est le premier projet de grande envergure (il en existait d’autres auparavant, parmi lesquels le lyber lui-même; il en existera d’autres dans les mois à venir) qui permet une entrée en force du Livre dans l’internet. Après la multiplication des sites de toutes sortes sur les sujets les plus divers et la prolifération épidémique des blogs (dont le terme même, onomatopéïque, dit toute la profondeur: blog!) on en revient au Livre comme source première d’information. On permet l’accès à une partie des contenus, on permet une recherche thématique à l’intérieur du livre, on renvoie à d’autres livres, à l’éditeur, vers des librairies, etc., mais jamais on ne se substitue au livre, dont la forme reste omni-présente à travers l’image même des pages consultées. Contrairement aux sites, on ne peut ni télécharger, ni imprimer. Paradoxalement, Google Livres indique ainsi les limites d’une information infinie (qui est un leurre) surfant de blogs en sites, et propose un retour (qui est une avancée) vers un médium ancien, encore aujourd’hui sans équivalent.»

Fin 2006, Google scanne 3.000 livres par jour, ce qui représenterait un million de livres par an. Le coût estimé serait de 30 dollars par livre - d'autres sources mentionnent un coût double - et les collections actuelles se monteraient à 3 millions de livres. Tous chiffres à prendre avec précaution, la société ne communiquant pas de statistiques à ce sujet. A l’exception de la New York Public Library, les collections en cours de numérisation appartiennent toutes à des bibliothèques universitaires (Harvard, Stanford, Michigan, Oxford, Californie, Virginie, Wisconsin-Madison, Complutense de Madrid). S’y ajoutent début 2007 les bibliothèques des Universités de Princeton et du Texas (Austin), ainsi que la Biblioteca de Catalunya (Catalogne, Espagne) et la Bayerische Staatbibliothek (Bavière, Allemagne). En mai 2007, Google annonce la participation de la première bibliothèque francophone, la Bibliothèque cantonale et universitaire (BCU) de Lausanne (Suisse), pour la numérisation de 100.000 titres en français, allemand et italien publiés entre le 17e et le 19e siècle, qui seront consultables dans leur intégralité et téléchargeables au format PDF.

= Open Content Alliance

Parallèlement est lancée une autre initiative du même genre, mais cette fois respectueuse du copyright et sur un modèle ouvert. En janvier 2005, l’Internet Archive s’associe à Yahoo! pour mettre sur pied l’Open Content Alliance (OCA), une initiative visant à créer un répertoire libre et multilingue de livres numérisés et de documents multimédias pour consultation sur n’importe quel moteur de recherche. L’OCA est officiellement lancée en octobre 2005. Un site de démonstration, l’Open Library, présente quelques livres numérisés issus des fonds de l’Université de Californie. Le but de l’initiative est de s’inspirer de Google Livres tout en évitant ses travers, à savoir la numérisation des livres sous droits sans l’accord préalable des éditeurs, tout comme la consultation et le téléchargement impossibles sur un autre moteur de recherche.

L’OCA regroupe de nombreux partenaires: des bibliothèques et des universités bien sûr, mais aussi des organisations gouvernementales, des associations à but non lucratif, des organismes culturels et des sociétés informatiques (Adobe, Hewlett Packard, Microsoft, etc.). Les premiers partenaires sont les bibliothèques des Universités de Californie et de Toronto, l’European Archive, les Archives nationales du Royaume-Uni, O’Reilly Media et Prelinger Archives. Seuls les livres appartenant au domaine public sont numérisés, pour éviter les problèmes de copyright auxquels se heurte Google. Les collections numérisées alimenteront la section Text Archive de l’Internet Archive.

Qu’est-ce exactement que l’Internet Archive, l'organisme pilotant l'Open Content Alliance? Fondée en avril 1996 par Brewster Kahle à San Francisco, l’Internet Archive a pour but premier de constituer, stocker, préserver et gérer une «bibliothèque» de l’internet, en archivant la totalité du web tous les deux mois, afin d’offrir un outil de travail aux universitaires, chercheurs et historiens, et de préserver un historique de l’internet pour les générations futures. En octobre 2001, l’Internet Archive met ses archives en accès libre sur le web grâce à la Wayback Machine, qui permet à tout un chacun de consulter l’historique d’un site web, à savoir le contenu et la présentation d’un site web à différentes dates, théoriquement tous les deux mois, à partir de 1996. L’Internet Archive débute aussi la constitution de collections numériques telles que le Million Book Project (10.520 livres en avril 2005), des archives de films de la période 1903-1973, des archives de concerts live récents, des archives de logiciels, etc. Toutes ces collections sont en consultation libre sur le web.

En décembre 2006, l’Open Content Alliance franchit la barre des 100.000 livres numérisés, avec un rythme de 12.000 nouveaux livres par mois. A la même date, l’Internet Archive reçoit une subvention de 1 million de dollars de la part de la Sloan Foundation pour numériser les collections du Metropolitan Museum of Art (l’ensemble des livres et plusieurs milliers d’images) ainsi que certaines collections de la Boston Public Library (les 3.800 livres de la bibliothèque personnelle de John Adams, deuxième président des Etats-Unis), du Getty Research Institute, de la John Hopkins University (une série de documents liés au mouvement anti-esclavagiste) et de l’Université de Californie à Berkeley (une série de documents relatifs à la ruée vers l’or). En mai 2007, l’Open Content Alliance franchit la barre des 200.000 livres numérisés.

= Autres initiatives

Si Microsoft est l’un des partenaires de l’Open Content Alliance, il se lance également dans l’aventure à titre personnel. En décembre 2006 est mise en ligne aux Etats-Unis la version bêta de Live Search Books, qui permet une recherche par mots-clés dans les livres du domaine public. Ces livres sont numérisés par Microsoft suite à des accords passés avec de grandes bibliothèques, les premières étant la British Library et les bibliothèques des Universités de Californie et de Toronto, suivies en janvier 2007 par celles de la New York Public Library et de l’Université Cornell. Microsoft compte aussi ajouter des livres sous droits, mais uniquement avec l’accord préalable des éditeurs. Tout comme Google Book Search, Live Search Books permet de consulter les livres avec les mots-clés surlignés. Par la suite, il sera possible de télécharger les livres dans leur entier au format PDF. A ce stade, la base est beaucoup moins riche que celle de Google Book Search et son moteur de recherche plus rudimentaire. En mai 2007, Microsoft annonce des accords avec plusieurs grands éditeurs américains, dont Cambridge University Press et McGraw Hill.

En Europe, certains s’inquiètent d’une soi-disant hégémonie américaine. En septembre 2005, la Commission européenne lance une vaste consultation sur un projet de bibliothèque numérique européenne, avec réponse requise en janvier 2006. Le projet est officiellement lancé en mars 2006. «Le plan de la Commission européenne visant à promouvoir l’accès numérique au patrimoine de l’Europe prend forme rapidement, lit-on dans le communiqué de presse. Dans les cinq prochaines années, au moins six millions de livres, documents et autres oeuvres culturelles seront mis à la disposition de toute personne disposant d’une connexion à l’internet, par l’intermédiaire de la "bibliothèque numérique européenne". Afin de stimuler les initiatives de numérisation européennes, la Commission va cofinancer la création d’un réseau paneuropéen de centres de numérisation. La Commission abordera également, dans une série de documents stratégiques, la question du cadre approprié à adopter pour assurer la protection des droits de propriété intellectuelle dans le cadre des bibliothèques numériques.» Cette bibliothèque numérique européenne devrait être accessible à partir de la Bibliothèque européenne, un portail commun aux 43 bibliothèques nationales d’Europe lancé en janvier 2004 par la CENL (Conference of European National Librarians) et hébergé par la Bibliothèque nationale des Pays-Bas.

7.6. Chronologie

* Cette chronologie ne prétend pas à l’exhaustivité.

1971 (juillet): Le Projet Gutenberg, fondé par Michael Hart.

1993: L’Online Books Page, créée par John Mark Ockerbloom.

1993 (avril): L’ABU, créée par l’Association des bibliophiles universels (ABU).

1994: Athena, bibliothèque numérique créée par Pierre Perroud.

1995 (mars): Internet Public Library (IPL), première bibliothèque de l’internet sur l’internet.

1995 (septembre): Gabriel, serveur des bibliothèques nationales européennes.

1996 (avril): L’Internet Archive, fondée par Brewster Kahle.

1996 (juin): La Bibliothèque électronique de Lisieux, créée par Olivier Bogros.

1996: Mise en ligne du Bulletin des bibliothèques de France (BBF).

1997: Gallica, bibliothèque numérique de la Bibliothèque nationale de France.

1997 (juillet): Cyberespace de la Bibliothèque des Nations Unies à Genève.

1998: Mise en ligne des enluminures de la Bibliothèque municipale de Lyon.

1999 (août): Serveur de la Library of Congress pour aveugles et malvoyants.

2000 (septembre): Premier site web de Handicapzéro.

2001 (octobre): Wayback Machine, sur le site de l’Internet Archive.

2002 (février): Bookshare.org, pour les personnes déficientes visuelles.

2003 (février): Portail généraliste de Handicapzéro.

2004 (janvier): Bibliothèque européenne, portail des bibliothèques nationales européennes.

2004 (octobre): Google Print, première partie, à l’intention des éditeurs.

2004 (novembre): Google Scholar.

2004 (décembre): Google Print, deuxième partie, à l’intention des bibliothèques.

2005 (août): Arrêt de Google Print.

2005 (octobre): Open Content Alliance, lancée par l’Internet Archive.

2005 (novembre): Bibliothèque numérique pour le Handicap (BnH).

2006 (mars): Projet de Bibliothèque numérique européenne.

2006 (août): Google Book Search (Google Livres).

2006 (décembre): Live Search Books, bibliothèque numérique de Microsoft.

[8.1. Outils de référence / Dictionnaires et encyclopédies / Dictionnaires de langues / Annuaires et portails // 8.2. Bases textuelles / Quelques exemples / Payant versus gratuit // 8.3. Catalogues collectifs / Premiers pas / WorldCat et RedLightGreen // 8.4. Chronologie]

Au fil des ans, le web devient une vaste encyclopédie. On y trouve des dictionnaires et des encyclopédies de renom, d'abord issus d’ouvrages imprimés puis nés directement sur le web, ainsi que des dictionnaires de langues, des annuaires, des portails, des bases textuelles, des catalogues collectifs, etc. Si certains organismes facturent l’utilisation de leurs services, d’autres tiennent à ce que les leurs soient en accès libre, pour favoriser la diffusion libre du savoir. Des services payants passent en gratuit, à commencer par le grand catalogue collectif mondial WorldCat.

8.1. Outils de référence

= Dictionnaires et encyclopédies

Un des premiers dictionnaires en accès libre est le Dictionnaire universel francophone en ligne, qui répertorie 45.000 mots et 116.000 définitions tout en présentant «sur un pied d’égalité, le français dit "standard" et les mots et expressions en français tel qu’on le parle sur les cinq continents». Issu de la collaboration entre Hachette et l’AUPELF-UREF (devenu depuis l’AUF - Agence universitaire de la Francophonie), il correspond à la partie «noms communs» du dictionnaire imprimé disponible chez Hachette. L’équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.

En décembre 1999 apparaissent sur le web plusieurs encyclopédies de renom, parallèlement à leur version imprimée ou CD-Rom. La première encyclopédie francophone en accès libre est WebEncyclo, publiée par les éditions Atlas. La recherche est possible par mots-clés, thèmes, médias (cartes, liens internet, photos, illustrations) et idées. Un appel à contribution incite les spécialistes d’un sujet donné à envoyer des articles, qui sont regroupés dans la section «WebEncyclo contributif». Après avoir été libre, l’accès est ensuite soumis à une inscription préalable gratuite.

Mis en ligne à la même date, Britannica.com propose en accès libre l’équivalent numérique des 32 volumes de la 15e édition de l’Encyclopaedia Britannica, parallèlement à la version imprimée et à la version sur CD-Rom, toutes deux payantes. Le site web offre une sélection d’articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d’un moteur de recherche unique. En septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, la consultation devient payante sur la base d’un abonnement mensuel ou annuel.

Décembre 1999 est aussi la date de mise en ligne de l’Encyclopaedia Universalis, avec 28.000 articles signés par 4.000 auteurs. Si la consultation est payante sur la base d’un abonnement annuel, de nombreux articles sont en accès libre.

La mise en ligne d’encyclopédies de renom se poursuit en 2000 et 2001.

En mars 2000, les 20 volumes de l’Oxford English Dictionary sont mis en ligne par l’Oxford University Press (OUP). La consultation du site est payante. Le dictionnaire bénéficie d’une mise à jour trimestrielle d’environ 1.000 entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars 2002, l’OUP met en ligne l’Oxford Reference Online, une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Avec 60.000 pages et un million d’entrées, elle représente l’équivalent d’une centaine d’ouvrages de référence.

A la même date, le Quid, encyclopédie en un volume actualisée une fois par an depuis 1963, décide de mettre une partie de son contenu en accès libre sur le web. En septembre 2000, après avoir été payante, la consultation de l’encyclopédie Encarta de Microsoft devient libre.

Issu du terme hawaïen «wiki» (qui signifie : vite, rapide), un wiki est un site web permettant à plusieurs utilisateurs de collaborer en ligne sur un même projet. A tout moment, ces utilisateurs peuvent contribuer à la rédaction du contenu, modifier ce contenu et l'enrichir en permanence. Le wiki est utilisé par exemple pour créer et gérer des dictionnaires, des encyclopédies ou encore des sites d'information sur un sujet donné. Le programme présent derrière l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère du texte et des hyperliens. Un programme élaboré permet d'inclure des images, des graphiques, des tableaux, etc. L’encyclopédie wiki la plus connue est Wikipedia.

Créée en janvier 2001 à l’initiative de Jimmy Wales et de Larry Sanger, Wikipedia est une encyclopédie gratuite écrite collectivement et dont le contenu est librement réutilisable. Elle est immédiatement très populaire. Sans publicité et financée par des dons, cette encyclopédie coopérative est rédigée par des milliers de volontaires (appelés Wikipédiens), avec possibilité de corriger et de compléter les articles. Les articles restent la propriété de leurs auteurs, et leur libre utilisation est régie par la licence GFDL (GNU free documentation license). En décembre 2004, Wikipedia compte 1,3 million d'articles rédigés par 13.000 contributeurs dans 100 langues. En décembre 2006, elle compte 6 millions d'articles dans 250 langues, et elle est l'un de dix sites les plus visités du web. En avril 2007, un CD payant est édité pour la première fois avec une sélection de 2.000 articles de la version anglophone. En mai 2007, la version francophone fête ses 500.000 articles (et un CD en 2008). A la même date, Wikipedia compte 7 millions d'articles dans 192 langues, dont 1,8 million en anglais, 589.000 en allemand, 260.000 en portugais et 236.000 en espagnol.

Fondée en juin 2003, la Wikimedia Foundation gère non seulement Wikipedia mais aussi Wiktionary, un dictionnaire et thésaurus multilingue lancé en décembre 2002, puis Wikibooks (livres et manuels en cours de rédaction) lancé en juin 2003, auxquels s'ajoutent ensuite Wikiquote (répertoire de citations), Wikisource (textes appartenant au domaine public), Wikimedia Commons (sources multimédias), Wikispecies (répertoire d'espèces animales et végétales), Wikinews (site d'actualités) et enfin Wikiversity (matériel d'enseignement), lancé en août 2006. La fin 2007 voit le lancement d'un moteur de recherche dénommé Wiki Search, qui utilise le réseau de contributeurs de Wikipedia pour classer les sites en fonction de leur qualité.

Une nouvelle étape s’ouvre avec les débuts de Citizendium (qui se veut l’abrégé de: The Citizens’ Compendium), une grande encyclopédie collaborative en ligne conçue en novembre 2006 et lancée en mars 2007 (version bêta) par Larry Sanger, co-fondateur de Wikipedia, mais qui quitte ensuite l’équipe de Wikipedia suite à des problèmes de qualité de contenu. Citizendium est basé sur le même modèle que Wikipedia (collaborative et gratuite) tout en évitant ses travers (vandalisme et manque de rigueur). Les auteurs signent les articles de leur vrai nom et les articles sont édités par des experts («editors») titulaires d'une licence universitaire et âgés d'au moins 25 ans. De plus, des «constables» sont chargés de la bonne marche du projet et du respect du règlement. Le jour de son lancement (25 mars 2007), Citizendium comprend 820 auteurs et 180 experts.

Dans Why Make Room for Experts in Web 2.0?, une communication datée d’octobre 2006, Larry Sanger voit dans Citizendium l’émergence d’un nouveau modèle de collaboration massive de dizaines de milliers d’intellectuels et scientifiques, non seulement pour les encyclopédies, mais aussi pour les manuels d’enseignement, les ouvrages de référence, le multimédia et les applications en 3D. Cette collaboration est basée sur le partage des connaissances, dans la lignée du web 2.0, un concept lancé en 2004 pour caractériser les notions de communauté et de partage et qui se manifeste d’abord par une floraison de wikis, de blogs et de sites sociaux. D’après Larry Sanger, il importe maintenant de créer des structures permettant des collaborations scientifiques et Citizendium pourrait servir de prototype dans ce domaine.

Un appel qui semble déjà se concrétiser avec l’Encyclopedia of Life, nouveau «compendium» dont le projet débute en mai 2007. Cette vaste encyclopédie collaborative en ligne rassemblera les connaissances sur toutes les espèces animales et végétales connues (1,8 million), y compris les espèces en voie d’extinction, avec l’ajout de nouvelles espèces au fur et à mesure de leur identification (il en existerait de 8 à 10 millions). Il s’agira d’une encyclopédie multimédia permettant de ressembler textes, photos, cartes, bandes sonores et vidéos, avec une page web par espèce, et permettant aussi d’offrir un portail unique à des millions de documents épars, en ligne et hors ligne. Outil d’apprentissage et d’enseignement pour une meilleure connaissance de notre planète, cette encyclopédie sera à destination de tous: scientifiques, enseignants, étudiants, scolaires, médias, décideurs et grand public.

Ce projet collaboratif est mené par plusieurs grandes institutions (Field Museum of Natural History, Harvard University, Marine Biological Laboratory, Missouri Botanical Garden, Smithsonian Institution, Biodiversity Heritage Library). Son directeur honoraire est Edward Wilson, professeur émérite à l’Université de Harvard, qui, dans un essai daté de 2002, est le premier à émettre le voeu d’une telle encyclopédie. Cinq ans après, en 2007, c'est chose désormais possible grâce aux avancées technologiques de ces dernières années, notamment les outils logiciels permettant l’agrégation de contenu, le mash-up (à savoir le fait de rassembler un contenu donné à partir de très nombreuses sources différentes), les wikis de grande taille et la gestion de contenu à vaste échelle. Consortium des dix plus grandes bibliothèques des sciences de la vie (d’autres suivront), la Biodiversity Heritage Library a d’ores et déjà débuté la numérisation de 2 millions de documents, dont les dates de publication s’étalent sur 200 ans. En mai 2007, date du lancement officiel du projet, on compte déjà 1,25 million de pages traitées dans les centres de numérisation de Londres, Boston et Washington DC, et disponibles sur le site de l’Internet Archive.

Le financement initial est assuré par la MacArthur Foundation (10 millions de dollars) et la Sloan Foundation (2,5 millions de dollars). 100 millions de dollars US sont nécessaires pour un financement sur dix ans, avant que l'encyclopédie ne puisse s'autofinancer. La réalisation des pages web débute courant 2007. L’encyclopédie fait ses débuts à la mi-2008. Opérationnelle d'ici trois à cinq ans, elle devrait être complète - c'est-à-dire à jour - dans dix ans.

Dans la lignée du Human Genome Project (Séquencage du génome humain), publié pour la première fois en février 2001 et appartenant d'emblée au domaine public, l’Encyclopedia of Life permettra non seulement de rassembler toutes les connaissances disponibles à ce jour sur les espèces animales et végétales, mais elle sera aussi un «macroscope» permettant de déceler les grandes tendances à partir d’un stock considérable d’informations, à la différence du microscope qui permet l’étude du détail. En plus de sa flexibilité et de sa diversité, elle permettra à chacun de contribuer au contenu sous une forme s’apparentant au wiki, ce contenu étant ensuite validé ou non par des scientifiques. La version initiale sera d’abord en anglais avant d’être traduite en plusieurs langues par de futurs organismes partenaires.

= Dictionnaires de langues

Des dictionnaires de langues sont en accès libre dès les débuts du web. Souvent sommaires et de qualité inégale, ils sont répertoriés dans Travlang, un site consacré aux voyages et aux langues créé en 1994 par Michael M. Martin.

Fondé en 1979 à Modène (Italie) par Rodrigo Vergara, Logos est une société de traduction offrant des services dans 35 langues en 1997, avec un réseau de 300 traducteurs dans le monde. Initiative peu courante à l’époque, Logos décide de mettre tous ses outils professionnels en accès libre sur le web. Dans un entretien publié dans le quotidien Le Monde du 7 décembre 1997, Rodrigo Vergara relate: «Nous voulions que nos traducteurs aient tous accès aux mêmes outils de traduction. Nous les avons donc mis à leur disposition sur internet, et tant qu’à faire nous avons ouvert le site au public. Cela nous a rendus très populaires, nous a fait beaucoup de publicité. L’opération a drainé vers nous de nombreux clients, mais aussi nous a permis d’étoffer notre réseau de traducteurs grâce aux contacts établis à la suite de cette initiative.»

Les outils de traduction disponibles sur le web comprennent un dictionnaire multilingue de 7,5 millions d’entrées (Logos Dictionary), une base de données de 553 glossaires (Linguistic Resources), des tables de conjugaison en 17 langues (Conjugation of Verbs), et enfin la Wordtheque, une base de données multilingue de 328 millions de termes issus de traductions de romans et de documents techniques. La recherche dans la Wordtheque est possible par langue, mot, auteur ou titre. En 2007, la Wordtheque, devenue la Logos Library, comprend 710 millions de termes. Conjugation of Verbs, devenu l’Universal Conjugator, propose des tableaux de conjugaison dans 36 langues. Linguistic Resources offre un point d’accès unique pour 1 215 glossaires.

Au début des années 2000, des dictionnaires bilingues et multilingues de qualité sont progressivement mis en ligne par des organismes de renom, par exemple la base Eurodicautom de la Commission européenne, ou encore Le Signet et le Grand dictionnaire terminologique (GDT) de l’Office québécois de la langue française (OQLF), tous trois en accès libre et gratuit.

Géré par le service de traduction de la Commission européenne, Eurodicautom est un dictionnaire multilingue de termes économiques, scientifiques, techniques et juridiques, avec une moyenne de 120.000 consultations quotidiennes. Il permet de combiner entre elles les onze langues officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais, suédois), ainsi que le latin. Fin 2003, Eurodicautom annonce son intégration dans une base terminologique plus vaste regroupant les bases de plusieurs institutions de l’Union européenne. Cette nouvelle base traiterait non plus douze langues, mais une vingtaine, puisque l’Union européenne s’élargit à l’Est et passe de 15 à 25 membres en mai 2004, pour atteindre 27 membres en janvier 2007. Cette base terminologique voit le jour en mars 2007, sous le nom de IATE (Inter-Active Terminology for Europe), avec 1,4 million d’entrées dans 24 langues.

Géré par l’Office québécois de la langue française (OQLF), Le Signet propose 10.000 fiches bilingues français-anglais dans le domaine des technologies de l’information. Quant au Grand dictionnaire terminologique (GDT), il est mis en ligne en septembre 2000. Il s’agit d’un vaste dictionnaire bilingue français-anglais de 3 millions de termes du vocabulaire industriel, scientifique et commercial, qui représente l’équivalent de 3.000 ouvrages de référence imprimés. Sa mise en ligne est le résultat d’un partenariat entre l’OQLF, auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Evénement célébré par de nombreux linguistes, cette mise en ligne est un succès. Dès le premier mois, le GDT est consulté par 1,3 million de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l’OQLF lui-même, et non plus par une société prestataire.

Par ailleurs, des moteurs spécifiques permettent la recherche simultanée dans plusieurs centaines de dictionnaires. Pour ne prendre qu’un exemple, le site OneLook, créé par Robert Ware, puise dans près de 9 millions de termes provenant de 936 dictionnaires généralistes et spécialisés (chiffres d’avril 2007).

Des équipes de linguistes gèrent aussi des répertoires de dictionnaires, par exemple Dictionnaires électroniques et yourDictionary.com.

Maintenu par la section française des services linguistiques centraux de la Chancellerie fédérale suisse, Dictionnaires électroniques est un excellent répertoire de dictionnaires monolingues (français, allemand, italien, anglais, espagnol), bilingues et multilingues en accès libre sur le web. Ce répertoire est complété par des listes d’abréviations et d'acronymes et par des répertoires géographiques, essentiellement des atlas. Marcel Grangier, responsable de la section française des services linguistiques, précise en janvier 2000: «Les Dictionnaires électroniques ne sont qu’une partie de l’ensemble, et d’autres secteurs documentaires ont trait à l’administration, au droit, à la langue française, etc., sans parler des informations générales. (…) Conçu d’abord comme un service intranet, notre site web se veut en premier lieu au service des traducteurs opérant en Suisse, qui souvent travaillent sur la même matière que les traducteurs de l’Administration fédérale, mais également, par certaines rubriques, au service de n’importe quel autre traducteur où qu’il se trouve. (…) Travailler sans internet est devenu tout simplement impossible. Au-delà de tous les outils et commodités utilisés (messagerie électronique, consultation de la presse électronique, activités de services au profit de la profession des traducteurs), internet reste pour nous une source indispensable et inépuisable d’informations dans ce que j’appellerais le "secteur non structuré" de la toile. Pour illustrer le propos, lorsqu’aucun site comportant de l’information organisée ne fournit de réponse à un problème de traduction, les moteurs de recherche permettent dans la plupart des cas de retrouver le chaînon manquant quelque part sur le réseau.»

Réputé lui aussi pour sa qualité, yourDictionary.com est cofondé par Robert Beard en 1999, dans le prolongement de son ancien site - A Web of Online Dictionaries - créé dès 1995. En septembre 2003, yourDictionary.com répertorie plus de 1.800 dictionnaires dans 250 langues, ainsi que de nombreux outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues, etc. En avril 2007, le répertoire comprend 2.500 dictionnaires et grammaires dans 300 langues. Soucieux de servir toutes les langues sans exception, le site propose une section spécifique - Endangered Language Repository - consacrée aux langues menacées d’extinction.

Publiée par SIL International (SIL: Summer Institute of Linguistics), l’encyclopédie Ethnologue : Languages of the World existe à la fois en version web (gratuite), sur CD-Rom (payant) et en version imprimée (payante). Barbara Grimes, sa directrice de publication entre 1971 et 2000 (8e-14e éditions), relate en janvier 2000: «Il s’agit d’un catalogue des langues dans le monde, avec des informations sur les endroits où elles sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres termes utilisés pour ces langues, les noms de dialectes, d’autres informations socio-linguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues, un index des familles linguistiques et des cartes géographiques relatives aux langues.» En avril 2007, cette encyclopédie répertorie 6.912 langues selon plusieurs critères (pays, nom de la langue, code de la langue attribué par le SIL, famille de langues), avec moteur de recherche.

= Annuaires et portails

Le premier annuaire internet francophone est lancé par l’UREC (Unité réseaux du CNRS). Créé dès janvier 1994, cet annuaire recense d’abord les sites académiques avant d’offrir un contenu plus généraliste. Il permet aux usagers francophones de se familiariser avec le web sans se noyer dans la masse d’informations mondiale. Trois ans plus tard, la gestion de l’annuaire devient difficile du fait du nombre exponentiel de sites web, notamment de sites commerciaux. De plus, d'autres annuaires voient le jour dans l'intervalle, dont certains débutés avec l’aide de l’UREC. En juillet 1997, considérant que sa mission est accomplie, l’UREC arrête la mise à jour de cet annuaire généraliste. L’annuaire retourne à sa vocation première, à savoir un annuaire spécialisé consacré à l’enseignement supérieur et la recherche.

Patrick Rebollar est professeur de littérature française et d’informatique dans des universités japonaises. Dès 1987, il utilise l’ordinateur pour ses activités d’enseignement et de recherche. En 1994, il voit apparaître l’internet «dans le champ culturel et linguistique francophone». En 1996, il débute un site web de recherches et activités littéraires. Son site inclut une Chronologie littéraire 1848-1914 organisée par année. Une série de liens mène au texte intégral des oeuvres publiées cette année-là, avec des notes historiques, politiques, sociales, scientifiques, techniques et médicales, et des informations sur le monde littéraire de l’époque.

En juillet 1998, Patrick Rebollar raconte: «Pour la Chronologie littéraire, cela a commencé dans les premières semaines de 1997, en préparant un cours sur le roman fin de siècle (19e). Je rassemblai alors de la documentation et m’aperçus d’une part que les diverses chronologies trouvées apportaient des informations complémentaires les unes des autres, et d’autre part que les quelques documents littéraires alors présents sur le web n’étaient pas présentés de façon chronologique, mais toujours alphabétique. Je fis donc un document unique qui contenait toutes les années de 1848 à 1914, et l’augmentais progressivement. Jusqu’à une taille gênante pour le chargement, et je décidai alors, fin 1997, de le scinder en faisant un document pour chaque année. Dès le début, je l’ai utilisé avec mes étudiants, sur papier ou sur écran. Je sais qu’ils continuent de s’en servir, bien qu’ils ne suivent plus mon cours. J’ai reçu pas mal de courrier pour saluer mon entreprise, plus de courrier que pour les autres activités web que j’ai développées.»

Une autre activité web de Patrick Rebollar est la gestion de ses Signets, un répertoire très complet des sites francophones littéraires: littérature et recherche (normes et règles, bibliothèques et éditeurs, bibliographies), revues littéraires, linguistique, dictionnaires, lexiques, recherche littéraire, documents littéraires par thème et par auteur (Malraux, Sarraute, Camus, Gracq, Robbe-Grillet, etc.), oeuvres littéraires, poésie, bandes dessinées, etc. Quelle est l’origine de ces Signets? Patrick Rebollar relate en juillet 1998: «Animant des formations d’enseignants à l’Institut franco-japonais de Tokyo, je voyais d’un mauvais œil d’imprimer régulièrement des adresses pour demander aux gens de les recopier. J’ai donc commencé par des petits documents rassemblant les quelques adresses web à utiliser dans chaque cours (avec Word), puis me suis dit que cela simplifierait tout si je mettais en ligne mes propres signets, vers la fin 1996. Quelques mois plus tard, je décidai de créer les sections finales de nouveaux signets afin de visualiser des adresses qui sinon étaient fondues dans les catégories. Cahin-caha, je renouvelle chaque mois.»

Une Autre Terre, portail de science-fiction, débute en novembre 1996. Fabrice Lhomme, son créateur, raconte en juin 1998: «J’ai commencé en présentant quelques bibliographies très incomplètes à l’époque et quelques critiques. Rapidement, j’ai mis en place les forums à l’aide d’un logiciel "maison" qui sert également sur d’autres actuellement. (…) Ensuite, le phénomène le plus marquant que je puisse noter, c’est la participation de plusieurs personnes au développement du serveur alors que jusque-là j’avais tout fait par moi-même. Le graphisme a été refait par un généreux contributeur et je reçois régulièrement des critiques réalisées par d’autres personnes. Pour ce qui est des nouvelles, la rubrique a eu du mal à démarrer mais une fois qu’il y en a eu un certain nombre, j’ai commencé à en recevoir régulièrement (effet d’entraînement). Actuellement, j’ai toutes les raisons d’être satisfait car mon site reçoit plus de 2.000 visiteurs différents chaque mois et toutes les rubriques ont une bonne audience. Le forum des visiteurs est très actif, ce qui me ravit. Concernant les perspectives d’avenir, j’envisage pour très bientôt d’ouvrir une nouvelle rubrique proposant des livres d’occasion à vendre avec l’ambition de proposer un gros catalogue. Eventuellement, j’ouvrirai aussi une rubrique présentant des biographies car je reçois pas mal de demandes de visiteurs en ce sens. (…) Si l’activité de vente de livres d’occasion se montre prometteuse, il est possible que j’en fasse une activité professionnelle sous la forme d’une micro-entreprise.»

Le Club des poètes est un site de poésie francophone qui souhaite la «bienvenue en territoire de poésie de la France au Chili, de Villon jusqu’à de jeunes poètes contemporains, en passant par toutes les grandes voix de la poésie de tous les temps et de tous les pays». Son webmestre, Blaise Rosnay, relate les débuts du site en juin 1998: «Le site du Club des Poètes a été créé en 1996, il s’est enrichi de nombreuses rubriques au cours des années et il est mis à jour deux fois par semaine. L’internet nous permet de communiquer rapidement avec les poètes du monde entier, de nous transmettre des articles et poèmes pour notre revue, ainsi que de garder un contact constant avec les adhérents de notre association. Par ailleurs, nous avons organisé des travaux en commun, en particulier dans le domaine de la traduction. Nos projets pour notre site sont d’y mettre encore et toujours plus de poésie. Ajouter encore des enregistrements sonores de poésie dite, ainsi que des vidéos de spectacles.»

Poésie française propose pour sa part un choix de poèmes allant de la Renaissance au début du 20e siècle. Claire Le Parco, de la société Webnet, raconte à la même date: «Nous avons créé ce site lors de la création de notre société, spécialisée dans la réalisation de sites internet et intranet. Nous sommes des informaticiens qui aimons la poésie, et nous avions envie de montrer que poésie et internet pouvaient faire bon ménage!»

Isabelle Aveline est d’abord libraire puis journaliste avant de se lancer dans la conception de sites internet et intranet. En juin 1996, elle fonde Zazieweb, un site indépendant conçu pour tous les amoureux du livre, professionnels et amateurs. Selon ses propres mots, «le site Zazieweb débarque sur la toile dans un no man’s land littéraire». Le succès est immédiat. A l'époque, Zazieweb se présente comme une revue en ligne permettant de suivre l’actualité du livre sur le réseau, avec un graphisme d’Olivier Cornu. On y trouve un éditorial, une rubrique d’actualité, un agenda, une revue de presse, un annuaire des sites et un self-service multimédia.

Puis le site évolue. Sur une nouvelle mouture du site, Isabelle Aveline explique: «Zazieweb est un site World Wide Web professionnel et grand public indépendant, spécifiquement dédié aux libraires, éditeurs… et grand public de culture "livre". Conçu comme une librairie virtuelle, un espace de documentation, d’orientation et de ressources pour un public de culture "papier" s’intéressant à internet, il se situe aux frontières de l’écrit et de l’édition électronique. L’originalité du traitement des rubriques par rapport à un média papier étant évidemment de "mailler" l’information avec un site sur internet. C’est donc un site "passerelle" vers internet pour un public curieux et désorienté, avide de connaître ce qui se passe "de l’autre côté de l’écran".»

Quelques années plus tard, Zazieweb est un portail offrant de multiples services. Un annuaire recense 5.000 sites littéraires. Zazieweb offre aussi «des espaces d’échanges et de rencontres pour lecteurs communicants et actifs», avec la possibilité pour chacun de poster des nouvelles et des commentaires. Y participe une communauté active de plus de 10.000 membres appelés e-lecteurs. «Qu’est-ce qu’un e-lecteur? Un e-lecteur est un lecteur actif et communicant qui souhaite échanger, discuter, polémiquer avec d’autres lecteurs. Des espaces et services lui sont dédiés sur Zazieweb, sur le mode interactif du web ! Zazieweb se présente comme une interface média qui reconstruit, réinvente les relations entre les gens, entre les textes, entre toutes ces articulations possibles qui existent entre les personnes et les livres.»

8.2. Bases textuelles

= Quelques exemples

Le web favorise la création et la consultation de bases textuelles. Le laboratoire ATILF (Analyse et traitement informatique de la langue française) gère plusieurs bases textuelles payantes, par exemple Frantext, un corpus à dominante littéraire de textes français (16e-20e), ou encore l’Encyclopédie de Diderot, réalisée en collaboration avec le programme ARTFL (American and French Research on the Treasury of the French Language) de l’Université de Chicago. En accès libre, la section «Dictionnaires» de l’ATILF est une collection de dictionnaires informatisés comprenant les dictionnaires de Robert Estienne (1552), Jean Nicot (1606) et Pierre Bayle (1740), plusieurs éditions des dictionnaires de l’Académie française (1694, 1798, 1835, 1932-1935, 1992) et enfin le Trésor de la langue française informatisé (TLFi, 1971-1994).

Débutée en 1995 par l’Institut national de la langue française (INaLF, remplacé par le laboratoire ATILF en janvier 2001), la base Frantext, en accès payant, comprend en janvier 1998 180 millions de mots-occurrences résultant du traitement informatique de 3.500 unités textuelles en arts, sciences et techniques, une collection représentative couvrant cinq siècles (16e-20e). 82 centres de recherche et bibliothèques universitaires d'Europe, d'Australie, du Japon et du Canada y sont abonnés, ce qui représente 1.250 postes de travail, avec une cinquantaine d’interrogations de la base par jour.

L’ARTFL est un projet commun du CNRS (Centre national de la recherche scientifique, France) et de l’Université de Chicago (Illinois, Etats-Unis). L’ARTFL propose notamment une version en ligne exhaustive de la première édition (1751-1772) de l’Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d’Alembert. 72.000 articles rédigés par plus de 140 collaborateurs (dont Voltaire, Rousseau, Marmontel, d’Holbach, Turgot, etc.) font de cette encyclopédie un monumental ouvrage de référence, avec 17 volumes de texte, 11 volumes de planches, 18.000 pages et 20,8 millions de mots. Destinée à rassembler puis divulguer les connaissances de l’époque, elle porte la marque des courants intellectuels et sociaux du Siècle des Lumières, dont elle aide à propager les idées.

En 1998, la base de données correspondant au premier volume est accessible sur le web en démonstration libre, à titre expérimental. La recherche est possible par mot, portion de texte, auteur ou catégorie, ou en combinant ces critères entre eux. On dispose de renvois d’un article à l’autre, et de liens permettant d’aller d’une planche au texte, ou d’aller du texte au fac-similé des pages originales. Il reste encore à corriger les erreurs typographiques et les erreurs d’identification dues à l’automatisation complète des procédures de saisie. Il reste aussi à compléter la recherche textuelle par la recherche d’images, envisagée par mot, portion de texte (légende) et catégorie. C'est chose faite dans les années qui suivent.

L’ARTFL propose également les versions en ligne du Dictionnaire de l’Académie française (1694-1935), de l’édition illustrée du Dictionnaire historique et critique de Philippe Bayle (1740), du Thresor de la langue française de Jean Nicot (1606), etc.

Autre exemple, très différent, et dû cette fois à une initiative individuelle: le site Rubriques à Bac. Créé en 1998 par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, le site regroupe des bases de données à destination des lycéens et des étudiants. ELLIT (Eléments de littérature) propose des centaines d’articles sur la littérature française du 12e siècle à nos jours, ainsi qu’un répertoire d’auteurs. RELINTER (Relations internationales) recense 2.000 liens sur le monde contemporain depuis 1945. Ces deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. Lancé en juin 2001 dans le prolongement d’ELLIT, la base de données Bac-L (baccalauréat section lettres) est en accès libre.

En octobre 2000, Gérard Fourestier raconte: «Rubriques à Bac a été créé pour répondre au besoin de trouver sur le net, en un lieu unique, l’essentiel, suffisamment détaillé et abordable par le grand public, dans le but: a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c’est la raison d’ELLIT (Eléments de littérature), base de données en littérature française; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d’où RELINTER (Relations internationales). J’ai développé ces deux matières car elles correspondent à des études que j’ai, entre autres, faites en leur temps, et parce qu’il se trouve que, depuis une dizaine d’années, j’exerce des fonctions de professeur dans l’enseignement public (18 établissements de la 6e aux terminales de toutes sections et de tous types d’établissements). (…)

Mon activité liée à internet consiste tout d’abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial qui permette de dégager les recettes indispensables ; sans parler du butinage indispensable pour la recherche d’informations qui seront ensuite traitées. (…) Mon initiative à propos d’internet n’est pas directement liée à mes fonctions de professeur. J’ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j’agis en mon nom et pour mon compte et non "es-qualité", mais tout en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu’à la bien remplir, je laisse à d’autres le soin de ne préparer qu’à l’examen.»

Les recettes de Rubriques à Bac sont consacrées à la réalisation de projets éducatifs en Afrique. Par la suite, Gérard Fourestier aimerait développer des bases de données dans d’autres domaines, par exemple l’analyse sociétale, l’analyse sémantique ou l’écologie.

= Payant versus gratuit

Bases de données payantes à destination des organismes et des particuliers qui en ont les moyens, ou bases de données gratuites à la disposition de tous? Au début des années 2000, les outils dont on dispose pour créer et gérer des bases textuelles à moindres frais permettent de pencher vers la deuxième solution, tout au moins lorsqu’il existe une véritable volonté dans ce sens.

Emilie Devriendt, élève professeur à l’Ecole normale supérieure (ENS) de Paris, écrit en juin 2001: «L’avenir me semble prometteur en matière de publications de ressources en ligne, même si, en France tout au moins, bon nombre de résistances, inhérentes aux systèmes universitaire et éditorial, ne risquent pas de céder du jour au lendemain (dans dix, vingt ans, peut-être ?). Ce qui me donne confiance, malgré tout, c’est la conviction de la nécessité pratique d’internet. J’ai du mal à croire qu’à terme, un chercheur puisse se passer de cette gigantesque bibliothèque, de ce formidable outil. Ce qui ne veut pas dire que les nouvelles pratiques de recherche liées à internet ne doivent pas être réfléchies, mesurées à l’aune de méthodologies plus traditionnelles, bien au contraire. Il y a une histoire de l’"outillage", du travail intellectuel, où internet devrait avoir sa place.»

Professeur au département d’études françaises de l’Université de Toronto, Russon Wooldridge est le créateur de ressources littéraires librement accessibles en ligne. En 2001, sa tâche se trouve facilitée par TACTweb (TACT: text analysis computing tools). Développé par John Bradley, informaticien au King’s College London (Royaume-Uni), et par Geoffrey Rockwell, professeur à la McMaster University (Canada), TACTweb est un logiciel de recherche de données textuelles en ligne. En mai 2001, Russon Wooldridge explique: «La dernière version de TACTweb permet dorénavant de construire des bases interactives importantes comme les dictionnaires de la Renaissance (Estienne et Nicot ; base RenDico), les deux principales éditions du Dictionnaire de l’Académie française (1694 et 1835), les collections de la Bibliothèque électronique de Lisieux (base LexoTor), les oeuvres complètes de Maupassant, ou encore les théâtres complets de Corneille, Molière, Racine, Marivaux et Beaumarchais (base théâtre 17e-18e). À la différence de grosses bases comme Frantext ou ARTFL nécessitant l’intervention d’informaticiens professionnels, d’équipes de gestion et de logiciels coûteux, TACTweb, qui est un gratuiciel que l’on peut décharger en ligne et installer soi-même, peut être géré par le chercheur individuel créateur de ressources textuelles en ligne.»

Autre exemple, le projet HyperNietzsche, lancé en 2000 sous la direction de Paolo d’Iorio, chargé de recherches à l’Institut des textes et manuscrits modernes (ITEM) du CNRS. Ce projet expérimental «vise à créer une infrastructure de travail collectif en réseau, lit-on sur le site web. Cette infrastructure sera d’abord appliquée et testée sur l’oeuvre de Nietzsche, pour être ensuite généralisable à d’autres auteurs, à l’étude d’une période historique ou d’un fonds d’archive, ou à l’analyse d’un problème philosophique. Il ne s’agit donc pas seulement d’un projet de numérisation et de mise en réseau d’un ensemble de textes et d’études sur Nietzsche, ni d’une édition électronique conçue comme un produit confectionné et offert à la consultation, mais plutôt d’un instrument de travail permettant à une communauté savante délocalisée de travailler de façon coopérative et cumulative et de publier les résultats de son travail en réseau, à l’échelle de la planète. Il ne s’agit pas seulement d’une bibliothèque de textes électroniques en ligne, plus ou moins bien indexée, accompagnée d’un moteur de recherche par mots-clés ou en texte intégral. C’est un véritable système hypertextuel qui permet tout d’abord de disposer les textes et les manuscrits de Nietzsche selon des ordonnancements chronologiques, génétiques ou thématiques, et surtout d’activer un ensemble de liens hypertextuels qui relient les sources primaires aux essais critiques produits par les chercheurs.» Le texte intégral consacré à la présentation du projet est disponible pendant deux ans en accès libre sur le site des PUF (Presses universitaires de France). Son équivalent imprimé est publié en octobre 2000 dans la série «Ecritures électroniques» de la collection «Que sais-je?».

En février 2003, Emilie Devriendt fait à nouveau le point: «Dans ce domaine que l’on appelle parfois l’informatique littéraire, deux aspects du texte électronique m’intéressent plus particulièrement, dans une perspective d’enseignement ou de recherche: la publication de ressources textuelles, par exemple littéraires, sur le web au format texte ou au format image (exemple: Gallica ou la Bibliothèque électronique de Lisieux); la publication de bases de données textuelles interactives, c’est à dire d’outils de recherche et d’analyse linguistique appliqués à des textes électroniques donnés (exemple: la Nefbase du Net des études françaises ou, si l’on veut citer une banque de données payante, Frantext). Aujourd’hui ce type de ressources est relativement bien développé (même si aucune "explosion" ne semble avoir eu lieu si l’on compare la situation actuelle à celle d’il y a deux ou trois ans). En revanche, on ne peut véritablement mesurer les usages qui en sont faits.»

8.3. Catalogues collectifs

= Premiers pas

Par le passé, on a pu reprocher aux catalogues de bibliothèques d’être austères, peu conviviaux, et surtout de donner les références du document mais en aucun cas l’accès au contenu. Depuis qu’ils sont disponibles sur l’internet, les catalogues sont moins austères et plus conviviaux. Et surtout - rêve de tous qui commence à devenir réalité - ils permettent l’accès aux documents eux-mêmes : textes et images dans un premier temps, extraits sonores et vidéos dans un deuxième temps. En 1998, les 2.500 oeuvres de l’Universal Library sont accessibles par le biais d’un système expérimental (ESS: experimental search system) intégré ensuite au catalogue en ligne de la Library of Congress.

L’avenir des catalogues en réseau tient à l’harmonisation du format MARC (machine readable cataloguing) par le biais de l’UNIMARC (universal machine readable cataloguing). Créé en 1977 par l’IFLA (International Federation of Library Associations), le format UNIMARC est un format universel permettant le stockage et l’échange de notices bibliographiques au moyen d’une codification des différentes parties de la notice (auteur, titre, éditeur, etc.) pour traitement informatique. Ce format favorise les échanges de données entre la vingtaine de formats MARC existants, qui correspondent chacun à une pratique nationale de catalogage (INTERMARC en France, UKMARC au Royaume-Uni, USMARC aux Etats-Unis, CAN/MARC au Canada, etc.). Les notices dans le format MARC d’origine sont d’abord converties au format UNIMARC avant d’être converties à nouveau dans le format MARC de destination. UNIMARC peut aussi être utilisé comme standard pour le développement de nouveaux formats MARC.

Dans le monde anglophone, la British Library (qui utilise UKMARC), la Library of Congress (qui utilise USMARC) et la Bibliothèque nationale du Canada (qui utilise CAN/MARC) décident d’harmoniser leurs formats MARC nationaux. Un programme de trois ans (décembre 1995 - décembre 1998) permet de mettre au point un format MARC commun aux trois bibliothèques.

Parallèlement, en 1996, dans le cadre de son Programme des bibliothèques, la Commission européenne promeut l’utilisation du format UNIMARC comme format commun d’échange entre tous les formats MARC utilisés dans les pays de l'Union européenne. Le groupe de travail correspondant étudie aussi les problèmes posés par les différentes polices de caractères, ainsi que la manière d’harmoniser le format bibliographique, tout comme le format du document lui-même pour les documents disponibles en ligne.

A la fin des années 1990, de plus en plus de catalogues sont disponibles sur le web, moyennant une interface spécifique. L’usager a souvent le choix entre deux types de recherche, simple et avancée, et il peut sélectionner plusieurs critères complémentaires tels que le nombre de notices souhaitées ou bien le mode de classement. A réception du résultat, il dispose de plusieurs pages de notices abrégées ou complètes. Les notices sélectionnées peuvent être copiées, imprimées, sauvegardées ou bien envoyées par courriel. Des liens hypertextes permettent de passer facilement d’une requête à l’autre.

Ces catalogues utilisent le protocole Z39.50, un standard de communication permettant de chercher et récupérer des informations bibliographiques dans des bases de données en ligne. Ce protocole est d'abord utilisé par le WAIS (wide area information servers), un système de recherche créé au début des années 1990 pour consulter les index de bases de données situées sur des serveurs consultables à distance, avant l'apparition des moteurs de recherche sur le web. La version du Z39.50 en cours (norme ISO 23950: 1998) est utilisée par les grands catalogues de bibliothèques disponibles sur le web, notamment par celui de la Library of Congress. Ce protocole est également promu par la Commission européenne pour favoriser son utilisation dans les pays de l’Union européenne.

Tous deux en accès libre, les catalogues de la British Library et de la Library of Congress sont d’excellents outils bibliographiques à l’échelon mondial. En mai 1997, la British Library lance son OPAC 97 (OPAC: online public access catalogue), un catalogue en ligne permettant l’accès aux catalogues de ses principales collections à Londres et à Boston Spa, soit 150 millions de documents rassemblés depuis 250 ans. Catalogue expérimental, l’OPAC 97 est ensuite remplacé par sa version définitive, le BLPC (British Library public catalogue). Quant au catalogue de la Library of Congress, avec menus en anglais et en espagnol, il s’agit du plus important catalogue en ligne au monde, avec un grand nombre de notices en français.

Les catalogues collectifs visent à faire connaître les ressources disponibles à l’échelon local, régional, national et international. C'est le cas par exemple du Catalogue collectif de France (CCFr), mis en chantier en juillet 1997, qui permet de «trouver des informations détaillées sur les bibliothèques françaises, leurs collections et leurs fonds (anciens, locaux ou spécifiques), connaître précisément les services qu’elles rendent et interroger leur catalogue en ligne». A terme, annonce-t-on en 1998, il permettra aussi de «localiser des ouvrages (documents imprimés, audio, vidéo, multimédia) dans les principales bibliothèques et demander le prêt ou la reproduction» de documents qui seront remis à l’usager dans la bibliothèque de son choix. C’est chose faite en novembre 2002. En juillet 2001, la gestion du CCFr est confiée à la Bibliothèque nationale de France (BnF). Le CCFr regroupe les catalogues de la BnF et des bibliothèques universitaires, ainsi que les catalogues des fonds anciens (avant 1811) et locaux des bibliothèques municipales et spécialisées. En décembre 2006, le CCFr permet de localiser 15 millions de documents dans 160 bibliothèques françaises.

= WorldCat et RedLightGreen

L’internet facilite la gestion de catalogues collectifs mondiaux. Le but premier de ces catalogues est d’éviter de cataloguer à nouveau un document déjà catalogué par une bibliothèque partenaire. Si le catalogueur trouve la notice du livre qu’il est censé cataloguer, il la copie pour l’inclure dans le catalogue de sa propre bibliothèque. S’il ne trouve pas la notice, il la crée, et cette notice est aussitôt disponible pour les catalogueurs officiant dans d'autres bibliothèques. Ce pari osé est tenté par deux associations, l’OCLC (Online Computer Library Center) dès 1971 et le RLG (Research Libraries Group) dès 1980. Quelque trente ans plus tard, l’OCLC et le RLG gèrent de gigantesques bases bibliographiques alimentées par leurs adhérents, permettant ainsi aux bibliothécaires d’unir leurs forces par-delà les frontières.

Fondée en 1967 dans l’Ohio (Etats-Unis), l’OCLC gère l’OCLC Online Union Catalog, débuté en 1971 pour desservir les bibliothèques universitaires de l’Etat de l’Ohio. Ce catalogue collectif s’étend ensuite à tout le pays, puis au monde entier. Désormais appelé WorldCat, et disponible sur abonnement payant, il comprend en 1998 38 millions de notices en 370 langues, avec translittération pour les caractères non romains des langues JACKPHY (japonais, arabe, chinois, coréen, persan, hébreu et yiddish). L’accroissement annuel est de 2 millions de notices. WorldCat utilise huit formats bibliographiques correspondant aux catégories suivantes: livres, périodiques, documents visuels, cartes et plans, documents mixtes, enregistrements sonores, partitions, documents informatiques. En 2005, 61 millions de notices bibliographiques produites par 9.000 bibliothèques et centres de documentation sont disponibles dans 400 langues. En 2006, 73 millions de notices provenant de 10.000 bibliothèques dans 112 pays permettent de localiser un milliard de documents. Une notice type contient la description du document ainsi que des informations sur son contenu: table des matières, résumé, couverture, illustrations et courte biographie de l’auteur.

Devenue la plus grande base mondiale de données bibliographiques, WorldCat migre progressivement sur le web, d’abord en rendant la consultation des notices possible par le biais de plusieurs moteurs de recherche (Yahoo!, Google et bien d’autres), puis en lançant en août 2006 une version web (bêta) de WorldCat en accès libre, avec en sus un accès direct aux documents électroniques des bibliothèques membres: livres du domaine public, articles, photos, livres audio, musique et vidéos.

Fondé en 1980 en Californie, avec une antenne à New York, le RLG (Research Library Group, qui devient ensuite le Research Libraries Group) se donne pour but d’améliorer l’accès à l’information dans le domaine de l’enseignement et de la recherche. Le RLG débute son propre catalogue sous le nom de RLIN (Research Libraries Information Network). Contrairement à WorldCat qui n'accepte qu'une notice par document, RLIN accepte plusieurs notices pour un même document. En 1998, RLIN comprend 82 millions de notices dans 365 langues, avec des notices translittérées pour les documents publiés dans les langues JACKPHY et en cyrillique. Des centaines de dépôts d’archives, bibliothèques de musées, bibliothèques universitaires, bibliothèques publiques, bibliothèques de droit, bibliothèques techniques, bibliothèques d’entreprise et bibliothèques d’art utilisent RLIN pour le catalogage, le prêt inter-bibliothèques et le contrôle des archives et des manuscrits. Une des spécialités de RLIN est l’histoire de l’art. Alimentée par 65 bibliothèques spécialisées, une section spécifique comprend 100.000 notices de catalogues d’expositions et 168.500 notices de documents iconographiques (photographies, diapositives, dessins, estampes et affiches). Cette section inclut aussi les 110.000 notices de la base bibliographique Scipio, consacrée aux catalogues de ventes.

En 2003, RLIN change de nom pour devenir le RLG Union Catalog, qui comprend désormais 126 millions de notices bibliographiques correspondant à 42 millions de documents (livres, cartes, manuscrits, films, bandes sonores, etc.). Au printemps 2004, une version web du catalogue est disponible en accès libre sous le nom de RedLightGreen, suite à une phase pilote lancée à l’automne 2003. La mise en ligne de RedLightGreen inaugure une ère nouvelle. C’est en effet la première fois qu’un catalogue collectif mondial est en accès libre. Destiné en premier lieu aux étudiants du premier cycle universitaire, RedLightGreen propose 130 millions de notices, avec des liens vers des informations spécifiques aux bibliothèques d’un campus donné (cote, version en ligne si celle-ci existe, etc.). Après trois ans d’activité, en novembre 2006, les usagers sont invités à utiliser WorldCat, dont la version web (bêta) est en accès libre depuis août 2006. A la même date, le RLG est intégré à OCLC.

8.4. Chronologie

* Cette chronologie ne prétend pas à l’exhaustivité.

1967: Fondation d’OCLC (Online Computer Library Center).

1971: Débuts de l’OCLC Online Union Catalog, qui deviendra WorldCat.

1977: Lancement de l’UNIMARC, format universel de catalogage.

1980: Débuts du RLG (Research Libraries Group) et de son catalogue RLIN (Research Libraries Information Network).

1994: Travlang, répertoire de dictionnaires de langues créé par Michael Martin.

1994 (janvier): Annuaire de l’UREC (Unité réseaux du CNRS).

1995: Frantext, base textuelle de l’Institut national de la langue française (INaLF).

1995: A Web of Online Dictionaries, créé par Robert Beard.

1996: Adoption de l’UNIMARC par la Communauté européenne.

1996: Site de recherches et activités littéraires de Patrick Rebollar.

1996: Une Autre Terre, portail de science-fiction, créé par Fabrice Lhomme.

1996 (juin): Zazieweb, site d’actualité littéraire créé par Isabelle Aveline.

1997 (mai): OPAC (online public access catalogue) de la British Library.

1997 (juillet): Débuts du Catalogue collectif de France (CCFr).

1997 (décembre): Outils linguistiques de la société de traduction Logos.

1998: Rubriques à Bac, site créé par Gérard Fourestier.

1998: ESS (experimental search system) de la Library of Congress.

1999: yourDictionary.com, portail cofondé par Robert Beard.

1999 (décembre): WebEncyclo, première encyclopédie francophone en accès libre.

1999 (décembre): Britannica.com, première encyclopédie anglophone en accès libre.

1999 (décembre): Mise en ligne de l’Encyclopaedia Universalis.

2000: Mise en ligne du Quid.

2000: HyperNietzsche, lancé sous la direction de Paolo d’Iorio.

2000 (mars): Mise en ligne de l’Oxford English Dictionary.

2000 (septembre): L’encyclopédie Encarta de Microsoft en accès libre.

2000 (septembre): Mise en ligne du Grand dictionnaire terminologique (GDT) par l'Office québécois de la langue française (OQLF).

Back to Index Next