Chapter 3

Objectif poursuivi par des générations de bibliothécaires, la diffusion d’oeuvres du domaine public devient enfin possible à très vaste échelle, d’une part grâce à la numérisation des livres en mode texte, dans un format simple qui puisse être lu sur toutes les machines et par tous les systèmes, d’autre part grâce au fait que, via l’internet, ces fichiers puissent être téléchargés librement par tout lecteur potentiel.

= Le Projet Gutenberg

Le Projet Gutenberg naît en juillet 1971 lorsque Michael Hart, alors étudiant à l’Université de l’Illinois (Etats-Unis), décide de convertir des oeuvres du domaine public au format électronique pour les mettre gratuitement à la disposition de tous. Le Projet Gutenberg est le premier site d’information sur un internet encore embryonnaire, qui débute véritablement en 1974 et prend son essor en 1983. Vient ensuite le web (sous-ensemble de l’internet), opérationnel en 1991, puis le premier navigateur, qui apparaît en novembre 1993. Lorsque l’utilisation du web se généralise, le Projet Gutenberg trouve un second souffle et un rayonnement international. Au fil des ans, des centaines d’oeuvres sont patiemment numérisées en mode texte par des volontaires de nombreux pays. D’abord essentiellement anglophones, les collections deviennent peu à peu multilingues.

Qu’ils aient été numérisés il y a vingt ans ou qu’ils soient numérisés maintenant, tous les textes électroniques sont au format ASCII (American standard code for information interchange), avec des lettres capitales pour les termes en italique, gras ou soulignés, afin que ces textes puissent être lus sans problème quels que soient le système d’exploitation et le logiciel utilisés. Libre à d’autres organismes de les convertir dans des formats différents s’ils le souhaitent.

Cinquante heures environ sont nécessaires pour scanner un livre, le corriger et le mettre en page. Un ouvrage de taille moyenne - par exemple un roman de Stendhal ou de Jules Verne - est en général composé de deux fichiers ASCII. Si certains livres anciens sont parfois saisis ligne après ligne, à cause du manque de clarté du texte original, les livres sont en général scannés en utilisant un logiciel OCR (optical character recognition), qui permet de convertir en fichier texte un fichier d’abord numérisé en mode image, afin de pouvoir corriger son contenu si nécessaire. Les livres numérisés sont ensuite relus et corrigés à deux reprises, parfois par deux personnes différentes.

"Nous considérons le texte électronique comme un nouveau médium, sans véritable relation avec le papier, explique Michael Hart en août 1998. Le seul point commun est que nous diffusons les mêmes oeuvres, mais je ne vois pas comment le papier peut concurrencer le texte électronique une fois que les gens y sont habitués, particulièrement dans les établissements d’enseignement. (…) Mon projet est de mettre 10.000 textes électroniques sur l’internet. Si je pouvais avoir des subventions importantes, j’aimerais aller jusqu’à un million et étendre aussi le nombre de nos usagers potentiels de 1,x% à 10% de la population mondiale, ce qui représenterait la diffusion de 1.000 fois un milliard de textes électroniques au lieu d’un milliard seulement. (…) J’introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible." Michael Hart se définit lui-même comme un fou de travail dédiant toute sa vie à son projet, qu’il voit comme étant à l’origine d’une révolution néo-industrielle.

Comment cette vaste entreprise a-t-elle débuté? Michael Hart numérise son premier texte le 4 juillet 1971. Le 4 juillet étant le jour de la fête nationale, il saisit le texte de la Déclaration de l’Indépendance des Etats-Unis (signée le 4 juillet 1776) sur le clavier de son ordinateur, et il envoie le fichier électronique correspondant à quelques collègues et amis.

Entre 1971 et 1979, il scanne un volume par an d’une série qu'il intitule History of Western Democracy. Entre 1980 et 1990, il poursuit ce travail avec quelques volontaires. Son équipe et lui scannent la Bible dans son entier et plusieurs oeuvres de Shakespeare. En 1990, dix textes sont prêts. Le dixième texte est The King James Bible. La moyenne mensuelle des textes scannés progresse ensuite régulièrement: un texte par mois en 1991, deux textes par mois en 1992, quatre textes par mois en 1993 et huit textes par mois en 1994. Fin 1994, les collections comprennent 100 textes. Le centième texte est l’oeuvre complète de Shakespeare, désormais scannée dans son entier.

Lorsque l’utilisation du web se généralise, il devient beaucoup plus facile de faire circuler les oeuvres et de recruter de nouveaux volontaires. La production augmente donc en proportion, avec 16 textes par mois en 1995, puis 32 textes par mois en 1996 et 1997. Fin 1997, les collections comprennent 1.000 textes. Le millième texte est La Divine Comédie de Dante, en italien. La production passe à 36 textes par mois en 1998 et 1999. Fin 1999, les collections se chiffrent à 2.000 textes. Le 2.000e texte est Don Quichotte de Cervantes, en espagnol.

Le nombre de textes scannés est toujours de 36 textes par mois en 2000. Il passe à 40 textes par mois pendant le premier semestre 2001, puis 50 textes par mois pendant le deuxième semestre. Le 3.000e texte, disponible courant 2000, est le troisième volume de A l’ombre des jeunes filles en fleurs, de Proust, en français. Le 4.000e texte, disponible courant 2001, est The French Immortals, version anglaise de la série publiée en 1905 par la Maison Mazarin pour rassembler des fictions d’écrivains couronnés par l’Académie française (Emile Souvestre, Pierre Loti, Hector Malot, Charles de Bernard, Alphonse Daudet, etc.). Le 5.000e texte, disponible en avril 2002, est la version anglaise des Carnets de Léonard de Vinci.

En 2002, les collections s’accroissent en moyenne de 100 titres par mois. Au printemps 2002, elles représentent le quart des oeuvres du domaine public disponibles sur le web, recensées de manière pratiquement exhaustive par The Internet Public Library (IPL). Un beau résultat pour trente ans de travail acharné basé en grande partie sur le volontariat, avec plus d'un millier de volontaires dans plusieurs pays. En octobre 2003, le catalogue comprend 10.000 titres dans plusieurs langues. Michael Hart espère franchir la barre du million de titres d'ici 2015.

= The Online Book Page

En 1993, un deuxième projet pionnier se développe parallèlement au Projet Gutenberg, à l’instigation de John Mark Ockerbloom, doctorant à l’Université Carnegie Mellon (Pittsburgh, Pennsylvanie, Etats-Unis). Il s’agit de The Online Books Page, dont le but n’est pas de numériser des oeuvres mais, tout aussi utile, de répertorier celles qui sont en accès libre sur le web, en offrant au lecteur un point d’entrée commun.

John Mark Ockerbloom retrace les débuts de son répertoire lors d'un entretien datant de septembre 1998: "J’étais webmestre ici pour la section informatique de la CMU (Carnegie Mellon University), et j’ai débuté notre site local en 1993. Il comprenait des pages avec des liens vers des ressources disponibles localement, et à l’origine The Online Books Page était une de ces pages, avec des liens vers des livres mis en ligne par des collègues de notre département (par exemple Robert Stockton, qui a fait des versions web de certains textes du Projet Gutenberg). Ensuite les gens ont commencé à demander des liens vers des livres disponibles sur d’autres sites. J’ai remarqué que de nombreux sites (et pas seulement le Projet Gutenberg ou Wiretap) proposaient des livres en ligne, et qu’il serait utile d’en avoir une liste complète qui permette de télécharger ou de lire des livres où qu’ils soient sur l’internet. C’est ainsi que mon index a débuté. J’ai quitté mes fonctions de webmestre en 1996, mais j’ai gardé la gestion de The Online Books Page, parce qu’entre temps je m’étais passionné pour l’énorme potentiel qu’a l’internet de rendre la littérature accessible au plus grand nombre. Maintenant il y a tant de livres mis en ligne que j’ai du mal à rester à jour. Je pense pourtant poursuivre cette activité d’une manière ou d’une autre. Je suis très intéressé par le développement de l’internet en tant que médium de communication de masse dans les prochaines années. J’aimerais aussi rester impliqué dans la mise à disposition gratuite pour tous de livres sur l’internet, que ceci fasse partie intégrante de mon activité professionnelle, ou que ceci soit une activité bénévole menée sur mon temps libre."

Fin 1998, John Mark Ockerbloom obtient son doctorat en informatique. En 1999, il rejoint l’Université de Pennsylvanie, où il travaille à la R&D (recherche et développement) de la bibliothèque numérique. A la même époque, il y transfère The Online Books Page, tout en gardant la même présentation, très sobre, et il poursuit son travail d’inventaire dans le même esprit. En 2003, ce répertoire fête ses dix ans et recense plus de 20.000 textes électroniques.

= La Bibliothèque électronique de Lisieux

Le milieu des années 1990 marque les débuts du web francophone, d’abord au Québec et ensuite en Europe. En juin 1996 apparaît la Bibliothèque électronique de Lisieux, une des premières bibliothèques francophones du réseau, créée à l’initiative d’Olivier Bogros, directeur de la médiathèque municipale de Lisieux (Normandie). Dès ses débuts, cette réalisation suscite l’intérêt de la communauté francophone parce qu’elle montre ce qui est faisable sur le réseau avec beaucoup de détermination et des moyens limités.

Pendant deux ans, de 1996 à 1998, Olivier Bogros héberge le site web sur les pages de son compte personnel CompuServe. En juin 1998, il enregistre un nom de domaine (bmlisieux.com) et déménage l’ensemble sur un serveur offrant une capacité de stockage de 30 Mo (méga-octets). En juillet 1999, 370 oeuvres sont disponibles en ligne. Elles comprennent des oeuvres littéraires, des brochures et opuscules documentaires, des manuscrits, livres et brochures sur la Normandie, et enfin des conférences et exposés transcrits par des élèves du lycée de Lisieux.

A la même date, Olivier Bogros explique: "Les oeuvres à diffuser sont choisies à partir d’exemplaires conservés à la bibliothèque municipale de Lisieux ou dans des collections particulières mises à disposition. Les textes sont saisis au clavier et relus par du personnel de la bibliothèque, puis mis en ligne après encodage. La mise à jour est mensuelle (3 à 6 textes nouveaux). Par goût, mais aussi contraints par le mode de production, nous sélectionnons plutôt des textes courts (nouvelles, brochures, tirés à part de revues, articles de journaux…). De même nous laissons à d’autres (bibliothèques ou éditeurs) le soin de mettre en ligne les grands classiques de la littérature française, préférant consacrer le peu de temps et de moyens dont nous disposons à mettre en ligne des textes excentriques et improbables. (…) Nous réfléchissons aussi, dans le domaine patrimonial, à un prolongement du site actuel vers les arts du livre - illustration, typographie… - toujours à partir de notre fonds. Sinon, pour ce qui est des textes, nous allons vers un élargissement de la part réservée au fonds normand." En 2003, la bibliothèque électronique approche les 600 textes.

L’année 2000 marque le début du partenariat de la bibliothèque électronique avec l’Université de Toronto. Lancé officiellement en août 2000, LexoTor est une base de données fonctionnant avec le logiciel TACTweb et permettant l’interrogation en ligne des œuvres de la bibliothèque, ainsi que des analyses et des comparaisons textuelles. Le projet est issu de la rencontre d’Olivier Bogros avec Russon Wooldridge, professeur au département d’études françaises de l’Université de Toronto, lors du premier colloque international sur les études françaises valorisées par les nouvelles technologies d’information et de communication, organisé par ce dernier en mai 2000 à Toronto. Deux ans après, en mai 2002, un deuxième colloque international sur le même sujet est organisé cette fois par Olivier Bogros à Lisieux.

5.3. Du bibliothécaire au cyberthécaire

Piloter les usagers sur l'internet, filtrer et organiser l’information à leur intention, créer et gérer un site web, rechercher des documents dans des bases de données spécialisées, telles sont désormais les tâches de nombreux bibliothécaires. Le bibliothécaire devient progressivement un cyberthécaire, comme en témoignent diverses expériences relatées au fil des ans, par Peter Raggett en 1998, par Bruno Didier en 1999, par Bakayoko Bourahima et Emmanuel Barthe en 2000, et par Anissa Rachef en 2001.

= En 1998

En 1998, Peter Raggett est sous-directeur du centre de documentation et d’information (CDI) de l’OCDE. Située à Paris, l’OCDE (Organisation de coopération et de développement économiques) est une organisation internationale regroupant trente pays membres. Au noyau d’origine, constitué des pays d’Europe de l’Ouest et d’Amérique du Nord, sont venus s’ajouter le Japon, l’Australie, la Nouvelle-Zélande, la Finlande, le Mexique, la République tchèque, la Hongrie, la Pologne et la Corée. Réservé aux fonctionnaires de l’organisation, le centre de documentation permet la consultation de quelque 60.000 monographies et 2.500 périodiques imprimés. En ligne depuis 1996, les pages intranet du CDI sont devenues une des principales sources d’information du personnel.

"Je dois filtrer l’information pour les usagers de la bibliothèque, ce qui signifie que je dois bien connaître les sites et les liens qu’ils proposent, explique Peter Raggett en juin 1998. J’ai sélectionné plusieurs centaines de sites pour en favoriser l’accès à partir de l’intranet de l’OCDE. Cette sélection fait partie du bureau de référence virtuel proposé par la bibliothèque à l’ensemble du personnel. Outre de nombreux liens, ce bureau de référence contient des pages recensant les articles, monographies et sites web correspondant aux différents projets de recherche en cours à l’OCDE, l’accès en réseau aux CD-Rom et une liste mensuelle des nouveaux titres."

Comment voit-il l’avenir de la profession? "L’internet offre aux chercheurs un stock d’informations considérable. Le problème pour eux est de trouver ce qu’ils cherchent. Jamais auparavant on n’avait senti une telle surcharge d’informations, comme on la sent maintenant quand on tente de trouver un renseignement sur un sujet précis en utilisant les moteurs de recherche disponibles sur l’internet. A mon avis, les bibliothécaires auront un rôle important à jouer pour améliorer la recherche et l’organisation de l’information sur le réseau. Je prévois aussi une forte expansion de l’internet pour l’enseignement et la recherche. Les bibliothèques seront amenées à créer des bibliothèques numériques permettant à un étudiant de suivre un cours proposé par une institution à l’autre bout du monde. La tâche du bibliothécaire sera de filtrer les informations pour le public. Personnellement, je me vois de plus en plus devenir un bibliothécaire virtuel. Je n’aurai pas l’occasion de rencontrer les usagers, ils me contacteront plutôt par courriel, par téléphone ou par fax, j’effectuerai la recherche et je leur enverrai les résultats par voie électronique."

= En 1999

En 1999, Bruno Didier est bibliothécaire à l’Institut Pasteur (Paris), une fondation privée dont le but est la prévention et le traitement des maladies infectieuses par la recherche, l’enseignement et des actions de santé publique. Séduit par les perspectives qu’offre le réseau pour la recherche documentaire, Bruno Didier crée le site web de la bibliothèque en 1996 et devient son webmestre. "Le site web de la bibliothèque a pour vocation principale de servir la communauté pasteurienne, explique-t-il en août 1999. Il est le support d’applications devenues indispensables à la fonction documentaire dans un organisme de cette taille: bases de données bibliographiques, catalogue, commande de documents et bien entendu accès à des périodiques en ligne. C’est également une vitrine pour nos différents services, en interne mais aussi dans toute la France et à l’étranger. Il tient notamment une place importante dans la coopération documentaire avec les instituts du réseau Pasteur à travers le monde. Enfin j’essaie d’en faire une passerelle adaptée à nos besoins pour la découverte et l’utilisation d’internet. (…) Je développe et maintiens les pages du serveur, ce qui s’accompagne d’une activité de veille régulière. Par ailleurs je suis responsable de la formation des usagers, ce qui se ressent dans mes pages. Le web est un excellent support pour la formation, et la plupart des réflexions actuelles sur la formation des usagers intègrent cet outil."

Son activité professionnelle a changé de manière radicale, tout comme celle de ses collègues. "C’est à la fois dans nos rapports avec l’information et avec les usagers que les changements ont eu lieu. Nous devenons de plus en plus des médiateurs, et peut-être un peu moins des conservateurs. Mon activité actuelle est typique de cette nouvelle situation: d’une part dégager des chemins d’accès rapides à l’information et mettre en place des moyens de communication efficaces, d’autre part former les utilisateurs à ces nouveaux outils. Je crois que l’avenir de notre métier passe par la coopération et l’exploitation des ressources communes. C’est un vieux projet certainement, mais finalement c’est la première fois qu’on dispose enfin des moyens de le mettre en place."

= En 2000

En 2000, Bakayoko Bourahima est responsable de la bibliothèque de l’ENSEA (Ecole nationale supérieure de statistique et d’économie appliquée) d’Abidjan, un établissement qui assure la formation de statisticiens pour les pays africains d’expression française. Le site web de l’ENSEA est mis en ligne en avril 1999, dans le cadre du réseau REFER. Ce réseau est mis sur pied par l’Agence universitaire de la francophonie (AUF) pour desservir la communauté scientifique et technique en Europe de l’Est, en Asie et en Afrique (24 pays participants en 2002).

Bakayoko Bourahima s’occupe de la gestion de l’information scientifique et technique et de la diffusion des travaux publiés par l’Ecole. En ce qui concerne l’internet, "mon service a eu récemment des séances de travail avec l’équipe informatique pour discuter de l’implication de la bibliothèque dans l’animation du site, relate-t-il en juillet 2000. Le service de la bibliothèque travaille aussi à deux projets d’intégration du web pour améliorer ses prestations. (…) J’espère bientôt pouvoir mettre à la disposition de mes usagers un accès internet pour l’interrogation de bases de données. Par ailleurs, j’ai en projet de réaliser et de mettre sur l’intranet et sur le web un certain nombre de services documentaires (base de données thématique, informations bibliographiques, service de références bibliographiques, bulletin analytique des meilleurs travaux d’étudiants…). Il s’agit donc pour la bibliothèque, si j’obtiens les financements nécessaires pour ces projets, d’utiliser pleinement l’internet pour donner à notre école un plus grand rayonnement et de renforcer sa plate-forme de communication avec tous les partenaires possibles. En intégrant cet outil au plan de développement de la bibliothèque, j’espère améliorer la qualité et élargir la gamme de l’information scientifique et technique mise à la disposition des étudiants, des enseignants et des chercheurs, tout en étendant considérablement l’offre des services de la bibliothèque."

Autre expérience, celle d’Emmanuel Barthe. En 2000, il est documentaliste juridique et responsable informatique de Coutrelis & Associés, un cabinet d’avocats parisien. "Les principaux domaines de travail du cabinet sont le droit communautaire, le droit de l’alimentation, le droit de la concurrence et le droit douanier, écrit-il en octobre 2000. Je fais de la saisie indexation, et je conçois et gère les bases de données internes. Pour des recherches documentaires difficiles, je les fais moi-même ou bien je conseille le juriste. Je suis aussi responsable informatique et télécoms du cabinet: conseils pour les achats, assistance et formation des utilisateurs. De plus, j’assure la veille, la sélection et le catalogage de sites web juridiques: titre, auteur et bref descriptif. Je suis également formateur internet juridique aussi bien à l’intérieur de mon entreprise qu’à l’extérieur lors de stages de formation."

A la même époque, Emmanuel Barthe est aussi le modérateur de Juriconnexion, une liste de discussion créée par l’association du même nom. "L’association Juriconnexion a pour but la promotion de l’électronique juridique, c’est-à-dire la documentation juridique sur support électronique et la diffusion des données publiques juridiques. Elle organise des rencontres entre les utilisateurs et les éditeurs juridiques (et de bases de données), ainsi qu’une journée annuelle sur un thème. Vis-à-vis des autorités publiques, Juriconnexion a un rôle de médiateur et de lobbying à la fois. L’association, notamment, est favorable à la diffusion gratuite sur internet des données juridiques produites par le Journal officiel et les tribunaux. Les bibliothécaires-documentalistes juridiques représentent la majorité des membres de l’association, suivis par certains représentants des éditeurs et des juristes."

= En 2001

En 2001, Anissa Rachef est bibliothécaire et professeure à l’Institut français de Londres. Présents dans de nombreux pays, les instituts français sont des organismes officiels proposant des cours et des manifestations culturelles. A Londres, 5.000 étudiants environ s’inscrivent chaque année aux cours. Inaugurée en mai 1996, la médiathèque utilise l’internet dès sa création.

"L’objectif de la médiathèque est double, explique Anissa Rachef en avril 2001. Servir un public s’intéressant à la culture et la langue françaises et 'recruter' un public allophone en mettant à disposition des produits d’appel tels que vidéos documentaires, livres audio, CD-Rom. La mise en place récente d’un espace multimédia sert aussi à fidéliser les usagers. L’installation d’un service d’information rapide a pour fonction de répondre dans un temps minimum à toutes sortes de questions posées via le courrier électronique, ou par fax. Ce service exploite les nouvelles technologies pour des recherches très spécialisées. Nous élaborons également des dossiers de presse destinés aux étudiants et professeurs préparant des examens de niveau secondaire. Je m’occupe essentiellement de catalogage, d’indexation et de cotation. (…)

J’utilise internet pour des besoins de base. Recherches bibliographiques, commande de livres, courrier professionnel, prêt inter-bibliothèques. C’est grâce à internet que la consultation de catalogues collectifs, tels SUDOC (Système universitaire de documentation) et OCLC (OCLC Online Union Catalog), a été possible. C’est ainsi que j’ai pu mettre en place un service de fourniture de documents extérieurs à la médiathèque. Des ouvrages peuvent désormais être acheminés vers la médiathèque pour des usagers ou bien à destination des bibliothèques anglaises."

5.4. De la conservation à la communication

Face à un web encyclopédique et des bibliothèques numériques de plus en plus nombreuses, les jours des bibliothèques traditionnelles sont-ils comptés? La bibliothèque numérique rend enfin compatibles deux objectifs qui ne l’étaient guère, à savoir la conservation des documents et leur communication. Dorénavant le document ne quitte son rayonnage qu’une seule fois pour être scanné, et le grand public y a facilement accès.

En 2003, toute bibliothèque traditionnelle quelque peu dynamique a ses collections numériques, soit à usage interne, soit en accès libre sur le web, ce qui rend obsolètes les problèmes du passé: consultation freinée sinon empêchée par le souci de conservation, heures d’ouverture réduites, nombreux formulaires à remplir, longs délais de communication, pénurie de personnel. Autant de barrières à franchir qui demandaient souvent au lecteur une patience et une détermination hors du commun pour arriver jusqu’au document. A présent, si on tient absolument à consulter l’original, on le fait en connaissance de cause, après avoir feuilleté son fac-similé sur le web.

Voici un exemple parmi d’autres. En décembre 2000, le site web de la Bibliothèque municipale de Lyon donne accès à la plus importante collection française d’enluminures médiévales, soit 12.000 images scannées à partir des ouvrages précieux de la bibliothèque. Les 457 ouvrages sélectionnés sont des manuscrits s’échelonnant entre le 5e et le 16e siècles, des incunables et des livres de la Renaissance. Certains sont à dominante religieuse: bibles, missels, bréviaires, pontificaux, livres d’heures, droit canon. D’autres, à dominante profane, traitent de philosophie, d’histoire, de littérature, de sciences, etc. Les images qui ont été numérisées sont les peintures en pleine page et les miniatures, ainsi que les initiales ornées et les décors des marges.

La bibliothèque poursuit ensuite la numérisation de ses collections. Début 2003, plusieurs fonds spécialisés sont en accès libre sur le web: manuscrits, livres imprimés anciens, manuscrits autographes, collections locales (Lyon) et régionales (Rhône-Alpes), ésotérisme et franc-maçonnerie, fonds de la première guerre mondiale (1914-1918), estampes, affiches, livres d’artistes, photographies, fonds Lacassagne (père de l’école lyonnaise d’anthropologie criminelle), fonds chinois, arts du spectacle, et enfin collection jésuite des Fontaines.

Un deuxième exemple particulièrement significatif est la mise en ligne en novembre 2000 de la version numérique de la Bible de Gutenberg, premier ouvrage à avoir jamais été imprimé. Datant de 1454-1455, cette Bible aurait été imprimée par Gutenberg en 180 exemplaires dans son atelier de Mayence (Allemagne). 48 exemplaires, dont certains incomplets, existeraient toujours. La British Library en possède deux versions complètes, et une partielle. En mars 2000, dix chercheurs et experts techniques de l’Université Keio de Tokyo et de NTT (Nippon Telegraph and Telephone Communications) viennent travailler sur place pendant deux semaines pour numériser ces deux Bibles, légèrement différentes, à l’aide de matériels hautement sophistiqués.

La bibliothèque numérique menace-t-elle l’existence de la bibliothèque traditionnelle? En 1997 et 1998, sur leur site web, plusieurs grandes bibliothèques expliquent que, à côté d’un secteur numérique en pleine expansion, la communication physique des documents reste essentielle. Ces commentaires ont depuis disparu.

La raison d’être des bibliothèques nationales et autres grandes bibliothèques de conservation est de préserver un patrimoine accumulé au fil des siècles: manuscrits, incunables, livres imprimés, journaux, périodiques, gravures, partitions musicales, photos, films, etc. Ceci n’est pas près de changer. Si le fait de disposer de supports numériques favorise la communication, il faut bien un endroit pour stocker les documents physiques originaux, à commencer par les Bibles de Gutenberg. Les bibliothèques nationales archivent d'ailleurs aussi les documents électroniques et les pages web. A la Bibliothèque nationale de France (BnF) par exemple, il a été décidé d’archiver entre autres les sites dont le nom de domaine se termine en ".fr", ou encore les sites de la campagne électorale pour les présidentielles de 2002.

Les bibliothèques publiques ne semblent pas près de disparaître non plus. A l’heure actuelle, malgré la curiosité suscitée par le livre numérique, les lecteurs assurent qu’ils ne sont pas prêts à lire Zola ou Proust à l’écran. Mais ceci risque de changer dans quelques années, quand les enfants ayant appris à lire directement à l’écran seront arrivés à l’âge adulte.

Si les bibliothèques nationales et les bibliothèques publiques sont toujours utiles en 2003, la situation est différente pour les bibliothèques spécialisées. Dans nombre de domaines où l’information la plus récente est primordiale, on s’interroge maintenant sur la nécessité d’aligner des documents imprimés sur des rayonnages, alors qu’il est tellement plus pratique de rassembler, stocker, archiver, organiser, cataloguer et diffuser des documents électroniques, et de les imprimer seulement à la demande.

[6.1. Dictionnaires en ligne / 6.2. Bases textuelles sur le web]

Moyen de connaissance et de diffusion sans précédent, le web propose de nombreux outils de référence en ligne, en accès libre ou bien sur abonnement gratuit ou payant: dictionnaires et encyclopédies de renom, dictionnaires de langues, bases terminologiques, bases textuelles, archives d’articles scientifiques et médicaux, etc. Si certains organismes facturent l’utilisation de leurs bases de données, d’autres tiennent à ce que les leurs soient en accès libre, l’internet rendant enfin possible à très large échelle la diffusion libre du savoir.

6.1. Dictionnaires en ligne

= Ouvrages de référence

Un des premiers dictionnaires en accès libre est le Dictionnaire universel francophone en ligne, qui répertorie 45.000 mots et 116.000 définitions en présentant "sur un pied d’égalité, le français dit 'standard' et les mots et expressions en français tel qu’on le parle sur les cinq continents". Issu de la collaboration entre Hachette et l’AUPELF-UREF (devenu depuis l’AUF - Agence universitaire de la francophonie), il correspond à la partie "noms communs" du dictionnaire imprimé du même nom. L’équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.

Fin 1999 apparaissent sur le web plusieurs encyclopédies de renom, parallèlement à leurs versions papier et CD-Rom. En décembre 1999, la première encyclopédie francophone en accès libre est WebEncyclo, publiée par les éditions Atlas. La recherche est possible par mots-clés, thèmes, médias (cartes, liens internet, photos, illustrations) et idées. Un appel à contribution incite les spécialistes d’un sujet donné à envoyer des articles, qui sont regroupés dans la section "WebEncyclo contributif". Après avoir été libre, l’accès est ensuite soumis à une inscription gratuite au préalable.

Mis en ligne à la même date, Britannica.com propose en accès libre l’équivalent numérique des 32 volumes de la 15e édition de l’Encyclopaedia Britannica, parallèlement à la version imprimée et à la version sur CD-Rom, toutes deux payantes. Le site web offre une sélection d’articles issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d’un moteur de recherche unique. En septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, la consultation devient payante sur la base d’un abonnement mensuel ou annuel.

Décembre 1999 est aussi la date de mise en ligne de l’Encyclopaedia Universalis, soit un ensemble de 28.000 articles signés par 4.000 auteurs. Si la consultation est payante sur la base d’un abonnement annuel, de nombreux articles sont en accès libre.

La mise en ligne d’encyclopédies de renom se poursuit en 2000 et 2001.

En mars 2000, les 20 volumes de l’Oxford English Dictionary sont mis en ligne par l’Oxford University Press (OUP), grande maison d’édition universitaire avec un siège à l’Université d’Oxford (Royaume-Uni) et un autre à New York. La consultation du site est payante. Le dictionnaire bénéficie d’une mise à jour trimestrielle d’environ 1.000 entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars 2002, l’OUP met en ligne l’Oxford Reference Online, une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Elle représente l’équivalent d’une centaine d’ouvrages de référence, soit 60.000 pages et un million d’entrées.

Toujours en 2000, le Quid, encyclopédie en un volume actualisée une fois par an depuis 1963, décide de mettre une partie de son contenu en accès libre sur le web.

En septembre 2000, après avoir été payante, la consultation de l’encyclopédieEncarta de Microsoft devient libre.

= Dictionnaires de langues

Des dictionnaires de langues sont en accès libre dès les débuts du web. Ils sont répertoriés dans Travlang, un site consacré aux voyages et aux langues créé en 1994 par Michael M. Martin. Mais ces dictionnaires sont le plus souvent sommaires et de qualité inégale.

Fin 1997, la société de traduction Logos décide de mettre en ligne les outils destinés à ses traducteurs. Tous sont en accès libre. Le Logos Dictionary est un dictionnaire multilingue de 8 millions d’entrées. Constituée à partir de milliers de traductions, notamment des romans et des documents techniques, la Wordtheque est une base de données multilingue regroupant 710 millions de mots. Linguistic Resources offre un point d’accès unique à plus de 1.000 glossaires. L’Universal Conjugator propose des tableaux de conjugaison dans 36 langues différentes.

De très bons dictionnaires bilingues et multilingues sont progressivement mis en ligne par des organismes réputés, par exemple Eurodicautom par la Commission européenne, ou encore Le Signet et le Grand dictionnaire terminologique (GDT) par l’Office québécois de la langue française (OQLF).

Géré par le service de traduction de la Commission européenne, Eurodicautom est un dictionnaire multilingue de termes économiques, scientifiques, techniques et juridiques, avec une moyenne de 120.000 consultations quotidiennes. En accès libre, il permet de combiner entre elles les onze langues officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais et suédois), ainsi que le latin. Fin 2003, Eurodicautom devrait être intégré dans une base terminologique plus vaste regroupant les bases de plusieurs institutions de l’Union européenne. Cette nouvelle base traiterait non plus douze langues, mais une vingtaine, puisque l’Union européenne passe de 15 à 25 Etats membres. Reste à savoir si l’accès à la future base sera gratuit ou payant.

Géré par l’Office québécois de la langue française (OQLF), Le Signet propose 10.000 fiches bilingues français-anglais dans le secteur des technologies de l’information. Le Signet est également intégré au Grand dictionnaire terminologique (GDT), mis en ligne en septembre 2000. En accès libre, le GDT est un gigantesque dictionnaire bilingue français-anglais de 3 millions de termes du vocabulaire industriel, scientifique et commercial. Il représente l’équivalent de 3.000 ouvrages de référence imprimés. Sa mise en ligne est le résultat d’un partenariat entre l’Office québécois de la langue française (OQLF), auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Evénement célébré par de très nombreux linguistes, cette mise en ligne est un succès sans précédent. Dès le premier mois, ce dictionnaire est consulté par 1,3 millions de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l’OQLF lui-même, et non plus par une société prestataire.

Par ailleurs, des moteurs spécifiques permettent la recherche simultanée dans plusieurs centaines de dictionnaires. Pour ne prendre qu’un exemple, le site OneLook, créé par Robert Ware, puise dans plus de 5 millions de mots émanant de 950 dictionnaires dans plusieurs langues, aussi bien généralistes que spécialisés.

Des équipes de linguistes gèrent aussi des répertoires de dictionnaires, par exemple Dictionnaires électroniques et yourDictionary.com.

Géré par la section française des services linguistiques centraux de l’Administration fédérale suisse, Dictionnaires électroniques est un excellent répertoire de dictionnaires monolingues (français, allemand, italien, anglais, espagnol), bilingues et multilingues en accès libre sur le web. Ce répertoire est complété par des listes d’abréviations et acronymes et des répertoires géographiques, essentiellement des atlas. Responsable de la section française des services linguistiques, Marcel Grangier précise en janvier 2000: "Les Dictionnaires électroniques ne sont qu’une partie de l’ensemble, et d’autres secteurs documentaires ont trait à l’administration, au droit, à la langue française, etc., sans parler des informations générales. (…) Conçu d’abord comme un service intranet, notre site web se veut en premier lieu au service des traducteurs opérant en Suisse, qui souvent travaillent sur la même matière que les traducteurs de l’Administration fédérale, mais également, par certaines rubriques, au service de n’importe quel autre traducteur où qu’il se trouve. (…) Travailler sans internet est devenu tout simplement impossible. Au-delà de tous les outils et commodités utilisés (messagerie électronique, consultation de la presse électronique, activités de services au profit de la profession des traducteurs), internet reste pour nous une source indispensable et inépuisable d’informations dans ce que j’appellerais le 'secteur non structuré' de la toile. Pour illustrer le propos, lorsqu’aucun site comportant de l’information organisée ne fournit de réponse à un problème de traduction, les moteurs de recherche permettent dans la plupart des cas de retrouver le chaînon manquant quelque part sur le réseau."

Réputé lui aussi pour sa qualité, yourDictionary.com est co-fondé par Robert Beard en 1999, dans le prolongement de son ancien site, A Web of Online Dictionaries, créé dès 1995. Ce portail de référence répertorie plus de 1.800 dictionnaires dans 250 langues différentes, ainsi que de nombreux outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues, etc. Soucieux de servir toutes les langues sans exception, yourDictionary.com gère aussi l’Endangered Language Repository, une section importante consacrée aux langues menacées d’extinction.

Publiée par SIL International (SIL: Summer Institute of Linguistics), l’encyclopédie Ethnologue: Languages of the World existe à la fois en version web (gratuite), sur CD-Rom et sur papier (tous deux payants). Barbara Grimes, sa directrice de publication entre 1971 et 2000 (8e-14e éditions), relate en janvier 2000: "Il s’agit d’un catalogue des langues dans le monde, avec des informations sur les endroits où elles sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres termes utilisés pour ces langues, les noms de dialectes, d’autres informations socio-linguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues, un index des familles linguistiques et des cartes géographiques relatives aux langues." Cette encyclopédie répertorie 6.800 langues selon plusieurs critères (pays, nom de la langue, code de la langue attribué par le SIL, famille de langues), avec un moteur de recherche unique.

6.2. Bases textuelles sur le web

= Bases textuelles payantes

Des programmes de recherche sur la langue française - principalement son vocabulaire – sont développés par l’INaLF (Institut national de la langue française), puis par l’ATILF (Analyse et traitement informatique de la langue française), qui lui succède en janvier 2001. Traitées par des systèmes informatiques spécifiques, les données lexicales et textuelles portent sur divers registres du français: langue littéraire du 14e au 20e siècle, langue courante écrite et parlée, langue scientifique et technique (terminologies) et régionalismes. L’ATILF gère plusieurs bases textuelles payantes, par exemple Frantext, un corpus à dominante littéraire de textes français allant du 16e au 19e siècle, ou encore l’Encyclopédie de Diderot, réalisée en collaboration avec le programme ARTFL (American and French Research on the Treasury of the French Language) de l’Université de Chicago. En accès libre, Dictionnaires est une collection de dictionnaires informatisés comprenant les dictionnaires de Robert Estienne (1552), Jean Nicot (1606) et Pierre Bayle (1740), plusieurs éditions des dictionnaires de l’Académie française (1694, 1798, 1835, 1932-35, 1992) et enfin le TLFi (Trésor de la langue française informatisé, 1971-1994).

Autre exemple, dû à une initiative individuelle, le site Rubriques à Bac. Créé en 1998 par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, le site regroupe des bases de données à l'intention des lycéens et des étudiants. ELLIT (Eléments de littérature) propose des centaines d’articles sur la littérature française du 12e siècle à nos jours, ainsi qu’un répertoire d’auteurs. RELINTER (Relations internationales) recense 2.000 liens sur le monde contemporain depuis 1945. Ces deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. Lancé en juin 2001 dans le prolongement d’ELLIT, la base de données Bac-L (baccalauréat section lettres) est en accès libre.

Interviewé en octobre 2000, Gérard Fourestier relate: "Rubriques à Bac a été créé pour répondre au besoin de trouver sur le net, en un lieu unique, l’essentiel, suffisamment détaillé et abordable par le grand public, dans le but: a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c’est la raison d’ELLIT (Eléments de littérature), base de données en littérature française; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d’où RELINTER (Relations internationales). J’ai développé ces deux matières car elles correspondent à des études que j’ai, entre autres, faites en leur temps, et parce qu’il se trouve que, depuis une dizaine d’années, j’exerce des fonctions de professeur dans l’enseignement public (18 établissements de la 6e aux terminales de toutes sections et de tous types d’établissements). (…)

Mon activité liée à internet consiste tout d’abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial ui permette de dégager les recettes indispensables; sans parler du butinage indispensable pour la recherche d’informations qui seront ensuite traitées. (…)

Mon initiative à propos d’internet n’est pas directement liée à mes fonctions de professeur. J’ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j’agis en mon nom et pour mon compte et non 'es-qualité', mais tout en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu’à la bien remplir, je laisse à d’autres le soin de ne préparer qu’à l’examen."

Les recettes générées par Rubriques à Bac sont consacrées à la réalisation de projets éducatifs en Afrique. Par la suite, Gérard Fourestier aimerait développer des bases de données dans d’autres domaines, par exemple l’analyse sociétale, l’analyse sémantique ou l’écologie.

= Bases textuelles gratuites

Emilie Devriendt, élève professeure à l’Ecole normale supérieure (ENS) de Paris, écrit en juin 2001: "L’avenir me semble prometteur en matière de publications de ressources en ligne, même si, en France tout au moins, bon nombre de résistances, inhérentes aux systèmes universitaire et éditorial, ne risquent pas de céder du jour au lendemain (dans dix, vingt ans, peut-être?). Ce qui me donne confiance, malgré tout, c’est la conviction de la nécessité pratique d’internet. J’ai du mal à croire qu’à terme, un chercheur puisse se passer de cette gigantesque bibliothèque, de ce formidable outil. Ce qui ne veut pas dire que les nouvelles pratiques de recherche liées à internet ne doivent pas être réfléchies, mesurées à l’aune de méthodologies plus traditionnelles, bien au contraire. Il y a une histoire de l’'outillage', du travail intellectuel, où internet devrait avoir sa place."

Bases de données payantes à destination des organismes et des particuliers qui en ont les moyens, ou bases de données gratuites à la disposition de tous? Les outils dont on dispose maintenant pour créer et gérer des bases textuelles à moindres frais permettent de pencher vers la deuxième solution, tout au moins quand il existe une véritable volonté dans ce sens.

Professeur au département d’études françaises de l’Université de Toronto, Russon Wooldridge est le créateur de ressources littéraires librement accessibles en ligne. En 2001, sa tâche se trouve grandement facilitée par TACTweb, un logiciel gratuit pouvant être paramétré pour gérer une base de données sur le web. En mai 2001, il explique: "La dernière version de TACTweb permet dorénavant de construire des bases interactives importantes comme les dictionnaires de la Renaissance (Estienne et Nicot ; base RenDico), les deux principales éditions du Dictionnaire de l’Académie française (1694 et 1835), les collections de la Bibliothèque électronique de Lisieux (base LexoTor), les oeuvres complètes de Maupassant, ou encore les théâtres complets de Corneille, Molière, Racine, Marivaux et Beaumarchais (base théâtre 17e-18e). À la différence de grosses bases comme Frantext ou ARTFL (American and French Research on the Treasury of the French Language) nécessitant l’intervention d’informaticiens professionnels, d’équipes de gestion et de logiciels coûteux, TACTweb, qui est un gratuiciel que l’on peut décharger en ligne et installer soi-même, peut être géré par le chercheur individuel créateur de ressources textuelles en ligne."

Autre exemple, pris cette fois dans les sciences humaines, le projet HyperNietzsche est lancé en 2000 sous la direction de Paolo d’Iorio, chargé de recherches à l’Institut des textes et manuscrits modernes (ITEM) du CNRS (Centre national de la recherche scientifique). Ce projet expérimental "vise à créer une infrastructure de travail collectif en réseau, lit-on sur le site web. Cette infrastructure sera d’abord appliquée et testée sur l’oeuvre de Nietzsche, pour être ensuite généralisable à d’autres auteurs, à l’étude d’une période historique ou d’un fonds d’archive, ou à l’analyse d’un problème philosophique. Il ne s’agit donc pas seulement d’un projet de numérisation et de mise en réseau d’un ensemble de textes et d’études sur Nietzsche, ni d’une édition électronique conçue comme un produit confectionné et offert à la consultation, mais plutôt d’un instrument de travail permettant à une communauté savante délocalisée de travailler de façon coopérative et cumulative et de publier les résultats de son travail en réseau, à l’échelle de la planète. Il ne s’agit pas seulement d’une bibliothèque de textes électroniques en ligne, plus ou moins bien indexée, accompagnée d’un moteur de recherche par mots-clés ou en texte intégral. C’est un véritable système hypertextuel qui permet tout d’abord de disposer les textes et les manuscrits de Nietzsche selon des ordonnancements chronologiques, génétiques ou thématiques, et surtout d’activer un ensemble de liens hypertextuels qui relient les sources primaires aux essais critiques produits par les chercheurs." Chose peu courante chez les éditeurs français, le texte intégral du: Que sais-je? consacré à la présentation du projet est disponible pendant deux ans en accès libre sur le site des PUF (Presses universitaires de France). Son équivalent imprimé est publié en octobre 2000 dans la série: Ecritures électroniques.

= L’accès libre au savoir

Problème crucial qui suscite de nombreux débats, l’accès au savoir doit-il être gratuit ou payant? Eduard Hovy, directeur du Natural Language Group de l’USC/ISI (University of Southern California / Information Sciences Institute), donne son sentiment à ce sujet en septembre 2000: "En tant qu’universitaire, je suis bien sûr un des parasites de notre société (remarque à prendre au deuxième degré, ndlr), et donc tout à fait en faveur de l’accès libre à la totalité de l’information. En tant que co-propriétaire d’une petite start-up, je suis conscient du coût représenté par la collecte et le traitement de l’information, et de la nécessité de faire payer ce service d’une manière ou d’une autre. Pour équilibrer ces deux tendances, je pense que l’information à l’état brut et certaines ressources à l’état brut (langages de programmation ou moyens d’accès à l’information de base comme les navigateurs web) doivent être disponibles gratuitement. Ceci crée un marché et permet aux gens de les utiliser. Par contre l’information traitée doit être payante, tout comme les systèmes permettant d’obtenir et de structurer très exactement ce dont on a besoin. Cela permet de financer ceux qui développent ces nouvelles technologies."

En ce qui concerne l’édition spécialisée, à l’heure de l’internet, il paraît assez scandaleux que le résultat des travaux de recherche – travaux originaux et demandant de longues années d’efforts – soit détourné au profit d’éditeurs s’appropriant ce travail et monnayant la diffusion de l’information, sans même une compensation financière pour les auteurs qu’ils publient, ou alors avec une compensation financière ridicule (entre 1 et 3% de droits d’auteur dans certains domaines en France). L'activité des chercheurs est souvent financée par les deniers publics, et de manière substantielle en Amérique du Nord. Il semblerait donc normal que la communauté scientifique et le grand public puissent bénéficier librement du résultat de ces recherches.

C’est ce que pense la Public Library of Science (PLoS), fondée en septembre 2000 par un groupe de chercheurs des universités de Stanford et de Berkeley (Californie) pour contrer les pratiques de l’édition spécialisée. L’association propose de regrouper tous les articles scientifiques et médicaux au sein d’archives en ligne en accès libre. Au lieu d’une information disséminée dans des millions de rapports et des milliers de périodiques en ligne ayant chacun des conditions d’accès différentes, un point d’accès unique permettrait de lire le contenu intégral de ces articles avec moteur de recherche multicritères et système d’hyperliens entre les articles.

Dès sa création, la Public Library of Science fait circuler une lettre ouverte demandant que les articles publiés par les éditeurs spécialisés soient distribués librement dans des services d’archives en ligne, et incitant les signataires de cette lettre à promouvoir les éditeurs prêts à soutenir ce projet. La réponse de la communauté scientifique internationale est remarquable. Au cours des deux années suivantes, la lettre ouverte est signée par plus de 30.000 chercheurs de 180 pays différents. Bien que la réponse des éditeurs soit nettement moins enthousiaste, plusieurs éditeurs donnent également leur accord pour une distribution immédiate des articles publiés par leurs soins, ou alors une distribution dans un délai de six mois.

Un des objectifs de la Public Library of Science est de devenir elle-même éditeur. L’association fonde une maison d’édition scientifique non commerciale qui reçoit en décembre 2002 une subvention de 9 millions de dollars de la part de la Gordon and Betty Moore Foundation. Une équipe éditoriale de haut niveau est constituée début 2003 pour lancer des périodiques de qualité selon un nouveau modèle d’édition en ligne basé sur la diffusion libre du savoir. Les deux premiers titres, PLoS Biology (lancement en octobre 2003) et PLoS Medicine (lancement en 2004) seront suivis d’autres titres couvrant la chimie, l’informatique, la génétique et l’oncologie. Ces périodiques seront également disponibles en version imprimée, cette dernière étant vendue par abonnement au prix coûtant (couvrant les frais de fabrication et de distribution).

La diffusion libre du savoir passe aussi par l’accès aux cours dispensés par les universités et les grands établissements d’enseignement. Interviewé en mai 2001, Christian Vandendorpe, professeur à l’Université d’Ottawa, salue "la décision du MIT (Masachusetts Institute of Technology) de placer tout le contenu de ses cours sur le web d’ici dix ans, en le mettant gratuitement à la disposition de tous. Entre les tendances à la privatisation du savoir et celles du partage et de l’ouverture à tous, je crois en fin de compte que c’est cette dernière qui va l’emporter." Mise en ligne en septembre 2002, la version pilote du MIT OpenCourseWare offre en accès libre le matériel d’enseignement de 32 cours représentatifs des cinq départements du MIT. Les cours (textes, vidéos, travaux pratiques en laboratoire, simulations, etc.) sont régulièrement actualisés. Le lancement officiel du site a lieu en septembre 2003, avec accès à plusieurs centaines de cours. La totalité des 2.000 cours dispensés par le MIT devrait être disponible en septembre 2007. Le MIT espère que cette expérience de publication électronique - la première du genre – permettra de définir un standard et une méthode de publication, et qu’elle incitera d’autres universités à créer des sites semblables pour la mise à disposition gratuite de leurs propres cours.

[7.1. Plusieurs logiciels de lecture / 7.2. Une diffusion par divers canaux / 7.3. Une progression régulière / 7.4. Livres numériques braille et audio]

L’internet couplé avec les technologies numériques permet d’abord de largement diffuser les oeuvres du domaine public par voie électronique puis, dans un deuxième temps, de commercialiser les premiers livres numériques. Si le livre numérique naît dès mai 1998, il ne se développe vraiment qu’à compter du deuxième semestre 2000. De plus en plus de titres sont disponibles à la fois en version imprimée et en version numérique, sous plusieurs formats, y compris au format numérique braille et au format audionumérique. Conçus à partir de 2001 pour contrôler l’accès aux livres numériques soumis au copyright, des systèmes de DRM (digital rights management) permettent la gestion des droits numériques en fonction des consignes données par l’éditeur.

7.1. Plusieurs logiciels de lecture

Un logiciel de lecture permet de lire à l’écran un livre numérique tout en bénéficiant des fonctionnalités suivantes: navigation hypertexte au sein du livre ou vers le web, changement de la taille et de la police des caractères, surlignage de certains passages, recherche de mots dans l’ensemble du texte, ajout de signets ou de notes personnelles, choix de l’affichage en mode paysage ou portrait, agrandissement des figures et graphiques, sommaire affiché en permanence, et enfin formatage automatique du livre et de sa pagination en fonction de la taille de l’écran (reflowing).

Téléchargeables gratuitement, les logiciels de lecture les plus utilisés en 2003 sont l’Acrobat Reader et l’Acrobat eBook Reader, le Microsoft Reader, le Mobipocket Reader et le Palm Reader. A l’exception du format PDF (portable document format), apparu dès 1993, les formats utilisés sont basés sur l’OeB (open ebook), devenu en 1999 le format standard de production des livres numériques.

= L’Acrobat Reader

Créé en juin 1993 par la société Adobe et diffusé gratuitement, le premier logiciel de lecture est l’Acrobat Reader, qui permet de lire des documents au format PDF (portable document format). Ce format conserve la présentation, les polices, les couleurs et les images du document source, quelle que soit la plate-forme utilisée pour le créer et pour le lire. Vendu parallèlement par Adobe, le logiciel Adobe Acrobat (qui, en 2003, en est à sa version 6) permet de convertir n’importe quel document au format PDF. Compacts, les fichiers PDF peuvent être imprimés en conservant leur aspect d’origine. Au fil des ans, le format PDF devient la norme internationale de diffusion des documents électroniques. Des millions de documents PDF sont présents sur le web pour lecture ou téléchargement, ou bien transitent par courriel. L’Acrobat Reader pour ordinateur est disponible dans plusieurs langues et pour diverses plates-formes (Windows, Mac, Linux, Unix). En 2001, Adobe lance également un Acrobat Reader pour assistant personnel (PDA), utilisable sur le Palm Pilot (en mai 2001) puis sur le Pocket PC (en décembre 2001).

= L’Open eBook (OeB)

Les années 1998-2000 sont marquées par la prolifération des formats, dans le cadre d’un marché naissant promis à une expansion rapide. Aux formats classiques - texte, Word, HTML (hypertext markup language), XML (extensible markup language) et PDF (portable document format) - s’ajoutent des formats propriétaires créés par plusieurs sociétés commerciales, pour lecture sur leurs propres logiciels: Glassbook Reader, Rocket eBook Reader, Peanut Reader, Franklin Reader, Microsoft Reader, logiciel de lecture Cytale, Gemstar eBook Reader, Palm Reader, etc.

Inquiets pour l’avenir du livre numérique qui, à peine né, propose presque autant de formats que de titres, certains insistent sur l’intérêt, sinon la nécessité, d’un format unique. A l’instigation du National Institute of Standards and Technology (NIST, Etats-Unis) naît en juin 1998 l’Open eBook Initiative, qui constitue un groupe de travail de 25 personnes, l’Open eBook Authoring Group. Ce groupe élabore l’OeB (open ebook), un format basé sur le langage XML (extensible markup language) pour normaliser le contenu, la structure et la présentation des livres numériques. Le format OeB est défini par l’OeBPS (open ebook publication structure), dont la version 1.0 est disponible en septembre 1999.

Créé en janvier 2000 à la suite de l’Open eBook Initiative, l’Open eBook Forum (OeBF) est un consortium industriel international regroupant 85 participants (constructeurs, concepteurs de logiciels, éditeurs, libraires et spécialistes du numérique) pour développer et promouvoir le format OeB. Téléchargeable gratuitement, l’OeB est un format ouvert appartenant au domaine public. Le format original est toutefois utilisé uniquement par les professionnels de la publication. Il doit être associé à une technologie normalisée de gestion des droits numériques, et donc à un système de DRM (digital rights management), qui permet de contrôler l’accès aux livres numériques soumis au copyright. En 2003, l'OeBPS en est à sa version 1.2 (datée d'août 2002).

= Le Microsoft Reader

En avril 2000, Microsoft lance le Pocket PC, un assistant personnel (PDA) qui, entre autres fonctionnalités, permet de lire des livres numériques sur le Microsoft Reader. Le format de fichier utilisé est le format LIT (abrégé du terme anglais: literature), lui-même basé sur l’OeB (open ebook). En août 2000, le Microsoft Reader est utilisable sur toute plate-forme Windows, et donc aussi bien sur ordinateur que sur assistant personnel. Ses caractéristiques sont un affichage utilisant la technologie ClearType, la possibilité de choisir la taille des caractères, l’accès d’un clic au Merriam-Webster Dictionary, et la mémorisation des mots-clés pour des recherches ultérieures.

Ce logiciel étant téléchargeable gratuitement, Microsoft facture les éditeurs et distributeurs pour l’utilisation de sa technologie de gestion des droits numériques, et touche une commission sur la vente de chaque titre. La gestion des droits numériques s’effectue au moyen du Microsoft DAS Server (DAS: digital asset server), qui permet de contrôler l’accès aux livres numériques soumis au copyright. Microsoft passe aussi des partenariats avec les grandes librairies en ligne - Barnes & Noble.com en janvier 2000 puis Amazon.com en août 2000 – pour lancer la vente de livres numériques lisibles sur le Microsoft Reader. Barnes & Noble.com ouvre son secteur numérique en août 2000, suivi par Amazon.com en novembre 2000. En novembre 2002, le Microsoft Reader est disponible pour tablette PC, dès la commercialisation de cette nouvelle machine par 14 fabricants.

= L’Acrobat eBook Reader

Face à la concurrence représentée par le Microsoft Reader, Adobe annonce en août 2000 l’acquisition de la société Glassbook, spécialisée dans les logiciels de distribution de livres numériques à destination des éditeurs, des libraires, des distributeurs et des bibliothèques. Adobe passe également un partenariat avec Amazon.com et Barnes & Noble.com afin de proposer des titres lisibles sur l’Acrobat Reader et le Glassbook Reader.

En janvier 2001, Adobe met sur le marché deux nouveaux logiciels. Le premier, gratuit, est l’Acrobat eBook Reader. Il permet de lire les fichiers PDF (portable document format) de livres numériques soumis au copyright, avec gestion des droits par l’Adobe Content Server. Il permet aussi d’ajouter des notes et des signets, de choisir l’orientation de lecture des livres (paysage ou portrait), ou encore de visualiser leur couverture dans une bibliothèque personnelle. Il bénéficie de la technique d’affichage CoolType et comporte un dictionnaire intégré.

Le deuxième logiciel, payant, est l’Adobe Content Server, destiné aux éditeurs et distributeurs. Il s’agit d’un logiciel serveur de contenu assurant le conditionnement, la protection, la distribution et la vente sécurisée de livres numériques au format PDF. Ce système de DRM (digital rights management) permet de contrôler l’accès aux livres numériques soumis au copyright, et donc de gérer les droits d’un livre selon les consignes données par le gestionnaire des droits, par exemple en autorisant ou non l’impression ou le prêt. En avril 2001, Adobe conclut un partenariat avec Amazon.com, qui met en vente 2.000 livres numériques lisibles sur l’Acrobat eBook Reader : titres de grands éditeurs, guides de voyages, livres pour enfants, etc.

En mai 2003, l’Acrobat eBook Reader (qui en est à sa 2e version) fusionne avec l’Acrobat Reader (qui en est à sa 5e version) pour devenir l’Adobe Reader version 6.

= Le Mobipocket Reader

Face à Adobe et à Microsoft, un nouvel acteur s’impose rapidement sur le marché, sur un créneau bien spécifique, la lecture sur assistant personnel (PDA). Créée à Paris en mars 2000 par Thierry Brethes et Nathalie Ting, la société Mobipocket est financée en partie par Viventures, branche de la multinationale Vivendi. Le logiciel de lecture Mobipocket Reader permet la lecture de fichiers au format PRC (Palm resource). Gratuit et disponible dans plusieurs langues (français, anglais, allemand, espagnol, italien), il est "universel", c’est-à-dire utilisable sur tout assistant personnel. En octobre 2001, le Mobipocket Reader est récompensé par l’eBook Technology Award de la Foire internationale de Francfort. A la même date, Mobipocket passe un partenariat avec Franklin pour l’installation du Mobipocket Reader sur l’eBookMan, l’assistant personnel (PDA) multimédia de Franklin, au lieu du partenariat prévu à l’origine entre Franklin et Microsoft pour l’installation du Microsoft Reader.

Si le Mobipocket Reader est gratuit, d’autres logiciels Mobipocket sont payants. Le Mobipocket Web Companion est un logiciel d’extraction automatique de contenu auprès des sites de presse partenaires de la société. Le Mobipocket Publisher permet aux particuliers (version privée gratuite ou version standard payante) et aux éditeurs (version professionnelle payante) de créer des livres numériques sécurisés utilisant la technologie Mobipocket DRM (digital rights management), afin de contrôler l’accès aux livres numériques soumis au copyright. Dans un souci d’ouverture aux autres formats, le Mobipocket Publisher permet de créer des livres numériques non seulement au format PRC (Palm resource), lu par le Mobipocket Reader, mais aussi au format LIT (abrégé du terme anglais: literature), lu par le Microsoft Reader.

Au printemps 2002, la société lance une version du Mobipocket Reader pour ordinateur personnel. Au printemps 2003, le Mobipocket Reader équipe tous les assistants personnels du marché, à savoir les gammes Palm Pilot, Pocket PC, eBookMan et Psion, et les smartphones de Nokia et Sony Ericsson. A la même date, le nombre de livres lisibles sur le Mobipocket Reader se chiffre à 6.000 titres dans plusieurs langues (français, anglais, allemand, espagnol), distribués soit sur le site de Mobipocket soit dans des librairies partenaires.

= Le Palm Reader

Lancé dès mars 1996 par la société Palm, le Palm Pilot est le premier assistant personnel (PDA) du marché. Sept ans plus tard, malgré la concurrence de la gamme Pocket PC de Microsoft (lancé en avril 2000) et des modèles de Hewlett-Packard, Sony, Handspring, Toshiba et Casio, il reste l’assistant personnel le plus utilisé au monde, avec 23 millions de machines vendues entre 1996 et 2002.

En mars 2001, Palm aborde le marché du livre numérique en faisant l’acquisition de Peanutpress.com, éditeur et distributeur de livres numériques pour assistant personnel, qui appartenait jusque-là à la société netLibrary. Le Peanut Reader devient le Palm Reader, et le format correspondant le format PDB (Palm database). Le Palm Reader est utilisable aussi bien sur le Palm Pilot que sur le Pocket PC, puis, dans un deuxième temps, en juillet 2002, sur ordinateur personnel.

Lors du rachat de Peanutpress.com par Palm en mars 2001, les 2.000 titres numériques de Peanutpress.com – des best-sellers et des titres de grands éditeurs - sont transférés dans la librairie numérique Palm Digital Media. A la même date, le roman Dreamcatcher de Stephen King, dont on connaît l’intérêt pour le numérique, sort simultanément en version imprimée chez Simon & Schuster et en version numérique chez Palm Digital Media. Sont disponibles aussi en version numérique chez Palm les best-sellers de Michael Connelly, Michael Crichton, Anne Rice et Scott Turow, ainsi que le Wall Street Journal et plusieurs magazines. En mars 2002, le nouveau recueil de nouvelles de Stephen King, Everything’s Eventual, est lancé simultanément par Scribner, une subdivision de Simon & Schuster, et Palm Digital Media, qui en propose un extrait en téléchargement libre. En juillet 2002, les collections de Palm Digital Media se chiffrent à 5.500 titres dans plusieurs langues. En 2003, le catalogue approche les 10.000 titres.

= Des logiciels de lecture polyvalents

Conséquence d’un marché en pleine expansion, après avoir été conçus pour une machine spécifique (soit un ordinateur, soit un assistant personnel), les principaux logiciels de lecture deviennent polyvalents. Si l’Acrobat Reader est uniquement disponible sur ordinateur jusqu’en 2001, Adobe lance un Acrobat Reader pour Palm Pilot en mai 2001, puis pour Pocket PC en décembre 2001. Si, à l’origine, le Mobipocket Reader est destiné à la lecture sur assistant personnel, Mobipocket lance également une version pour ordinateur en avril 2002. La même remarque vaut pour le Palm Reader qui, après avoir équipé le Palm Pilot et le Pocket PC, s’étend aux ordinateurs en juillet 2002.

Chose peu courante chez les concepteurs de logiciels, Mobipocket propose d’emblée un logiciel de lecture "universel", utilisable sur tout assistant personnel, et manifeste très tôt un réel souci d’ouverture aux autres formats. Le Mobipocket Publisher permet de créer des livres numériques non seulement au format PRC (lisible sur le Mobipocket Reader) mais aussi au format LIT (lisible sur le Microsoft Reader).

Après avoir fait cavalier seul en promouvant leur propre logiciel de lecture, les constructeurs y mettent aussi du leur. Le Palm Pilot permet de lire des livres numériques aussi bien sur le Palm Reader que sur le Mobipocket Reader. Son principal concurrent, le Pocket PC de Microsoft, permet de lire des livres sur le Microsoft Reader, le Mobipocket Reader et le Palm Reader.

Vétéran des logiciels de lecture avec dix ans d’existence en juin 2003, l’Acrobat Reader s’adapte régulièrement aux besoins du marché. Pour ne prendre qu’un exemple, les utilisateurs d’autres logiciels disent apprécier particulièrement le reflowing, une technique leur permettant de reformater automatiquement un livre et sa pagination en fonction de la taille de l’écran. Le reflowing est autorisé par les formats basés sur l’OeB (open ebook). Alors que ceci n’était pas possible avec les versions précédentes de l’Acrobat Reader, le format PDF n’étant pas basé sur l’OeB, les versions 5 et suivantes d’ Adobe Acrobat permettent de créer des documents PDF autorisant le reflowing, même si la numérotation des pages du document initial reste figée.

= L’ION Systems eMonocle

Fait qui mérite d’être signalé, la société ION Systems lance en août 2001 l’ION eMonocle Reader, un logiciel de lecture qui, tout en étant un logiciel standard, s’attache à résoudre les problèmes de lecture des malvoyants. Ce logiciel permet un ajustement de la taille du texte et des images, avec un affichage allant de 4 à 144 points. Il peut paramétrer une impression en gros caractères. Il permet l’ouverture de n’importe quel livre numérique basé sur le format OeB (open ebook). Les graphiques et figures peuvent être élargis et présentés dans un sens différent de l’original – par exemple une rotation à 90 degrés - en utilisant la totalité de l’écran, et en zoomant ensuite sur une partie du document.

7.2. Une diffusion par divers canaux

Contrairement au livre imprimé, vendu dans les librairies, le livre numérique est d’abord vendu par les éditeurs avant d’être vendu par les libraires, pour la raison bien simple qu’il faut laisser le temps à ces derniers de créer une structure qui n’existe pas. En 2003, cette structure existe, si bien que l’éditeur peut soit vendre directement sur son propre site ses titres numériques, soit passer un partenariat avec une librairie numérique, soit adopter simultanément les deux formules.

Publiés en mai 1998 par les éditions 00h00, les premiers livres numériques commerciaux sont des classiques de la littérature française - Le Tour du monde en 80 jours, de Jules Verne, Colomba, de Prosper Mérimée, Poil de carotte, de Jules Renard, etc. - ainsi que deux inédits: Sur le bout de la langue, de Rouja Lazarova, et La Coupe est pleine, de Pierre Marmiesse. 00h00 passe aussi des accords avec d’autres éditeurs pour publier en version numérique certains de leurs titres imprimés.

Autre événement d’importance, en mars 2000, Stephen King, maître du suspense, décide de distribuer sa nouvelle Riding The Bullet uniquement par voie électronique, avec vente dans des librairies en ligne. Suite à cette expérience qui s’avère un succès à la fois médiatique et financier, l’auteur décide de se passer des services de Simon & Schuster, son éditeur habituel. En juillet 2000, il crée un site web spécifique pour débuter la publication en épisodes d’un roman épistolaire, The Plant. Cette deuxième expérience s’avère beaucoup moins concluante que la première, le nombre de téléchargements et de paiements baissant régulièrement au fil des chapitres. En décembre 2000, après la parution du sixième chapitre, gratuit, l’auteur décide de mettre The Plant en hibernation pendant une période indéterminée. Le suivi médiatique de cette expérience pendant les six mois qu’elle aura duré contribue largement à faire connaître le livre numérique, aussi bien chez les professionnels du livre que dans le grand public. D’autres auteurs de best-sellers prennent ensuite le relais, comme Frederick Forsyth au Royaume-Uni et Arturo Pérez-Reverte en Espagne, mais cette fois en partenariat avec leurs éditeurs.


Back to IndexNext