OWNI

La fin de l’hégémonie de Google Books ?

Lionel Maurel (Calimaq) — Thu, 28 Jul 2011 06:34:29 +0000

Suite au rejet du règlement Google Books par le juge Chin en mars dernier, une conférence de mise en état était organisée hier [ndlr : le 19 juillet] à New York de manière à ce que les parties puissent faire connaître leurs intentions concernant la suite de cette affaire.

Parmi toutes les possibilités encore ouvertes, Google a finalement choisi la voie de l'opt-in (de la sagesse ?)

Comme l’indique James Grimmelmann sur son blog, une information décisive a été révélée lors de l’audience, puisqu’il semblerait que les parties s’acheminent vers un abandon de l’opt-out et travaillent à présent à la mise au point d’un nouveau règlement impliquant l’accord explicite des titulaires de droits (opt-in).

L’opt-in pour sortir de la spirale judiciaire

Depuis le départ, Google avait tenté de renverser les règles classiques du droit d’auteur, en obligeant les auteurs et éditeurs à demander explicitement le retrait de leurs œuvres du programme Google Books. C’était le seul moyen pour la firme de développer un programme de numérisation de masse portant sur des millions d’oeuvres protégées, en évitant les coûts de transaction très élevés qu’impliquent la recherche des titulaires et la conclusion d’accords.

Mais dans sa décision de rejet de mars dernier, le juge Chin avait fortement critiqué ce système de l’opt-out, comme portant une atteinte trop grave aux règles classiques du copyright et risquant de conférer à Google des droits exclusifs sur les œuvres orphelines, pour lesquelles les titulaires ne peuvent justement pas manifester leur refus. Dans la conclusion de sa décision, le juge Chin invitait les parties à se tourner vers une nouvelle solution, revenant à l’opt-in :

(…) many of the concerns raised in the objections would be ameliorated if the [Settlement] were converted from an opt-out settlement to an opt-in settlement. [ndlr: (...) bon nombre de préoccupations soulevées dans les objections pourraient être améliorées si le [règlement] convertissait l’opt-out en opt-in.]

Hier, alors que les parties demandaient un nouveau délai, le juge Chin a semblé perdre patience, en les menaçant de fixer d’office un calendrier resserré pour les contraindre, après plus de six ans de procédure, à abandonner la voie du règlement pour revenir à un procès classique sur la base du fair use, la défense initiale de Google. C’est alors que les parties ont fait savoir qu’elles avaient besoin de temps pour mettre au point un nouvel accord sur le principe de l’opt-in et le juge Chin leur a accordé jusqu’au 15 septembre pour ce faire.

Si ce revirement constitue à n’en pas douter un tournant important dans cette affaire, il est difficile encore à ce stade de savoir sur quoi portera exactement cet opt-in, comme le fait remarquer Grimmelmann sur son blog :

It could mean an actual opt-in settlement, one that binds only class members who send in claim forms. It could mean a settlement in which Google commits to an open-ended offer to all class members. It could mean a narrower, scanning-and-searching-only settlement, so that copyright owners can “opt in” to book sales by striking their own individual deals with Google. [ndlr : Cela pourrait mener à un accord "opt-in" qui concernerait seulement les membres qui envoient des formulaires de réclamation. Cela pourrait signifier un accord selon lequel Google s'engagerait à faire une offre ouverte à tous les membres. Cela pourrait conduire à un accord plus étroit, concernant seulement la numérisation et la recherche, pour que les propriétaires de copyright aient l'option d'un "opt-in" sur les ventes de livres en établissant leur propres accords avec Google.]

En gros, on ne sait pas si les parties vont s’appuyer sur le règlement actuel, en le proposant seulement aux auteurs et éditeurs l’ayant déjà accepté à ce jour ou si elles vont renégocier un nouvel accord qui sera proposé à l’approbation de tous les membres du recours collectif. Il pourrait aussi s’agir de limiter le règlement au premier état du projet Google Books (la numérisation et l’affichage d’extraits), pour ensuite essayer de conclure une série d’accords séparés avec les titulaires. Trois stratégies très différentes.

Coup dur pour Google Books…

Après le rejet du règlement par le juge Chin, certains commentateurs (comme l’avocat Emmanuel Pierrat) avaient affirmé que l’issue du procès était assez insignifiante, car Google sortirait toujours gagnant de cette affaire, considérant l’avance dont il dispose dans la course à la numérisation (15 millions de livres déjà scannés).

Je ne pense pas que ce soit vrai. Le retour à l’opt-in est à l’évidence un coup dur porté au programme Google Books qui va considérablement limiter l’usage que Google pourra faire de la masse des livres numérisés.

L’opt-in va tout d’abord avoir pour première conséquence que Google devra faire face à d’importants coûts de transaction pour obtenir le consentement des éditeurs et des auteurs en vue d’exploiter leurs oeuvres. En novembre 2010, Google a déjà conclu un premier accord fonctionnant sur la base de l’opt-in avec le groupe Hachette en France, pour la numérisation et la commercialisation de 50 000 oeuvres épuisées. Or depuis, nous n’avons plus de nouvelles de ce partenariat annoncé et je suis prêt à mettre ma main au feu que c’est notamment en raison des difficultés rencontrées pour rassembler les autorisations des auteurs sur ce corpus. Qu’en sera-t-il alors pour les millions d’oeuvres de Google Books ?

L’autre conséquence, c’est que par définition dans un système impliquant le consentement explicite des titulaires, Google ne peut plus espérer obtenir le droit d’utiliser les oeuvres orphelines numérisées à partir des fonds des bibliothèques américaines. Or celles-ci représentent une part considérable des fonds sous droits numérisés par Google (largement plus de la moitié si l’on en croît cette étude réalisée par Hathi Trust à partir des copies remises par les bibliothèques partenaires). Une perte sèche pour Google, en dépit des investissements déployés pour leur numérisation…

Dans ces conditions, les prétentions hégémoniques de Google me semblent sérieusement remises en cause, même s’il lui reste toujours les moyens de jouer un rôle important, par le biais de ses programmes Google Books et eBooks. Mais ce retour à l’opt-in ouvre aussi de nouveaux espaces au profit d’autres acteurs, agissant sur la base d’une logique différente.

Refonder la bibliothèque numérique sur une autre logique

En matière d’accès aux oeuvres orphelines, l’Université du Michigan a annoncé en mai dernier le lancement d’un grand programme, en partenariat avec Hathi Trust, visant à identifier les oeuvres orphelines figurant parmi les copies remises par Google. L’objectif est de donner accès sur place à ces ouvrages à partir du mois d’octobre prochain au bénéfice des chercheurs de l’Université, en s’appuyant sur l’usage équitable (fair use). Là où Google a échoué, il est tout à fait possible qu’une bibliothèque réussisse, car la revendication du fair use est plus légitime en l’absence de but commercial poursuivi. Et Michigan a été rejoint récemment par l’Université de Floride, ouvrant la voie à un vaste programme coopératif public pour l’accès aux oeuvres orphelines.

Par ailleurs, un autre projet public de bibliothèque numérique progresse : celui de la Digital Public Library of America (DPLA) appelé de ses voeux par Robert Darnton et supporté par le Berkman Center de l’Université d’Harvard.

Conçue comme une alternative non-commerciale à Google Books, la DPLA vise un accès public le plus large possible, mais surtout gratuit, aux ouvrages numérisés dans le cadre du respect de la légalité (cf. le wiki dédié à cette initative) :

The Digital Public Library of America (DPLA) will make the cultural and scientific heritage of humanity available, free of charge, to all. By adhering to the fundamental principle of free and universal access to knowledge, it will promote education in the broadest sense of the term. [ndlr: La Digital Public Library of America rendra l'héritage culturel et scientifique de l'humanité gratuit et accessible pour tous. L'adhésion au principe fondamental d'accès gratuit et universel à la connaissance promouvra l'éducation dans son acception la plus largeme.]

Un Beta Sprint a été organisé ce printemps pour rassembler des propositions et le projet semble progresser, comme le montre la vidéo ci-dessous.

Avec un Google empêtré dans l’opt-in et sévèrement limité dans ses prétentions, peut-être le temps est-il venu de prêter plus d’attention à ces alternatives publiques américaines, qui explorent de nouvelles voies pour libérer l’accès à la connaissance contenue dans les livres.

Cliquer ici pour voir la vidéo.

PS : et toujours merci @BlankTextField pour sa veille sur Google Book.

Publié initialement sur Si.Lex sous le titre Coup dur pour Google Books : bye bye l’opt-out

Illustrations FlickR par clip works et arnybo

L’interprétation des graphiques produits par Ngram Viewer

Patrick Peccatte — Tue, 11 Jan 2011 15:51:58 +0000

Ngram Viewer [en] est un nouvel outil mis en ligne par Google le 16 décembre dernier [en]. Il permet de visualiser sous forme de graphiques les fréquences d’apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. Ce projet a été initié en 2007 par un mathématicien et physicien américain, Erez Lieberman Aiden [en]. Il a été soutenu par Google Labs et développé par des chercheurs de Harvard, en particulier Jean-Baptiste Michel, jeune polytechnicien français.

Apparition et évolution de la fréquence des mots télégraphe, téléphone, radio, télévision, Internet, internet en français de 1800 à 2008. Remarquez que l’outil distingue les majuscules et minuscules (‘Internet’ apparaît plus tôt que ‘internet’ et il est plus fréquent). Pour tous les exemples illustrés de ce billet, cliquez sur le graphique correspondant afin d’afficher la requête directement dans Ngram Viewer.

L’application contient actuellement les mots extraits de plus de 5 millions d’ouvrages, ce qui correspond d’après les développeurs à 4% des livres jamais publiés. Les ouvrages les plus anciens utilisés dans le projet remontent aux XVI^ème siècle mais la très grande majorité sont postérieurs à 1800.

Il s’agit en fait d’un énorme lexique interrogeable contenant plus de 500 milliards de mots et organisé en sous-lexiques par langue : anglais (361 milliards de mots = Mm) [différencié en anglais américain et britannique], français (45 Mm), espagnol (45 Mm), allemand (37 Mm), russe (35 Mm), chinois (13 Mm) et hébreu (2 Mm).

Sans trop entrer dans les détails techniques, les lexiques sont des tables composées de n-grammes, c’est-à-dire des séquences de mots apparaissant dans les ouvrages numérisés. L’outil met ainsi en œuvre cinq catégories de tables : monogrammes (mots uniques), bigrammes (deux mots qui se suivent)… , jusqu’aux 5-grammes (cinq mots successifs). Il n’est donc pas possible de connaître à l’aide de Ngram Viewer les fréquences d’apparition du vers de Verlaine De la musique avant toute chose qui comporte six mots. Par contre, on trouvera les deux séquences de cinq mots chacune De la musique avant toute et la musique avant toute chose dont les courbes représentatives affichées par Ngram Viewer sont manifestement corrélées.

Les lexiques sont mis à la disposition du public [en] selon la licence Creative Commons et sous la forme de fichiers au format CSV. Bien que très volumineux, ils sont donc facilement lisibles et l’on devrait ainsi voir apparaître de nouvelles applications les utilisant. À titre d’exemple, une ligne du lexique 5-grammes français se présente ainsi :

principes fondamentaux de la philosophie 1988 17 16 12

où la suite de mots principes fondamentaux de la philosophie est un 5-gramme, 1988 l’année de parution des livres analysés, 17 le nombre d’occurrences de la suite de mots dans l’ensemble des ouvrages de l’année en question, 16 le nombre de pages différentes et 12 le nombre de livres où la séquence apparaît. Aucune référence aux ouvrages analysés ne figure dans ces tables qui ne contiennent qu’une compilation de comptages d’occurrences.

Une masse de statistiques extrêmement sommaires et synthétiques

Ces différents sous-lexiques sont donc par construction totalement « autonomes », indépendants de Google Books. Il s’agit là manifestement d’un choix stratégique de Google qui aurait pu construire un outil beaucoup plus sophistiqué relié à sa base d’ouvrages numérisés. Le projet peut dès lors fonctionner sans qu’il soit nécessaire de mettre à la disposition des utilisateurs l’accès aux documents (initiative controversée comme on le sait). Mais ce choix comporte aussi un inconvénient majeur puisqu’il interdit de rechercher sur le voisinage plus éloigné des mots et empêche toute contextualisation des résultats (quel livre, quelle page, quel paragraphe contiennent telle suite de mots). L’utilisateur ne dispose que de statistiques extrêmement sommaires et synthétiques, mais il en voit énormément. On regrettera que les concepteurs n’aient pas facilité la tâche des analystes, ne serait-ce qu’en stockant dans chaque entrée de lexique les id Google Books des trois ouvrages qui contribuent le plus au nombre d’occurrences.

Les approximations de la reconnaissance de caractères (OCR) utilisée dans Google Books se retrouvent sur Ngram Viewer. Ainsi, la plupart des observateurs mentionnés dans la webographie sélective ci-dessous mettent en évidence l’évolution progressive de la graphie du s long – reconnu par l’OCR comme un f – vers la forme du s minuscule que nous connaissons actuellement.

La disparition progressive du s long : plufieurs, plusieurs, prefque, presque de 1750 à 1830 (français). À noter que l'évolution du mot "plusieurs" semble anticiper celle de "presque", peut-être sous l'influence du s final du mot.

De même, de nombreuses évolutions de graphies issues pour la plupart de diverses réformes de l’orthographe peuvent être visualisées très rapidement, et le résultat est souvent spectaculaire (exemples: mes parens, mes parents en français, quando, cuando en espagnol).

Mais on relève aussi de nombreuses erreurs d’OCR et surtout l’attribution de dates de publication erronées à des documents comme on peut le voir par exemple sur le mot Internet. La réédition de certains ouvrages est certainement la cause d’un grand nombre de ces erreurs. Pour Natalie Binder [en], il se pourrait même à terme que l’intérêt principal de Ngram Viewer consiste à identifier rapidement les erreurs d’OCR et de dates sur Google Books !

L’aspect purement lexical du projet qui ne distingue pas les polysémies rend de nombreuses recherches pratiquement impossibles (essayez d’afficher la fréquence des noms de saison en français par exemple).

La culturonomique, un nouveau champ d’application de la lexicométrie

L’équipe de développement de Ngram Viewer a publié dans la revue Science un article intitulé Quantitative analysis of culture using millions of digitized books [pdf, en] qui introduit le terme cultoromics (cultoronomique en français) pour désigner un nouveau champ d’application de la lexicométrie. Les auteurs ont aussi lancé un site web culturomics.org [en]. Amalgame de culture et de genomics [en], domaine dans lequel plusieurs membres de l’équipe dont Erez Aiden ont travaillé, cette activité prétend en quelque sorte mettre en évidence des évolutions culturelles sur de longues périodes à travers l’analyse de fréquence portant sur de très vastes corpus de mots.

Dans leur remarquable billet Prodiges et vertiges de la lexicométrie sur le blog Socioargu, Francis Chateauraynaud et Josquin Debaz s’interrogent sur la pertinence de certaines recherches ignorant les évolutions du sens des mots sur de longues périodes et émettent de sérieuses réserves concernant l’ambition culturonomique. À tout le moins, la tentative manifeste de créer une nouvelle discipline en la nommant d’après un champ de recherche de la biologie et sur une seule référence de publication dans un journal scientifique semble assez immodeste et pose problème. Je renvoie sur ces questions méthodologiques et épistémologiques à l’article de Socioargu ainsi qu’à ceux de Dan Cohen [en], d’Olivier Ertzscheid, et à la discussion sur Language Log [en].

La mise en ligne de Ngram Viewer a provoqué une profusion d’exemples postés sur différents sites ou blogs, très souvent sans aucun commentaires. Ils sont proposés sur un mode presque ludique, présentés sous un format antagonique (X vs Y), et comme si les courbes tracées suffisaient à mettre au jour de réels phénomènes linguistiques ou culturels. Quelques collections sont apparues (clic, clic, clic, clic, clic [en]) et il existe aussi une extension pour Chrome [en] permettant de donner directement la courbe de fréquences d’une entrée de Wikipedia en anglais.

Délicate et difficile interprétation

La facilité d’usage ne masque pas cependant le fait que l’interprétation de la plupart de ces graphiques est totalement impossible sans plonger dans l’analyse des documents numérisés sur Google Books. Or cette tâche est non seulement d’une ampleur colossale pour le moindre exemple de visualisation mais elle est tout simplement irréalisable en ligne puisque les documents sous copyright ne sont pas consultables. Les cas intéressants sur le plan « culturel » pour lesquels une interprétation probante peut être réalisée montrent des corrélations avec des événements historiques majeurs comme les deux guerres mondiales. C’est d’ailleurs l’un des exemples proposés par les auteurs de l’article de Science.

En l’absence de possibilité de vérification des hypothèses que l’on peut être amené à formuler sur une visualisation, l’utilisateur est laissé seul avec ses propres connaissances et intuitions en face du phénomène ou de l’artefact repéré. Comme le signalent les auteurs de l’article de Socioargu mentionné, cela signifie que l’investigateur doit d’abord « disposer d’une culture générale suffisante pour comprendre le positionnement relatif des mots dans le temps ».

Ngram Viewer doit en fait être considéré comme un outil heuristique qui permet plus de poser de nouvelles questions que d’apporter des réponses. Pour commencer à dépasser le stade du jeu avec Ngram Viewer, il serait intéressant de mettre en commun les efforts de groupes de spécialistes intéressés par un sujet en ouvrant des espaces de discussions sur des visualisations, créer en somme une véritable activité de travail collaboratif à partir des graphiques produits permettant de documenter et approfondir les résultats. Un début d’interprétation de ces vastes mais très sommaires lexiques pourrait alors être envisagé et ouvrir des champs de réflexion nouveaux pour les digital humanities.

Pour terminer, voici quelques exemples de résultats en relation avec des questions diverses abordées sur Culture Visuelle.

photographie, photo, photographies, photos (français, 1900-2008). Vers 1970, la forme abrégée "photo" devient plus fréquente que le mot "photographie".

image, picture, images, pictures (anglais, 1800-2008)

photographie argentique, photographie numérique (français, 1960-2008)

le savant, le chercheur, les savants, les chercheurs (français, 1780-2008). Note: les articles 'le' et 'les' permettent de minimiser l'impact du participe seul sur le résultat.

culture populaire, culture savante (français, 1800-2008)

NASA,NOAA,NIST,NIH,USGS,ARS,NSF,DARPA,NIEHS,USFS,USDA (anglais, 1950-2008). Le poids prédominant de la NASA dans la médiatisation de la recherche américaine.

événements de mai 1968, événements de mai 68, révolte de mai 1968, révolution de mai 1968 (français, 1960-2008). Les termes 'révolte' et 'révolution' présents dans les années 70 disparaissent. La forme non abrégée '1968' devient moins fréquente tandis que la forme abrégée '68' est légèrement plus présente.

Gitans, Romanichels, Tsiganes, Roms (français, 1900-2008). Exemple emprunté à Bibliothèques reloaded.

carte postale, cartes postales (français, 1870-2008)

Webographie sélective

En anglais

Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden. Quantitative Analysis of Culture Using Millions of Digitized Books. Science (Published online ahead of print: 12/16/2010). Disponible sur librarian.net [format PDF]
Google Opens Books to New Cultural Studies, John Bohannon (Science, 17, décembre 2010) [pdf]
Google Books Ngrams and the number of words for “snow”, Natalia Cecire (17 décembre 2010)
Google’s word engine isn’t ready for prime time / The problem with Google’s thin description / Fixing Google’s word engine, Natalie Binder (17-21 décembre 2010)
Initial Thoughts on the Google Books Ngram Viewer and Datasets, Dan Cohen (19 décembre 2010)
On “culturomics” and “ngrams”, Language Log, 23 décembre 2010

En français

Google: Le plus grand corpus linguistique de tous les temps, Jean Véronis (16 décembre 2010)
Culturonomics : juste une question de corpus ? , Olivier Ertzscheid (16 décembre 2010)
Google Ngram viewer : un extraordinaire corpus mais…, Rémi Mathis (20 décembre 2010)
Prodiges et vertiges de la lexicométrie, Francis Chateauraynaud et Josquin Debaz (23 décembre 2010)
Culturomics. Google met la culture à portée de tous… ou corporifie la culture humaine ?, Corinne Dangas (28 décembre 2010)
Google labs Books Ngram Viewer : un nouvel outil pour les historiens ?, Emilien Ruiz (29 décembre 2010)

—

Billet initialement publié sur Déjà vu, un blog de Culture Visuelle

Image CC Flickr Oberazzi

Culturonomics: juste une question de corpus?

Olivier Ertzscheid — Tue, 11 Jan 2011 11:26:12 +0000

À quoi sert de numériser des millions d’ouvrages depuis 2005 ? À ça (« Quantitative Analysis of Culture Using Millions of Digitized Books », article publié dans la revue scientifique Science). Disposer de 4% de tous les livres publiés depuis 2 siècles. 7 langues. 2 milliards de mots. 5,2 millions de livres numérisés “inside” (voir l’article du NYTimes).

Ici (Google), le plus grand corpus linguistique de tous les temps.
Ailleurs (Facebook), le plus grand “corp(u)s social” numérique.

Deux corpus. Mais qu’est-ce qu’un corpus ?

“Ensemble de données exploitables dans une expérience d’analyse ou de recherche automatique d’informations.” (Source : Trésor de la langue française)
“Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire” (Source : Trésor de la langue française)

Dans le domaine du droit, le corpus : “C’est l’élément matériel de la possession, le pourvoir de fiat exercé sur une chose. (Animus).”

Du premier corpus, celui de Google, on ne pourra que se réjouir, pour ce qu’il représente de potentialités ouvertes dans l’aventure linguistique comme compréhension du monde. Et l’on mettra du temps à en épuiser les possibles. Mais nul doute qu’il contribuera aussi à alimenter tous les fantasmes, celui, notamment, d’une “intelligence artificielle” dévoyée, apprenant à penser en déchiffrant ce que le plus grand corpus du monde révèle des pensées de ce même monde. Les ingénieurs ont même inventé un mot pour cela : “culturonomics”. Culture et génomique. Enthousiasmant. Pour l’instant. Et pour les linguistes.

Du second corpus, celui de Facebook, on ne peut que continuer à raisonnablement s’alarmer. Surtout lorsque les techniques de traitement dudit corpus prennent cette orientation, rendant plus que jamais nécessaire la mise en œuvre d’un littéral Habeas Corpus numérique.

Dans l’histoire des sciences, les scientifiques de tous les domaines, de toutes les époques, de toutes les disciplines, se sont en permanence efforcés de prendre l’ascendant sur leur différents corpus ; pour pouvoir être exploitable, le corpus doit pouvoir être circonscrit par ceux qui prétendent en faire l’analyse.

Il n’y a rien que l’homme soit capable de vraiment dominer : tout est tout de suite trop grand ou trop petit pour lui, trop mélangé ou composé de couches successives qui dissimulent au regard ce qu’il voudrait observer. Si ! Pourtant, une chose et une seule se domine du regard : c’est une feuille de papier étalée sur une table ou punaisée sur un mur. L’histoire des sciences et des techniques est pour une large part celle des ruses permettant d’amener le monde sur cette surface de papier. Alors, oui, l’esprit le domine et le voit. Rien ne peut se cacher, s’obscurcir, se dissimuler.

Bruno Latour, Culture technique, 14, 1985 (cité par Christian Jacob dans L’Empire des cartes, Albin Michel, 1992).

L’informatique, les outils de la linguistique de corpus ont permis aux linguistes de rester les maîtres de corpus aux dimensions exponentielles. Même chose dans le domaine de la médecine : disséquer une grenouille est une chose (et un corpus), séquencer le génome humain en est une autre. Dans tous ces cas comme dans les courbes proposées par Google, le scientifique est parvenu à “ruser” le monde pour user de son corpus.

Et donc ? Nos sociétés de données, nos sociétés d’une exponentielle et inconcevable immensité de données, nourrissent en permanence des monstres calculatoires et industriels (voir les textes d’Hervé Le Crosnier sur le sujet, là ou là) qui, dans certains domaines, sont en passe d’être les seuls capables de circonscrire des corpus qui relèvent, pourtant, du bien commun. Aujourd’hui déjà la génomique, demain peut-être la linguistique, après demain qui sait, les traits culturels ? Culturonomics. Le génome de la culture.

S’il est vrai, comme le remarque Jean Véronis dans son billet que “la biologie et le traitement des langues partagent beaucoup de choses du côté des algorithmes et des mathématiques“, je pense que le choix terminologique de Google dépasse, de loin, la seule interdisciplinarité ; Culturonomics : dans l’histoire de Google comme dans ses liens les plus intimes, la culture et le génome sont les deux brins d’un même ADN fondateur.

Moralité. Celui qui peut dire que la vie l’emporte sur la mort ne doit jamais se retrouver en situation d’être le seul à pouvoir le dire. Ou à prétendre le contraire. Ou à ne pas le dire. Il est de notre responsabilité collective d’y veiller. Habemus corpus. Ceci est notre corp(u)s.

>> Article initialement publié sur Affordance

Retrouvez notre dossier :

Petite histoire de la géologie en quelques mots

La politique, le sexe et Dieu dans Google Books

>> Illustrations FlickR CC : Calamity Meg, J.Salmoral

>> Illustration de Une FlickR CC : stefernie

Google Books, libraire numérique depuis 2010

Olivier Ertzscheid — Mon, 10 Jan 2011 07:30:51 +0000

Mes étudiants vous le confirmeront, j’avais dès 2006 annoncé que Google deviendrait un jour libraire. Et j’avais également indiqué qu’il le serait au plus tard en 2010. Il s’en est donc fallu de peu (25 jours), mais j’ai gagné mon pari :-) Le 6 décembre restera donc comme la date officielle de lancement de Google Edition : http://books.google.com/ebooks.

Disponible uniquement aux États-Unis, l’ouverture pour l’Europe (et la France ?) et annoncée pour le début 2011 (“first quarter 2011″).

Pas le temps de faire un billet d’analyse, je me lance donc, par défaut, dans une petite revue de liens qui permettront, je l’espère, de circonscrire les principaux enjeux de ce lancement. Car figurez-vous qu’en plus de ce lancement, Google a, ces derniers jours, multiplié les annonces. Mais d’abord une question.

Pourquoi lancer Google Edition maintenant et dans une (relative) précipitation ?

Parce que c’est bientôt Noël et parce que comme tous les foyers qui peuvent faire flamber leur Carte Bleue pour l’occasion sont déjà équipés de cafetières, de micro-ondes, d’ordinateurs, et de lecteurs DVD, tous les indicateurs et tous les analystes le disent : ce Noël sera celui des tablettes tactiles et autres e-readers (liseuses). L’iPad va faire un carton (même si je vous conseille d’attendre la prochaine version). Et outre-Atlantique, les ebooks vont se vendre comme des petits pains (ben oui, faudra bien remplir les sus-cités tablettes et autres e-readers). Donc c’eût été digne de la stratégie d’un vendeur de sable en Afrique sub-saharienne que de ne pas lancer Google Edition avant les fêtes de Noël (pour info, et d’après une étude de Forrester citée ici, “le marché US représente près de 1 milliard de dollars en 2010 et devrait tripler d’ici 2015″, d’autre part, ici, “le marché du livre électronique progresse : +200% de ventes en 2009 pour les États-Unis.”).

La question des chiffres

Épineuse. Pour certains, reprenant la communication officielle de la firme [en] pour certains donc, Google Edition c’est 3 millions de livres sur les 15 millions d’ouvrages numérisés à ce jour par le moteur, issus des catalogues de 35.000 éditeurs et plus de 400 bibliothèques (source). Pour d’autres, dans Google Edition on partirait sur “4.000 éditeurs pour environ 200.000 livres mis en vente. Les éditeurs recevront jusqu’à 52 % du prix de vente.” (source) La vérité est ~~ailleurs~~ probablement à chercher du côté du supplément livres du Los Angeles Times :

Google is working with all of the big six major publishing houses — Random House, Penguin, HarperCollins, Hachette Book Group (sic), Simon and Schuster and Macmillan — and thousands of smaller publishers to offer more than 250,000 in-print books for sale. Google eBooks will also launch with about 2.7 million public-domain books in its store, which can be accessed for free.

Voilà. 2,7 millions d’ouvrages du domaine public + 250.000 ouvrages sous droits = pas loin de 3 millions d’ouvrages, sur les 15 millions que Google dit avoir numérisé, et dans lesquels figurent au moins 60% d’œuvres orphelines qui ne seraient donc pas, pour l’instant et en attendant que la justice se prononce sur la dernière version du règlement Google, qui ne seraient donc pas dans l’offre de lancement de Google Edition.

La question des droits (et des ayants-droit).

Problème épineux et consubstantiel de Google Books (cf les différents procès et la mise sous coupe réglée du règlement afférent). Avant de lancer Google Edition, Google s’est aussi efforcé de faire bonne figure auprès des ayants-droit :

“meilleure accessibilité des contenus légaux depuis son moteur. (…) Une modification de l’algorithme de Google afin de faire remonter systématiquement les contenus identifiés comme légaux ne serait pas à exclure.”
nettoyage de l’auto-complétion (pour éviter les suggestions du type “Houellebecq… BitTorrent”)
“répondre en 24 heures aux demandes de retrait de contenus litigieux de la part d’ayants-droit”
“fermer les vannes d’AdSense aux sites pirates”

La question des DRM, des formats et des concurrents

On a beaucoup dit (et écrit) que la caractéristique de Google Edition serait l’absence de DRM. Faux [en]. Il y aura bien des DRM. Reste à savoir s’ils seront limités aux œuvres sous droits ou s’ils seront étendus aux œuvres orphelines. Cette question constituera un des points à surveiller tout particulièrement. Le modèle de l’allocation proposé par Google permettant en effet partiellement d’évacuer la question des DRM castrateurs, question certes sensible pour les ayants-droit et les éditeurs mais aussi et surtout facteur ô combien bloquant pour le décollage du marché.
La plupart des ouvrages disponibles sur Google Edition seront – c’était annoncé et cela reste une bonne nouvelle – au format open-source ePub. J’ai bien dit la plupart.
Ben… [en] des concurrents y’en a plein : Amazon, Apple, Amazon, Apple, Amazon, Apple. Peut-être aussi Barnes&Noble (plus gros libraire américain).

La question des (petits) libraires (indépendants)

Ben oui. Dans ce monde un peu fou de la librairie (et pas que dans celui-là d’ailleurs), le même Google qui était hier le grand méchant ogre est aujourd’hui en passe de devenir la planche de salut de la librairie indépendante [en]. Google leur fournirait les briques et le mortier (“brick and mortar”) nécessaires à la construction de leur librairie numérique. À moins qu’il ne s’agisse du goudron et des plumes nécessaires à son enterrement de première classe. Mais du coup, le grand méchant ennemi de la librairie indépendante reste Amazon et Google s’offre une relative virginité ainsi qu’une main d’œuvre qualifiée qui fera diligence pour aider le même Google à vendre… ses livres. Ou comment créer à moindre frais une chaîne de libraires franchisés Google (rappelons pour mémoire qu’il y autant de libraires indépendants en France que sur tout le territoire américain, et si la nouvelle est accueillie avec enthousiasme par l’alliance des libraires indépendants américains, l’enthousiasme risque d’être moins spontané du côté du Syndicat de la Librairie Française… )

With access to over three million titles in the Google system, a variety of e-book formats, and compatibility with most of the e-reading devices out there, independent bookstores have a powerful platform available to them. Without having to concentrate on the technical details of selling e-books, indies can focus on their “bread-and-butter” services like curation and personal book recommendations. (source)

More than 200 independent bookstores nationwide will be able to sell Google eBooks. (LATimes)

Créer une armée de libraires “Powered by Google”. (TechCrunch)

La question des supports de lecture

C’est là où Google Edition s’inscrit en rupture du modèle dominant avec sa stratégie de l’allocation. Mais on pourra aussi lire les ouvrages achetés sur Google Edition sur à peu près tou(te)s les tablettes/smartphones/e-readers/iPad (via une application en cours de développement)… à l’exception notable du Kindle d’Amazon :-)

La question du nuage (comme support de lecture)

Les ouvrages de Google Edition sont (et resteront pour la plupart d’entre eux) dans les nuages du cloud computing. Or on apprend que Google lancerait demain (mardi 7 décembre) son système d’exploitation Chrome OS, permettant d’équiper d’ici Noël les premiers Netbooks tournant sous Chrome OS, le même Chrome OS étant la première version à supporter le Chrome Web Store et son magasin d’application sur le même modèle qu’Apple (apprend-on ici). Donc ? Donc en plus des tablettes, smartphones, PC et e-books, Google se réserve aussi son Netbook comme potentiel support de lecture, et comme fournisseur d’applications pour sa chaîne de libraires franchisés. [maj : Google a bien lancé [en] le premier prototype de portable avec Chrome OS)

La question du partage du gâteau

Houlala. Va falloir s’accrocher (voir par ici les “pricing options”, [en]) Plusieurs options donc. Les librairies indépendantes franchisées. Le modèle d’agence (c’est l’éditeur et non le libraire qui fixe le prix). On sait que, pour les ouvrages sous droits et uniquement ceux-là :

* l’éditeur touchera jusqu’à 52% du prix si l’ouvrage est vendu “sur” Google Edition (jusqu’à 45% s’il est vendu par un détaillant – ou un libraire partenaire)

Less than 10 percent of Google’s publishing partners asked for an agency deal, but they represent over half of the best-sellers in the store, the company said, and they get 70 percent of the sale price. (source)

Rappelons au passage que depuis le règlement Google (et même si celui-ci n’est toujours pas définitivement validé par la justice américaine), et concernant les œuvres orphelines, si les ayants-droit sont connus ils peuvent fixer le prix de vente, mais pour l’immense majorité des œuvres sans ayants-droit connus, et sauf accord particulier (comme dans le cas d’Hachette), c’est Google et lui seul qui fixera et modifiera comme il l’entend son prix (dans une fourchette de 12 tranches de prix comprises entre 1,99 dollars et 29,99 dollars)

La question du partage du gâteau (encore). Je fais et refais, depuis 2009, le pari avec mes étudiants que Google mettra en place sur Google Edition un équivalent du modèle AdWords permettant de rémunérer les auteurs non pas uniquement “au pourcentage des ventes” mais aussi – et peut-être surtout – “à la consultation”. D’autres (analyste chez Forrester [en]) ne sont pas loin de me suivre et font l’hypothèse de la création d’un “ad-supported publishing model” dans lequel Google vendra des liens sponsorisés (= proposera des campagnes AdWords) sur le contenu des ouvrages :

Where Dickens’s, “It was the best of times, it was the worst of times,” could end up sponsored by a Google AdWords campaign that reads, “Is your day feeling like the worst of times? Try our new sports drink to get your afternoon back on track.

Et le même d’ajouter :

First, books are the only medium left not significantly sponsored by advertising. From the Android Angry Birds game app to Pandora music streams to Hulu.com to the venerable NYT.com, advertising is essential to the success of nearly all media—analog and digital. The only reason book advertising has not happened is that the economics of distributing books have required that people pay for them—in a way they have never paid for the newspaper, magazines, or even music, where a majority of listening has always been radio-based.” (…) “the economics of publishing are swiftly moving away from an analog production model. (I blogged about this to much ado last month), which means that soon, we will no longer need to force the entire cost of a book on the buyer of the book, but instead can extract value from the reader of the book, in direct proportion to the value they get from it. In other words, the more pages they read (the more value they get), the more ads they see and the more value the publisher and author receive.

La question des oeuvres orphelines

Le réglement Google (settlement) n’ayant toujours pas été définitivement validé, reste la question de savoir si les oeuvres orphelines dont les ayants-droit ne sont pas connus figureront ou non dans le pack de départ de Google Edition. L’AFP et Letemps.ch semblent penser que non.
J’incline à penser que oui, parce que primo, bien malin celui qui réussira à les y dénicher, que deuxio, la “chaîne du livre sous droits” va avoir d’autres soucis immédiats à gérer en terme de positionnement et de choix stratégiques, et que tertio, le contrat avec Hachette risque de faire tâche d’huile et qu’une fois que la tâche sera suffisamment grande, Google pourra alors ouvrir en grand le robinet des oeuvres orphelines, sans grande crainte de représailles ou de procès.

J’allais oublier : la machine bizarroïde qui vous imprime et vous relie un livre de 300 pages en 5 minutes arrive en Europe [en]. Elle est déjà présente dans 53 bibliothèques et librairies des États-Unis. Je vous ai déjà dit que Google était partenaire de l’Espresso Book Machine ?

Moralité : Google Edition est en fait une librairie. Google Print était en fait une bibliothèque. Ne reste plus qu’à attendre le lancement de Google Library qui sera en fait une maison d’édition. Je verrai bien ça pour dans deux ans ;-)

Sources utilisées pour la rédaction de ce billet (dans le désordre). Les ** signalent les articles particulièrement intéressants et/ou synthétiques (de mon point de vue) :

Google veut se refaire une image auprès des ayants-droits
Google eBooks propose 3 millions de livres numériques pour son lancement
Adobe announces adoption of ebook DRM by Google
Google eBooks is live: just in case Amazon, B&N, and Apple aren’t enough
Radio-Canada La revue du web – 6 décembre 2010
**Will Google eBooks Save Indie Booksellers?
Discover more than 3 million Google eBooks from your choice of booksellers and devices
** Google launches its eBooks store
Google’s New Bookstore Cracks Open the E-book Market
** The Ultimate Effect Of Google E-Books: A New Ad-Supported Model For Books
Google pourrait lancer Chrome OS mardi
Google nous invite pour une annonce Chrome
Google prêt à lancer le Nexus S
Google eBooks, la librairie en ligne est ouverte aux États-Unis
** Google Books overview
Google livres programme partenaires
** Google Editions : diviser pour mieux régner
First Espresso Book Machine in Continental Europe
–

Publié initialement sur le blog Affordance sous le titre Google édition : books.google.com/ebooks

Crédits photos flickr sous licence Creative Commons Visualist Images ; digitalnoise ; Stuck in Customs

La politique, le sexe et Dieu dans Google Books

Mary C Joyce — Sun, 09 Jan 2011 15:00:15 +0000

Ce billet de Mary C Joyce a d’abord été publié sur Meta Activism Project, et repris sur OWNI.eu.

La semaine dernière, Google a lancé un puissant outil de visualisation des tendances culturelles. Modestement nommé Books Ngram Viewer, il vous permet de chercher la fréquence de n’importe quel mot dans les 5,2 millions de livres que comporte la base de données Google Books, depuis les années 1800.
La semaine dernière, le site Read Write Web a publié un article [en] présentant dix fascinants graphs de mots, en utilisant cette application. En voici trois exemples de plus.

Guerre et Paix

Le premier graphique montre la fréquences des mots guerre, paix et démocratie depuis 1800. Sans surprise, les plus grand pics d’occurrence pour le mot guerre ont lieu durant la Première et la Seconde Guerre mondiale.
Chaque fois que de nombreux écrits sont consacrés à la guerre, une petite quantité parlent de paix, légèrement plus lors de la Première Guerre mondiale que pendant la Seconde. Il est intéressant de constater la façon dont les écrits à propos de la démocratie entraîne la production d’écrits sur la guerre et la paix durant ces grands conflits, avec la fréquence la plus importante durant la Seconde Guerre mondiale. Pourquoi un tel constat ? A mon avis, ce sont ces livres relevant de la catégorie : “Pourquoi nous nous battons ?”, qui réaffirment les valeurs culturelles des pays anglophones pour essayer de motiver les populations à se battre respectivement contre le fascisme et le communisme.

Gay, queer et homosexuel

La base de donnée révèle les tendances culturelles, incluant les changements dans la façon de percevoir les personnes GLTB. Au début du 20ème siècle, “queer” est lentement devenu péjoratif. Le terme gay a alors commencé a être attribué à des personnes qui n’étaient pas engagées dans une relation hétéro, y compris des femmes hétérosexuelles aux mœurs légères.

Dans les années 40 et 50, ces termes ont été de moins en moins utilisés, tandis que le mot homosexualité gagnait du terrain. La médicalisation de l’identité LGBT a été renforcée par la publication du premier Manuel diagnostique et statistique des troubles mentaux (DSM) publié par le National Institute of Mental Health [en] en 1952, dans lequel l’homosexualité est considérée comme maladie.

Cette tendance se poursuit au début des années 80 quand les mouvements pour les droits des gay ont commencé à apparaître, et a connu un élan fort à la fin de cette décennie, en grande partie à cause de la crises du sida.
Depuis, le terme gay est monté en flèche dans les usages, alors que l’utilisation du terme homosexuel est de plus en plus faible. Queer, dans une moindre mesure, a également fait l’objet d’une réappropriation.

Et Dieu dans tout ça ?

Le dernier graphique que je souhaite vous présenter est celui montrant la très forte baisse de la présence du mot Dieu dans les livres anglais, qui peut être assimilée au déclin de la religiosité. Loin d’être un constat récent, selon cette mesure la religion est en déclin dans les pays anglophones depuis le milieu du 19ème siècle, diminuant durant la révolution industrielle, pour atteindre son niveau actuel autour des années vingt. Même les récentes périodes de conservatisme social dans les années 1950 et de libéralisme social des années 1960 ne sont que des soubresauts dans un contexte de déclin général des religions dans cette partie du monde. Alors que le conservatisme religieux semble de plus en plus important, nous devrions être conscients, du moins aux États-Unis, que c’est une vogue dans une société fondamentalement laïque.

–

Ce billet de Mary C Joyce a d’abord été publié sur Meta Activism Project, et repris sur OWNI.eu.

Illustration FlickR CC another.point.in.time

Des « Robins des Bois » libèrent les livres de Google Books

Lionel Maurel (Calimaq) — Wed, 13 Oct 2010 10:27:16 +0000

Hier, sous le billet que j’avais consacré cette semaine aux livres du domaine public dans Google Books, un internaute nommé Pablo Iriarte a laissé un très intéressant commentaire, qui m’incite à revenir sur cette question dans un nouveau billet.

Visiblement, les éditeurs ne sont pas les seuls à essayer de récupérer des ouvrages scannés par Google pour les réutiliser à leurs propres fins. Des utilisateurs d’Internet Archive auraient procédé à des téléchargements massifs (900 000 livres !) pour les charger dans Internet Archive, afin qu’ils puissent être débarrassés des restrictions d’usage imposées par Google et regagner ainsi pleinement le domaine public.

Un procédé très astucieux

Ces Robins des Bois exploiteraient une faille des conditions d’utilisation de Google Books. Celles-ci interdisent en effet d’extraire du contenu de Google Books en procédant à des « requêtes automatisées » (type aspiration de base de données), mais rien n’interdit à une myriade d’individus de venir télécharger quelques ouvrages pour les déposer dans Internet Archive. Google n’a pas la possibilité de les attaquer, pas plus certainement qu’il ne peut agir contre Internet Archive, dans la mesure où le site ne fait qu’héberger des contenus chargés par ces usagers.

Extraits des travaux de Charles Darwin publié par Archive.org

J’avais déjà eu vent de telles pratiques au détour d’un billet de mars dernier écrit par Peter Hirtle sur LibraryLaw Blog. Il s’interrogeait à propos de ces agissements : « One has to wonder about the utility of well-meaning efforts such as those of the Internet Archive to capture and store copies of the Google scans« . En cherchant bien dans les forums d’Internet Archive, on trouve effectivement des discussions relatives à des chargement de livres du domaine public extraits de Google Books (voyez cet échange du 29 juillet 2010).

Un watermark contesté

Ailleurs, on apprend également que des utilisateurs d’Internet Archive font disparaître le watermark « Numérisé par Google » que la firme appose au bas de toutes pages des ouvrages de sa bibliothèque numérique », car ils considèrent qu’une telle marque n’a aucune valeur juridique, lorsqu’elle est apposée sur un ouvrage du domaine public.

This would be illegal on Google’s part since no one can copyright or restrict the text part of a public domain item [...] we can and should remove their watermarks, since once again this is after all public domain stuff. The founding fathers of the United States would turn-over in their graves is the actually saw what the political scum in this country have done to the copyright laws. Protection was never meant to be for all eternity or for some parasitic mega-corporate mass-media corporations.

Une fois « libérés » dans Internet Archive, les livres sont placés sous le statut « Public Domain » qui permet tout type de réutilisation, y compris à des fins commerciales.

Finalement, à la lumière de cet exemple, comme de celui que j’avais repéré mercredi, on se rend compte que les restrictions que Google tente d’imposer pour verrouiller son contenu sont peut-être beaucoup plus fragiles qu’on ne pourrait penser. Et ce qui va également dans ce sens, c’est que malgré ces extractions massives, Google n’a pas réagi pour l’instant.

Merci à Pablo d’avoir attiré mon attention sur ce point. Je copie ici in extenso son commentaire qui vous apportera des précisions supplémentaires :

J’ai réalisé il y a quelques semaines que plus de 900 000 livres avaient été extraits à partir de Google Book Search et archivés sur Internet Archive. Ce « détournement » des documents du domaine public, scannés par Google à partir des fonds des bibliothèques m’a bien plu car c’est un joli cas d’arroseur arrosé… le même « fair use » évoqué par Google peu alors être utilisé par un autre organisme comme l’internet archive pour se justifier.

Malgré le fait que les PDFs ne sont pas diffusés par l’archive (il y a toujours un lien sur la version de Google qui pourrait compenser l’abus) le full text est bel et bien proposé dans différents formats au téléchargement et à la consultation en ligne via son propre système.

Selon la courte explication donné par Internet Archive sur cette page :

« Digitized books from many different libraries from the Google Book Search program. These digital files have been downloaded from the Google site and uploaded to the Internet Archive by users. While these books may be old enough to be in the public domain, but there is no guarantee by anyone of their legal status. These books have been made text searchable as a finding aid and downloading refers to Google’s site. Please refer to Google’s site for any rights issues or restrictions. »

Ils ont trouvé la parade qui va dans le même sens que celui montré dans ce billet : si les documents ont été extraits par les utilisateurs, cela exclue l’extraction par des moyens automatiques tant redoutée par Google. Cela me paraît très intéressant car, au final, si les utilisateurs se mettent à télécharger en masse les PDF de Google des œuvres du domaine publique, à faire tourner l’OCR dessus et rediffuser sa propre version en texte brut rien ne pourrait les empêcher.

En regardant de près les 900 000 documents on voit très vite que c’est toujours le même utilisateur qui a fait le boulot, ce qui est encore plus surprenant ! Mais tout s’explique quand on lit son code d’utilisateur : « TPB » (les pirates sont encore parmi-nous, hip-hip !)

J’ai tenté de chercher des explications ou un semblant de partenariat du côté de Google ou ailleurs et je n’ai rien trouvé pour le moment, jusqu’à la parution de votre billet qui ajoute une nouvelle lumière et un trou inattendu pour lequel ces documents peuvent retourner dans le domaine public. Le plus drôle de l’histoire est que maintenant il y a des livres pour lesquels la version européenne de Google Books ne donne que des extraits mais qu’on peut télécharger complètement via Internet Archive car ils ont exploité le texte intégral fourni par la version américaine du moteur, par exemple cette version des travaux de Charles Darwin publié en 1896, qui dépasse la date fatidique de 1870 pour nous, pauvres européens.

Je me réjouis de voir la réaction de Google (si réaction il y en a…) mais je doute qu’ils tentent quelque chose contre ce détournement car ils attaqueraient le principe fondateur du fair-use qui équivaudrait à se tirer une balle dans le pied. Et finalement ce ne sont que 900’000 livres…

>> Article publié initialement sur S.I.Lex

>> Illustration FlickR CC : Jameson42

Quelle filière industrielle pour la numérisation du patrimoine ?

Christian Fauré — Thu, 01 Jul 2010 16:11:27 +0000

Le contexte de la consultation sur le Grand Emprunt

La cacophonie et la mécompéhension autour du Grand Emprunt, et plus précisément sur le volet numérisation, font qu’on est actuellement dans une situation de crise, au sens propre du terme : quelque chose va se décider.

Au départ, c’étaient 150 millions qui devaient être alloués aux institutions pour qu’elles puissent poursuivre et accélérer les projets de numérisation ; au final ce ne sont plus que des montants de prêts (donc remboursables avec intérêts) pour favoriser la mise en place d’une filière industrielle du numérique, basée sur des partenariats publics/privés.

On sait que l’actualité de la crise économique de ces derniers mois a certainement beaucoup favorisé la formulation très libérale de la consultation publique (le développement du « machin numérique ») lancée par le secrétariat de la Prospective et du Développement de l’économie numérique. De plus, dans le cadre d’une période d’austérité et de restrictions budgétaires importantes dans les dépenses de l’État, le Grand Emprunt devient un dossier beaucoup particulièrement épineux pour le gouvernement : difficile de dire « on fait les valises et on rentre » après avoir fait de la relance par l’innovation un axe important de la stratégie française.

Deux tentations s’opposent donc entre celle du ministère de la Culture et celle du ministère des Finances : le premier veut continuer à croire à la nécessité d’une politique culturelle tandis que le second tente de radicaliser les choix qui devront être faits sur la base exclusive du principe de rentabilité. Il n’y a donc plus de consensus au sein même du gouvernement sur l’avenir du Grand Emprunt, et les différentes institutions qui doivent participer à la solution (BnF, bibliothèques municipales, INA, IRCAM, Cinémathèque, Cité des Sciences, archives, musées, etc.) ne comprennent plus la règle du jeu, qui semble par ailleurs changer chaque jour en ce moment.

La vision qui est présentée ici est une tentative de réponse à la consultation publique sur le volet numérique. Elle a l’ambition de sortir par le haut des apories dans lesquelles la question de la numérisation du patrimoine dans le cadre du grand emprunt se retrouve aujourd’hui.

La publicité est-elle la solution ?

L’activité industrielle autour de la numérisation de contenus culturels et patrimoniaux est l’activité de numérisation qui est aujourd’hui la moins rentable si on la compare aux archives, cadastres et autres documents administratifs (littérature grise). D’autre part, on sait que Google a beaucoup investi sur cette activité avec sa plate-forme Google Books dont on commence à peine à entrevoir l’ampleur. Quel industriel voudrait, dans ces conditions, prendre le risque d’investir sur un secteur d’activité à faible potentiel rémunérateur tout en ayant la machine de guerre de Google en embuscade ? Soyons clairs : personne. Il faut donc poser le problème différemment.

Commençons pour cela par évacuer toutes les fausses bonnes idées que l’on peut entendre sur le modèle d’affaire qui pourrait rendre cette filière numérique rentable. Pour cela il faut d’abord savoir que la numérisation d’un ouvrage n’est, en moyenne, rentabilisée qu’au bout de vingt ans, uniquement en ce basant sur le service de reproduction que propose la BnF. C’est une moyenne car, bien évidemment, certains ouvrages ne font l’objet d’aucune demande de reproduction. Quand se pose la question de savoir comment ce seuil peut être abaissé ne serait-ce que sur dix années, la réponse que j’entends systématiquement est : la publicité.

La publicité est généralement le joker que l’on avance quand on est à court d’idées. Et c’est assurément le modèle d’affaire le plus simple à proposer : il me manque 100 millions ? Qu’à cela ne tienne, la pub fera le reste. Comment et sur quelles bases ? La réponse est généralement plus évasive. Faut-il monter un mécanisme et une régie publicitaire en propre ? Faut-il s’appuyer sur les solutions clés en mains proposées par Google ? Cette dernière réponse serait pour le moins ironique puisque Google aurait une part importante du bénéfice publicitaire sans avoir investi dans la numérisation. Faire sans Google, c’est à l’inverse prendre le risque de se retrouver dans le collimateur d’un industriel du web qui s’y connaît et qui a les moyens de ses ambitions.

On préférera donc essayer de composer avec Google plutôt que de le concurrencer sur son propre terrain en faisant « Cocorico ! ». Les arguments basés sur la valorisation via un modèle d’affaire fondé sur la publicité ne tiennent pas la route, encore moins quand l’on sait que la valeur publicitaire sur le web, comme l’avait écrit Tim O’Reilly dès 2007, tend à se diluer très fortement. C’est la raison pour laquelle Google doit indexer toujours plus de contenus, nativement numériques ou à numériser, pour amortir la baisse tendancielle de la valeur unitaire et nominale de la publicité.

Que vaut le numérique ?

Retour à la case départ : comment valoriser la numérisation du patrimoine ? Songeons-y un instant, si l’on se donne tant de mal pour imaginer un modèle d’affaire viable pour une filière industrielle de numérisation, c’est peut-être parce que le numérique, de manière tendancielle, ne vaut rien. Le numérique a un coût, surtout lorsqu’on doit numériser, mais, une fois l’investissement réalisé, financièrement et en tant que tel, il ne vaut plus rien. Soyons plus précis : un fichier numérique ne vaut rien. Et c’est bien la raison pour laquelle le monde de l’édition freine des quatre fers lorsqu’il s’agit de faire circuler un fichier numérique existant (même pour en donner une copie pour archive à une institution, la plupart refusent). Un fichier numérique en circulation, c’est de la nitroglycérine pour celui qui en attend une source de revenu.

Acceptons donc cette thèse, qui est aussi une hypothèse de travail, que le fichier numérique ne vaut rien. Et vérifions cette proposition :

pour les institutions, c’est généralement le service de reproduction qui est la principale source de revenu, c’est-à-dire le retour à l’impression papier.
pour les plates-formes de diffusion de contenus numériques, on sait bien que ce n’est pas le fichier numérique que l’on paye mais un écosystème technologique (format de fichiers propriétaires, logiciels verrouillés, périphériques spécifiques, fonctionnalités d’achat rapide brevetées, etc.)
pour d’autres initiatives plus confidentielles mais notables (par exemple PublieNet), c’est la qualité d’une présence sur le web et la sensibilité de la communauté des lecteurs/clients qui fait la différence : entre l’éditeur numérique et les lecteurs/acheteurs, il y a un crédit et une confiance.

La valeur d’un fichier numérique a donc besoin d’un service autre que la simple diffusion pour pouvoir avoir une valeur financière.

Le service de reproduction doit devenir le premier industriel d’impression à la demande

Loin d’enterrer les poussiéreux services de reproduction, il faut les muscler. Ces services, qui aujourd’hui nous semblent d’un autre âge, doivent se doter d’un service d’impression à la demande digne des autres acteurs leaders sur ce créneau. L’économie d’échelle qu’ils peuvent avoir, qui plus est sur la base d’oeuvres particulièrement attrayantes ne peut qu’être profitable. Cette re-fondation peut ramener dix ans, au lieu des vingt actuels, le délai d’amortissement d’une numérisation.

La chose n’est pas gagnée d’avance pour autant : il faut une plate-forme web en self-service qui demande du travail, il faudra être très rapide et avoir une logistique aussi affûtée que celle d’Amazon, a minima sur le territoire français. L’objectif est clairement de livrer au domicile d’un client l’impression d’un ouvrage relié de qualité en moins de 48 heures, et à peine plus s’il y a une demande d’impression personnalisée.

Sur cette voie, il va y avoir des frictions avec les plate-formes de distribution des éditeurs de la chaîne du livre. Mais pas dans l’immédiat puisque les modèles sont actuellement différents (pas d’impression à la demande, pas de self-service et pas de livraison au particulier), mais si la plate-forme d’impression à la demande est un succès, elle pourra proposer ses services différenciants aux éditeurs (traditionnels, mais aussi numériques) : par exemple proposer des « templates » de formats variés et personnalisables. N’oublions pas que près des trois quarts du coût d’un livre représentent les coûts d’impression, de distribution, de diffusion et de points de vente.

Le cas Gallica

Comment doit s'articuler le lien entre la BnF et Gallica ?

La filière de numérisation peut donc trouver un premier modèle économique dans l’impression. Pour où l’on voit que la valorisation de la numérisation se fait d’abord sur… l’impression. Mais se pose toujours la question de la diffusion sous format numérique et en ligne. Premier constat : c’est la vocation de Gallica. On comprendra dès lors que la filière numérique qui est appelée de ses vœux par le gouvernement aura du mal à accepter de faire le travail de numérisation pour que le fruit de son investissement se retrouve diffusé en ligne gratuitement sur Gallica.

Gallica devra être repensée, et pour commencer il faut que la bibliothèque numérique quitte le giron exclusif de la BnF. Cela veut dire que Gallica aura le statut d’un établissement public-privé dans lequel l’ensemble de plate-forme technologique sera possédée et gérée par le consortium privé investissant dans la filière numérique.

Statutairement, la BnF doit garder le contrôle et la maîtrise de la politique culturelle que porte Gallica. Mais cette maîtrise ne sera plus exclusive, elle devra être partagée car si cette bibliothèque en ligne se nourrit des ouvrages numérisés, et il faudra bien un modus vivendi et des droits de quotas pour chacun : la BnF peut vouloir numériser en premier des ouvrages qui ne sont pas jugés commercialement opportun pour le partenaire privé. Un système de quotas, qui devra évoluer dans le temps, doit être mise en place. Par exemple, sur les cinq premières années, sur dix ouvrages numérisés, le partenaire privé pourra en choisir cinq, tout comme la BnF. Par la suite, les résultats de la filière numérique serviront de référent pour faire évoluer les quotas : si la filière est sur le chemin de la rentabilité le ratio peut s’infléchir en faveur de la BnF, ou l’inverse si la rentabilité tarde à se faire jour. L’essentiel est de ne pas figer la formule et d’y introduire une variable dépendant de la rentabilité, sans quoi tout l’édifice s’effondre.

Cette réorganisation du statut juridique de Gallica devra nécessairement initier une refonte de la politique de gestion des droits des oeuvres qui n’est pas opérationnelle en l’état actuel (une licence sur mesure que ne peuvent pas exploiter les robots, et que d’ailleurs personne ne comprend vraiment).

Bien évidemment, d’un point de vue technologique, la plate-forme de service d’impression évoquée précédemment sera nativement intégrée à Gallica, on peut même forcer le trait en disant que Gallica ne sera qu’un module de la plate-forme d’impression.

Les métadonnées : clés de voûte de la nouvelle filière industrielle

Aussi étonnant que cela puisse paraître, dans cette consultation publique sur « le développement de l’économie numérique », il n’y est jamais question de métadonnées. Le mot n’y apparaît même pas une seule fois le long des trente-neuf pages du document. C’est proprement sidérant. Et ça l’est d’autant plus que la politique industrielle qui va être mise en place devra placer la question des métadonnées au cœur de tout le dispositif industriel.

Si l’impression à la demande était le volet diffusion papier et Gallica le volet diffusion numérique, ces deux activités passent à une niveau supérieur grâce à la politique sur les métadonnées. La richesse numérique de notre patrimoine est directement proportionnelle aux métadonnées qui le décrivent. Le trésor des institutions patrimoniales réside aussi et surtout dans leurs catalogues et leurs thesauri : tout comme on ne peut gérer un patrimoine physique sans métadonnées la question devient encore plus urgente quand l’oeuvre est numérisée : une politique numérique sans politique des métadonnées n’est qu’une chimère, un délire, une schwarmerei comme disait Kant.

Plutôt que de me répéter, je vous renvoie ici à ma note sur Les enjeux d’une bibliothèque sur le web où il était question des orages sémantiques mais aussi d’étendre la pratique de gestion d’un catalogue d’oeuvres à une pratique de gestion d’un catalogue des discussions et des polémiques relatives à ces oeuvres. Ainsi, fort de ce nouveau positionnement, et sur la base de sa nouvelle plate-forme technologique, la nouvelle filière industrielle du numérique pourra proposer des outils avancés à l’Éducation nationale pour doter l’enseignement d’un outil d’annotation et de contribution qui dépasse la vision simpliste et fade des « like », et donne enfin le pouvoir aux enseignants d’enseigner.

Chaque plate-forme de diffusion des oeuvres numériques rencontre très vite sa limite dans les faiblesses de sa politique des métadonnées. Le cas d’iTunes est représentatif : c’est une panique monstre pour faire des découvertes dans le catalogue, c’est pourtant paradoxal quand on sait que, même sur iTunes, les métadonnées (titre, auteur, artistes, jaquette, etc.) sont la vraie valeur des fichiers numériques (Cf. Quand les métadonnées ont plus de valeur que les données).

Pour les oeuvres qui sont du ressort de la BnF, le travail de bascule de l’ensemble des catalogues au format du web sémantique avec leur diffusion sur le web a déjà été initié : cette démarche est la clé de voûte, à la fois technologique et économique, de tout le système. Pour les oeuvres audios et vidéos (des oeuvres de flux), les outils d’annotation contributives (avec des métadonnées BottomUp et TopDown) doivent être développés en complément des catalogues descriptifs existants.

Le catalogage des orages sémantique permet également d’obtenir tout un appareil critique issu des informations collectées via le dispositif des orages sémantiques Si celui-ci est géré par la BnF, on peut réussir à mener une politique industrielle des technologies numérique dont le coeur du dispositif s’appuie, et trouve son crédit, dans la politique culturelle. Une logique économique exclusivement consumériste n’est pas une fatalité, loin s’en faut, car ce qui est brièvement décrit ici est un chemin vers une économie de la contribution financièrement rentable.

On peut donc sortir de l’alternance destructrice entre :

d’un côté une logique libérable de la privatisation adossée à une vision exclusive sur les retours sur investissement à court terme, grâce au dieu de la publicité ;
de l’autre une politique culturelle maintenue sous perfusion publique, mais à perte (la logique de la réserve d’indiens).

Que le Grand Emprunt accouche de quelque chose ou non, nous n’échapperons pas à cette lancinante question : quelle politique industrielle pour les technologies de l’esprit ? La seule réponse crédible passe par le positionnement de la politique culturelle au cœur de l’outil industriel, pas à côté. « Trade follows film » disait le sénateur américain McBride en 1912 : on va peut-être arriver à le comprendre cent ans plus tard en France, notamment pour donner au commerce et à l’économie un autre visage que le consumérisme américain.

Enfin, par pitié, arrêtons de parler systématiquement de e-tourisme dès qu’il est question des territoires. Les territoires sont autre chose que des destinations touristiques, et les régions n’hivernent pas toute l’année pour se réveiller quand les Parisiens et les étrangers prennent leur vacances. Ces modèles d’affaire sur le e-tourisme sont dangereux et méprisants.

—

Billet initialement publié sur le blog de Christian Fauré

Images CC Flickr Troy Holden et ►bEbO

Hathi Trust et le nouveau pouvoir des auteurs

Lionel Maurel (Calimaq) — Tue, 15 Jun 2010 10:11:08 +0000

Hathi Trust, c’est le nom d’un consortium de grandes bibliothèques universitaires américaines qui se sont rassemblées pour créer un gigantesque entrepôt de conservation des livres numérisés. Hébergé par l’Université du Michigan et développé à l’origine par les établissements du Midwest américain, le projet s’est peu à peu étendu à de très grandes bibliothèques comme celles de l’Université de Californie ou de Virginie, et tout récemment à la prestigieuse New York Public Library.

Abritant à ce jour près de 5,6 millions d’ouvrages, Hathi Trust annonce l’objectif d’atteindre les 18 millions de volumes en 2012, ce qui le placerait certainement à une hauteur comparable à Google Books. Les liens entre les deux projets sont d’ailleurs étroits, puisque bon nombre des bibliothèques formant le Hathi Trust sont des partenaires de Google pour la numérisation de leurs fonds (liste ici).

Google a en effet accepté que plusieurs de ses bibliothèques partenaires aux Etats-Unis puissent se rassembler et verser dans un entrepôt commun les copies numériques qu’il leur remettait. Les objectifs du Hathi Trust sont différents de ceux de Google, dans le mesure où il vise essentiellement à la préservation pérenne des données et c’est certainement cette complémentarité des approches qui a conduit Google à accepter cette concession.

Hathi Trust: la seconde bibliothèque numérique du monde

Hathi Trust forme donc à ce jour la seconde bibliothèque numérique au monde après Google Books et comme lui, elle présente la particularité de comporter à la fois des ouvrages du domaine public et des ouvrages encore protégés. En effet, certains membres du trust (Michigan en premier lieu, mais aussi l’université de Virginie) ont accepté que Google numérise dans leurs fonds tous les livres, sans distinguer selon qu’ils étaient protégés ou libre de droits.

Comme Google Books, Hathi Trust ne donne pas accès à ces livres protégés, ou alors seulement de manière restreinte (voyez ici). Néanmoins, le Trust s’est lancé dans des opérations d’envergure visant à contacter les auteurs des ouvrages pour rechercher leur permission pour diffuser les livres protégés, et c’est là une grande différence par rapport à Google Books qui constitue peut-être l’un des aspects les plus intéressants de cette initiative.

Vers la libération des droits

Tandis que Google cherche à présent à régulariser son coup de force originel par le biais d’un règlement judiciaire global avec les titulaires de droits, Hathi Trust développe une stratégie de contact direct avec les auteurs pour obtenir la libération des droits.

Cette démarche est expliquée de manière détaillée dans cet article signé par Mélissa Levine, responsable des questions de copyright à l’Université du Michigan : Opening Up Content in Hathi Trust : Using HathiTrust Permission Agreements to Make Author’s Work Available.

Hathi Trust a ainsi mis en place une licence qui est présentée aux auteurs pour obtenir une autorisation non-exclusive de diffuser un ouvrage présent dans l’entrepôt, ainsi que d’en faire des reprints et des copies papier pour un usage non commercial. Melissa Levine explique que cette stratégie s’avère payante dans la mesure où bon nombre d’auteurs, notamment dans le milieu universitaire, recherchent avant tout une visibilité pour leur écrit, que leur assure la qualité des métadonnées de la base bibliographique du Hathi Trust (pas vraiment le fort en revanche de Google…).

Pour que ces licences soient valides, il est nécessaire que l’auteur soit bien titulaire des droits sur l’ouvrage. Cela peut être complexe à établir, mais il s’avère que c’est souvent le cas, même quand l’ouvrage a été édité. En effet aux Etats-Unis (mais c’est la même chose en France), les droits retournent à l’auteur lorsqu’un ouvrage est épuisé. Même pour des œuvres encore commercialisées, il est fréquent lorsque les livres ont été publiés avant le milieu des années 90 que les cessions consenties aux éditeurs n’incluent pas explicitement les droits numériques, ce qui en laisse la jouissance aux auteurs.

Les auteurs au centre du dispositif

Ce qu’explique cet article, c’est que les auteurs sont des interlocuteurs bien plus intéressants que les éditeurs pour déployer une stratégie de libération des droits : leurs objectifs sont plus facilement convergents avec ceux des bibliothèques et ils disposent des droits pour délivrer valablement des autorisations, ce qui n’est pas toujours le cas des éditeurs. Nous ne sommes pas loin alors de ce qui est pratiqué dans le cadre de l’Open Access et des Archives ouvertes, où bibliothèques et auteurs travaillent souvent ensemble pour ménager un accès libre aux articles scientifiques en jouant sur des cessions des droits maîtrisées aux éditeurs.

L’article explique que ce modèle de libération peut en outre tout à fait s’articuler avec un modèle économique viable. En effet, l’accès ouvert aux ouvrages sur la bibliothèque numérique du Hathi Trust n’est pas incompatible avec des formes d’exploitation commerciale, notamment par le biais de l’impression à la demande. L’université du Michigan par exemple s’assure que la libération des droits lui permettra d’imprimer les ouvrages à la demande grâce à l’Expresso Book Machine ou en partenariat avec Amazon. Ces activités sont possibles dans la mesure où Google a accepté de revoir ses contrats avec certaines bibliothèques partenaires (Michigan, Virginie) pour leur permettre de développer des activités commerciales lorsqu’elles ne concurrencent pas directement celles mises en place par Google.

L’intérêt de l’article de Melissa Levine, c’est de démontrer que les bibliothèques sont en un sens particulièrement bien placées pour développer ces stratégies de contact direct avec les auteurs (je traduis) :

Aussi bien comme individus que comme institutions, les bibliothécaires et les bibliothèques entretiennent souvent des relations professionnelles et personnelles étroites avec des universitaires en poste ou à la retraite. Parfois, ces contacts personnels avec des membres de l’Université peuvent conduire à des avancées significatives, comme par exemple l’obtention d’une permission pour ouvrir l’accès à tout le contenu qu’ils ont la faculté de libérer. L’expérience du Hathi Trust confirme que le cycle débute avec l’auteur et retourne à présent vers lui, parce qu’il peut être encouragé à exercer les droits qu’il possède pour devenir l’acteur d’un système global, de distribution, de préservation et d’accès à ses œuvres comme cela n’a jamais été le cas auparavant.

On parle beaucoup du rôle de médiation que les bibliothécaires peuvent jouer vis-à-vis des contenus numériques, mais il existe aussi un versant juridique à cette médiation que les bibliothèques peuvent assumer pour tisser un nouveau type de relations avec les auteurs.

J’en ai toujours eu la conviction.

En 2008, j’ai écrit un livre (Bibliothèques numériques : le défi du droit d’auteur), dans lequel j’étudiais les stratégies possibles de libération des droits et exposais l’idée que les bibliothèques avaient justement tout intérêt à jouer la carte des auteurs pour favoriser la numérisation d’ouvrages protégés. J’expliquais également que la meilleure « cible documentaire » pour conduire ce genre d’opérations étaient les œuvres épuisées. On m’a souvent opposé que cette démarche était trop coûteuse en temps et en énergie et qu’il valait mieux, soit s’en tenir aux œuvres du domaine public, soit se tourner vers d’autres partenaires comme les éditeurs ou les sociétés de gestion collective.

L’exemple du Hathi Trust montre que la stratégie qui consiste à redonnner aux auteurs le pouvoir qui est le leur par le biais de la libération des droits peut s’avérer payante.

Redonner le pouvoir aux auteurs

En France, la stratégie de libération des droits sur les livres est très peu développée, mais pas complètement absente. Les Presses Universitaires de Lyon diffusent par exemple sur leur site un certain nombre d’ouvrages épuisés, avec l’accord des auteurs, certains ayant même accepté une licence Creative Commons pour la version numérique de leur œuvre. Le portail de numérisation rétrospective Persée, outre les revues qui constituent le cœur de son activité, comporte à présent un volet monographies, donnant accès aux publications d’institutions scientifiques. Une démarche de numérisation des épuisées à plus grande échelle est en cours en Belgique, à la Digithèque de l’Université Libre de Bruxelles, avec des difficultés particulières pour certains types de corpus, mais aussi de belles réalisations menées en partenariat avec les auteurs ou leurs héritiers.

Ces expériences sont intéressantes, mais on pourrait imaginer des opérations de bien plus grande envergure : une vaste campagne de mécénat des droits lancée en direction des auteurs au niveau national.

A la fin de mon livre, je proposais dix pistes pour favoriser la numérisation d’ouvrages protégées, dont celle de créer au niveau national un Registre de la numérisation et de lancer un grand appel en direction des auteurs pour qu’ils viennent manifester leur souhait que leurs ouvrages soient numérisés et intégrés à la bibliothèque numérique.

Et je terminai par cette citation de Napoléon qui m’est chère :

Une bataille perdue est une bataille que l’on croit perdue.

Billet originellement publié sur Scinfolex.

A lire également : le billet de Christian Fauré sur les enjeux d’une bibliothèque sur le web.

Crédit Photo CC Flickr: Moriza, Pfala, Troyholden.

L’empire bulldozer

Alix Delarge — Fri, 28 May 2010 10:19:04 +0000

Suite et fin de l’article “Google: Cours camarade, le vieux monde est derrière toi!”

La stratégie du bulldozer: où Google passe, rien ne repousse

Sur tous les grands enjeux du moment, l’offensive de Google se heurte aux résistances de l’ancien monde. La numérisation de l’ensemble du patrimoine papier mondial fait flipper les tenants de la culture à l’ancienne et surtout les auteurs ou leurs ayants droit, qui craignent à juste titre d’être dépecés. Les atteintes à la vie privée se multiplient [ND: À titre purement informatif, on se référera notamment à la phrase culte de Mark Zuckerberg (Facebook) : « La vie privée est une notion dépassée. »], comme on l’a vu avec les bugs à l’occasion du lancement de Google Buzz. Des voix s’élèvent pour critiquer la sacro-sainte pertinence du référencement : « Si Google ne fait que de la pertinence, il est obligé de perdre de l’argent », nous dit Renaud Chareyre.

Quant au dossier chinois, on a vu comment, dès qu’on touche à la géopolitique, Google tergiverse. D’abord en acceptant la censure de Pékin sous couvert du « Un peu de Google vaut mieux que pas de Google du tout », puis en jouant les effarouchés dès lors que des boîtes gmail ont été piratées par des affidés du régime. Enfin, les États commencent à en avoir assez de se faire dépouiller en assistant sans moufter au racket de l’évasion fiscale : « C’est comme si tu construisais une autoroute et que des types venaient y installer un péage pour leur compte », éclaire Distinguin.

Et de fait, sur tous ces sujets, on ne compte plus les procès auxquels est confrontée la firme californienne. En France, en Italie, en Grande-Bretagne, en Allemagne (où l’on réfléchit à rendre hors la loi Google Analytics, l’outil de décryptage hyper précis du trafic sur Internet), au Canada, et même aux États-Unis, où les auteurs ont compris que le premier accord signé avec Google était une grosse arnaque. Le roi ne vacille pas encore sur son trône. Mais le système de régulation tel qu’on le connaît n’a pas dit son dernier mot. Avec un peu de retard à l’allumage, la riposte n’en est qu’à ses prémices, et il s’en faudrait de peu pour qu’une action coordonnée des États ou une jurisprudence assassine n’entaille la carapace du Golgoth. Voilà qui oblige Google à jouer serré : un récent article du Monde Magazine qualifiait David Drummond, le directeur juridique de la firme, de « ministre des Affaires étrangères ». Alors à quand Google à l’ONU, avec siège permanent au Conseil de sécurité ?

D’autant que la « googlelisation » du monde trouve partout des points d’appui solides. En France, le think tank Renaissance numérique proclame dans sa déclaration de principes : « Beaucoup de piliers de notre société démocratique sont à adapter dans ce monde qui change. » Sous couvert de respect de la « citoyenneté numérique », c’est tout un pan des us et coutumes de l’ancien monde que les lobbyistes cherchent à mettre à bas. D’ailleurs, l’un des vice-présidents de cette très sérieuse association n’est autre qu’Olivier Esper, directeur des relations institutionnelles de Google France. De même, il existe des voix autorisées pour réfuter tout manichéisme sur le dossier de la numérisation du patrimoine littéraire.

Bruno Racine, réélu à la tête de la Bibliothèque nationale de France, et qui vient de publier Google et le nouveau monde, affirmait dans un entretien au Point : « La numérisation n’est pas simplement la conversion du livre en numérique, c’est aussi une révolution des usages avec une circulation de la pensée sous de nouvelles formes. » Racine veut tenir compte de la réalité plutôt que de perdre son temps en vaines incantations. Sans doute vise-t-il ici son éminent prédécesseur, Jean-Noël Jeanneney, farouchement opposé à l’offensive de Google et partisan, lui, des projets français et européens de bibliothèque numérique Europeana et Gallica.

Enfin, les utilisateurs de Google demeurent ses meilleurs défenseurs. Certes, les règles se sont complexifiées et opacifiées, l’info est cloisonnée. Certes, avec Google Buzz, « Google s’est fait attraper sur sa propre réputation de service public », note Distinguin. Mais, ajoute-t-il, « Google est entré à l’âge adulte. Il est là pour durer ». Et l’on peut toujours compter sur ce vieux briscard d’Éric Schmidt pour rassurer son monde :

« Si nos utilisateurs ne sont pas contents, c’est la mort de l’entreprise. Donc nous sommes obligés de trouver des solutions. »

Jusqu’à quand ?

Les deux ennemis de Google

L’adage est archiconnu : plus vous êtes puissant, plus vous accumulez les ennemis. Le premier d’entre eux se nomme Apple. En s’attaquant au marché de la téléphonie mobile, Google s’est attiré les foudres du Godfather Steve Jobs. Ce dernier aurait déclaré à des collaborateurs : « Ne vous méprenez pas : ils veulent clairement tuer l’iPhone. Mais nous ne les laisserons pas faire. » Avant d’ajouter, acerbe : « Don’t be evil, c’est de la merde. »

La baston annoncée entre les deux géants semble en effet inévitable depuis que Google a décidé de marcher sur les plates-bandes de la Pomme. En riposte, Apple menace de retirer la barre de recherche automatique Google de son navigateur Safari. De plus, Apple vient d’être désigné par le magazine Fortune comme la « société la plus admirée au monde », loin devant son dauphin… Google ! « Il est quasi inévitable que Google et Apple se mettent sur la gueule », prophétise Distinguin. Qui nous livre le fond de sa pensée : « Google répond à tous les besoins, sauf à celui du divertissement. Même YouTube, propriété de Google, est dans une logique de “search” plus que de média. Apple fabrique des produits charnels que l’on peut toucher, presque caresser. Et payants ! » La guerre s’annonce épique. D’un côté le Don’t be evil de Google, de l’autre la transgression d’Apple, le retour du refoulé. Un réveil du clivage droite/gauche ? L’image ne manque pas de piquant.

Mais le seul, le vrai, le pire ennemi de Google, n’est autre que… Google lui-même.

Un empire meurt quand il dépense trop de temps, d’énergie et d’argent à sa propre conservation. Même quand il s’agit de soft power. D’où l’obligation de fuite en avant perpétuelle de Page et Brin, pour qui tout retour en arrière ou même toute stagnation serait fatale. Les risques d’auto-étouffement et d’épuisement guettent. Le poids de la bureaucratie et des procédures oblige Google à embaucher toujours plus, à innover plus, investir plus, chasser le temps perdu avec acharnement.

Parvenu à l’âge adulte, le Léviathan Google peut finir par ressembler à son pire cauchemar : une structure boursouflée, lente à réagir, lacérée par une myriade de petits adversaires mobiles et voraces. Tel l’Empire romain, il faut sans cesse calmer les menaces de sécession à l’autre bout du vaste territoire, où des populations assimilées à la va-vite fomentent la rébellion. « David devenu Goliath, son destin est de décevoir », glisse Distinguin.

Jeff Jarvis lui-même, thuriféraire du génial modèle Google, n’hésite pas à formuler les risques qu’encourrait un Google victime de son succès :

« Aussi difficile à imaginer que ce soit, Google pourrait échouer. Il pourrait grossir de manière trop désordonnée pour fonctionner efficacement (…). Google pourrait imposer, en se développant, une domination telle que les régulateurs publics tenteraient de l’arrêter (…) Google pourrait perdre notre confiance dès lors qu’il utiliserait à tort des données personnelles qu’il possède à notre sujet… »

Oui, tout empire est mortel. Même l’empire du bien.

—

Article publié dans le magazine Usbek & Rica, disponible à partir du 3 juin

Crédit Photo CC Flickr: Missha.