La-DIGITALE - Laboratoire des idées numériques

Pour la recherche en arts et pratiques du texte, de l’image, de la scène et de l’écran

À quoi servent les éditions numériques ?

Je partirai d’une question un peu générale. Pourquoi continuer à éditer aujourd’hui des textes ? Quel sens donner à cette obstination collective ? La communauté interprétative des littéraires philologues avance habituellement deux réponses : afin de perpétuer leur patrimonialisation, de conserver et transmettre leur mémoire d’une part ; afin de leur permettre d’être lus et relus, de perpétuer leur présence active dans notre culture d’autre part. Il n’échappe pas que ces deux réponses sont contradictoires.  La publication – la mise au jour et à jour – a  à avoir avec l’actualisation, tandis que la patrimonialisation a à avoir avec la séparation.

 

1. Patrimonialiser

Comme l’ont analysé en effet les historiens de l’art, l’idée de patrimoine est liée à celle de perte avérée ou de disparition potentielle d’un objet valorisé, porteur d’une identité culturelle. Elle entraîne alors un dispositif très particulier de conservation : le musée ne conserve pas en l’état l’objet de culture, mais à part (Déotte, 1986, Arpin, 2000, Desvallées-Mairesse, 2010). Ou comme le disait Malraux dans La Voie royale (1930, p. 398), « Les musées sont pour moi des lieux où les œuvre du passé, devenues mythes, dorment […], en attendant que les artistes les rappellent à une existence réelle. »

D’où une interrogation tout à fait décisive, avant même de poser les questions de support et de méthode : avons-nous envie ou besoin de patrimonialiser les corpus textuels ? Voulons-nous œuvrer à leur mémoire (en les conservant à part) ou voulons-nous les actualiser (en en réinventant un usage possible) ?

Car, et c’est là l’autre visée venant légitimer les pratiques éditoriales, la publication vise à rencontrer un lectorat.

 

2. Rendre lisible

L’étymologie même nous le rappelle, qui fait de l’editor celui qui rend public, qui fait de la publicité par voie de publication. L’édition restitue au texte une présence et un présent, là où la patrimonialisation participe d’un archivage (du passé comme passé) et d’une séparation. Et l’on retrouve ici les intentions épistémologiques qui président dans nos communautés interprétatives au travail d’édition scientifique :

  • L’édition vise à produire un savoir du texte et un savoir sur le texte (finalité épistémologique : fournir une édition de référence ; compléter un corpus systématique).
  • L’édition vise à produire un discours d’accompagnement, un commentaire (finalité de valorisation : autoriser un texte, le légitimer comme modèle ou référence).
  • Enfin, l’édition vise à donner une actualité à un texte, autrement dit à susciter sa lecture.

Nous nous permettrons d’insister sur ce dernier point, tant il peut sembler évident. Faire qu’un texte trouve, élargit ou renouvelle son lectorat, ouvrir la lettre du texte au plaisir de la lecture en continu, cursive et intégrale, générer un désir du texte, qui soit autant désir d’immersion que de re-création, sont à l’origine même de l’activité d’édition. Ils légitiment à ce titre des opérations complémentaires d’actualisation du texte (modernisation de l’orthographe, de la syntaxe, de la ponctuation… ; travail typographique au service du sens : intervention sur les caractères, les paragraphes, les pages… ; travail sur l’intelligibilité du dispositif global : titulature, tables, index…).

L’intervention éditoriale est donc décisive, qui ajoute un travail sur la forme du texte à tout un travail paratextuel d’encadrement scientifique et idéologique (Noille, 2015) : autrement dit, l’éditeur ne prend pas en charge uniquement le calcul de la relecture, mais aussi celui de la lecture. Et son inventivité porte à la fois sur la mise en forme du texte et sur la mise en forme des éléments co-textuels pertinents à la relecture (variantes, notes, index, présentation, résumés…).

 

3. « Augmenter » la lecture

Où il apparaît que le texte n’est pas un énoncé clos et délimité, mais une pluralité d’énoncés potentiellement exponentielle, des manuscrits aux variantes, des versions originales à la succession des traductions, des scholies aux récritures. A ce titre, l’histoire de la philologie est aussi l’histoire des techniques de spatialisation de la polyphonie textuelle, un art de prendre en charge non pas un texte réduit – réduit à des énoncés auctoriaux stabilisés – mais un texte démultiplié, qui n’en finit pas d’étoiler la page sur l’ensemble des strates de la textualité, qu’elle soit auctoriale ou éditoriale, à destination des lecteurs ou des relecteurs.

Et l’on commence alors à voir ce qui fait problème : la difficulté qu’il y a à manipuler cette masse inflationniste de textes n’est pas épistémologique – car prendre en compte les différents états de la textualité ou des textes atypiques oblige (simplement) à compliquer le geste critique (Charles, 1984). La difficulté est phénoménologique et accessoirement commerciale : comment enserrer une telle masse textuelle dans les limites d’un support imprimé ? L’éditeur typographe se heurte à un certain nombre de difficultés liées à la matérialité du livre :

  • difficulté en termes de longueur, la polyphonie intertextuelle entraînant une inflation et une multiplication des volumes ;
  • difficulté en termes de manipulation, la succession des pages rendant malaisée la collation des variantes et plus encore des versions concurrentes ;
  • difficulté en termes de mise en page, le cadre focal obligeant à une hiérarchie typographique stable des énoncés et ne permettant pas la confrontation sans hiérarchie des variantes, hypotextes, commentaires ou récritures.

Mais par là même, l’on voit également que la difficulté est intellectuelle : comment négocier la lisibilité, comment formater la composition ? L’heure semble venue d’une nouvelle révolution éditoriale, qui voit dans le support numérique le matériau susceptible d’accueillir et de rendre lisible une textualité fondamentalement plurielle.

Ainsi mise en perspective par rapport aux attentes d’une communauté interprétative, celle des philologues, l’édition numérique viendrait rémunérer les défauts du support papier ; elle proposerait une actualisation et une présence possibles pour des textualités que le livre imprimé trahit parce que sous-dimensionné. Ou, ce qui revient au même, elle semble un pas vers le rêve et le besoin – pluri-séculaire – d’un livre augmenté.

 

4. Numériser

L’ennui, c’est qu’une édition numérique n’est pas du tout un livre augmenté.

La numérisation d’un texte peut d’abord fournir une version homothétique, comme on le sait, et restituer (par exemple par composition PDF, Portable Document Format) le feuilleté d’un opus imprimé. L’usage est tenu pour équivalent à celui de l’objet imprimé, soit qu’on utilise l’écran pour faire défiler les pages, soit qu’on les imprime. La limite est bien sûr dans le traitement informatique de la donnée : le texte est converti sur la toile mondiale par un langage de description de page en un stock de pages (et non de mots, de paragraphes, de chapitres…) ouvert à une reconnaissance de caractères automatique et minimale (OCR, Optical Character Recognition).

Mais l’édition numérique peut aller bien au-delà de cette numérisation OCR. Le travail éditorial proprement dit consistera à enrichir la saisie « au kilomètre » de la lettre du texte par trois opérations :

  • l’« annotation sémantique » ou insertion de balises descriptives autour de mots ou de séquences de mots (avec, en amont, une réflexion sur le choix des balises pertinentes) ; la balise fonctionne, comme une étiquette (Lebarbé et Meynard 2011) décrivant une séquence de mots par les attributs objectifs (Leriche, 2006) qu’elle exemplifie ;
  • la répartition en unités numériques ou « ressources » dont l’identité numérique (par exemple l’URL : Localisateur Uniforme de Ressources) est stable et dont la description est opérée par des « métadonnées » ou indications sur le format de la ressource (pour en permettre le catalogage ou référencement) ; en aval, la construction visuelle relève d’une interface graphique qui obéisse aux principes de communication issus du web design ;
  • l’insertion de liens hypertextuels, laquelle permet de mettre en relation dynamique une ressource numérique sur une autre.

L’édition devient ainsi une archive et une knowledge base, dont les données formalisées sont interrogeables et manipulables par les moteurs de recherche. Nous ferons ici un pas de plus et nous dirons alors : l’édition numérique est structurée pour permettre un traitement automatique des textes sur le modèle de la linguistique de corpus (et du T.A.L., le traitement automatique du langage) ; elle n’est pas mise en forme pour être lue ni relue.

 

5. Ne plus lire mais quantifier

Quels sont en effet les usages que visent les opérations décrites ci-dessus, de balisage, de catalogage, d’insertion d’hyperliens ?

Tandis que l’hyperlien, discret dans l’édition numérique, nourrit tout un fantasme du parcours libre et de la sérendipité lectoriale, le travail lourd de marquage systématique (des données et des métadonnées) est là pour répondre à un traitement automatique du corpus (extraction et indexation des données). Historiquement, son élaboration informatique a correspondu aux demandes de la linguistique de corpus, laquelle établit un lien épistémologique fort entre l’interrogeabilité automatique et la constitution de corpus de travail. A ce titre,

  • Un corpus numérisé systématiquement n’est pas une édition intégrale, il est un stock organisé d’unités d’information.
  • De même, un corpus numérique accessible n’est pas un texte lisible, il est un texte dont les protocoles de numérisation permettent l’interopérabilité entre les systèmes informatiques et l’indexation automatique.
  • De même encore, un texte numérisé interrogeable n’est pas un texte offert au feuilletage et à la confrontation des passages ; il est un réseau de données extractables sur lequel peut opérer un moteur de recherche.

Ce qui veut dire que l’édition numérique est conçue pour être « traitée » par des machines (et interprétée par des linguistes), et non pas pour être lue par des humains (et relue par des critiques). Ou, pour reprendre le titre d’un article déjà ancien (Clement, Steger, Unsworth, Uszkalo, 2008), « How Not to Read a Million Books », comment faire avec un million ou plutôt désormais avec trente millions de livres numérisés, qui ne sont pas à lire parce qu’ils ne sont pas faits pour la lecture, autrement dit, parce qu’ils ne sont pas lisibles, parce qu’ils sont devenus des données extractables ?

En effet, la description numérique de la forme et du contenu des séquences textuelles a pour enjeu de transformer l’énoncé en information, ou plus exactement chaque énoncé en une ou plusieurs informations qui lui sont corrélées (l’ensemble des métadonnées qu’il exemplifie).

Autrement dit, le texte numérisé n’est plus un textus, un tissu tramé de mots et de sens, il est devenu data, collection de données autonomes. Ce n’est pas un texte qui défile, mais une base de données qui est mise en scène d’un plan séquence à un autre. La numérisation d’un texte est le protocole par lequel la textualité est transformée en cellules d’information.

 

6. Lecture distante ou Not Reading ?

L’imprimé me donnait un texte à lire, le numérique me donne une base de données à interroger. Ce qui se dessine ici, c’est une nouvelle forme de travail critique, qui consiste 1. à constituer des corpus par des requêtes automatiques (à sérialiser des énoncés par sujet, titre, forme, genre, période, pays…) ; et 2. à interpréter les séries à la lumière des connaissances historiques et littéraires que les recensions manuelles ont jusqu’ici effectuées. Le traitement à distance de corpus massifs permet ainsi de renouveler l’histoire littéraire et de faire émerger un autre story-telling – quantitatif et statistique. Tout cela non seulement sans avoir lu, mais précisément parce qu’on n’a pas lu, parce qu’on a su faire autre chose.

Comme on le sait, ce programme de travail a brillamment été théorisé par Franco Moretti (2008 et 2013). Il a pour nom « distant reading » (opération métaphoriquement dite de « lecture » opérant « à distance » du texte) et offre à la recherche contemporaine sur les corpus de textes une des perspectives les plus stimulantes et les plus imaginatives. Mais il convient peut-être de resituer sa portée : en valorisant les données organisées et archivées par l’édition numérique, il continue par d’autres moyens à muséaliser un corpus, en le séparant de ses pratiques d’actualisation (pratiques de lecture cursive et intégrale) et en le prenant comme objet culturel global à documenter et à cataloguer. La numérisation enferme le texte dans le musée computationnel (silot) où sont stockées les big data : la distant reading en opère un décryptage de masse, quantitatif et statistique.

Dès lors, est-il besoin d’ajouter que l’historiographie assistée par ordinateur n’est évidemment pas une distant reading, ni même une machine reading, une « lecture » algorithmique (Hayles, 2012) ? Elle est d’abord une not reading, une non-lecture (Mueller, 2007), en ce qu’elle forclôt tous les usages de la lecture, amatrice ou professionnelle, empirique ou méthodique ; ou encore, en ce qu’elle démode toute pratique du texte comme survivance corporatiste (et perte de temps).

Bref, lire moins et quantifier plus (Moretti, 2000), voilà le nouveau dogme des historiens de la culture.

 

7. Relire, malgré tout

Nous pouvons à présent reprendre les fils de notre investigation.

Il apparaît tout d’abord que les travaux d’histoire culturelle par interrogation automatique des corpus répondent à une pragmatique muséale et à des problématiques qui lui sont subordonnées, de conservation et d’exploitation d’un fonds. Numériser des données et documenter (interroger, interpréter) la base participent d’un processus global de patrimonialisation des textes sous forme de données : mais la patrimonialisation passe ici par l’éviction de la textualité. Car les machines ne lisent pas, au sens littéral, pas plus que ne sont destinées à être lues, interprétées ou actualisées les données informées mises en scène dans les plans séquences de nos écrans. Nous sommes donc ici aux antipodes du « livre augmenté », en train de prendre la mesure de nouveaux territoires, ceux des subjectivités computationnelles et de l’accès algorithmique aux données de l’information, à l’intérieur d’un horizon culturel également bouleversé, où les textes littéraires ont cessé d’être actifs pour relever de stratégies de sauvegarde et d’encapsulage numérique, de catalogage et de muséalisation, de modèles statistiques, graphiques et prédictifs.

Et pourquoi pas en effet, s’il est avéré que la lecture n’a plus d’actualité dans le champ de nos pratiques ? si notre époque et nos disciplines de savoir ont mieux à faire que de lire ? si l’invention du futur passe par la renégociation de notre rapport aux discours ?… Sauf que rien n’est clair au pays des signes et que décider du sens de notre histoire culturelle relève au mieux d’un pari idéologique, au pire d’une visée politique. Et plutôt que d’envisager les évolutions sous l’angle du changement de paradigme, il est sans doute possible et assurément plus efficace de plaider pour des styles divers de pensée du texte qui coexistent et parfois se recoupent.

En effet, les investigations automatiques opérées sur les corpus massifs numérisés ne sont pas sans intérêt, loin de là : elles documentent notre connaissance de l’histoire culturelle et peuvent éventuellement nourrir des applications et des transferts dans le domaine de la création. Mais l’intérêt qu’il y a à savoir faire sens avec les mots des autres et à savoir mettre en formes nos propres mots est tout aussi urgent, tant au point de vue épistémologique que politique et artistique.

Littéraires, nous sommes des lecteurs et relecteurs ; et nous construisons un savoir sur et de nos lectures, un savoir-lire (Noille, 2015) qui est absolument identitaire dans notre discipline – dans le sens où elle a partie liée avec l’idée d’une lecture productive, d’une activité poïétique d’actualisation et de re-création des textes (Schuerewegen 2012). Est-ce une raison suffisante pour nous cantonner à l’arrière-garde des révolutions technologiques ?

En tant qu’éditeurs de textes, nous sommes les premiers (les seuls, peut-être) à avoir éprouvé les insuffisances de l’imprimé, à les avoir recensées, analysées, théorisées : et nous avons méthodiquement rêvé d’un livre augmenté.

Alors nous y voilà. Posons pour une fois les bonnes questions, nous, les communautés philologues, aux informaticiens et linguistes qui règlent notre accès à la numérisation.

Pourquoi ne serait-il pas possible d’ajouter d’autres protocoles et d’inventer d’autres interfaces qui augmentent la potentialité de lecture (« human reading » !) et permettent une pratique lectoriale enrichie de ces mêmes corpus ? Pourquoi nos disciplines fondées sur la relecture professionnelle, sur l’arpentage du territoire textuel en vue d’en approfondir le paysage ou d’ne appréhender la cartographie, pourquoi nos disciplines ne seraient-elles pas à leur tour prescriptives à l’égard des communautés informaticiennes afin qu’ensemble elles élaborent un ou des modèles pour penser une donnée informatique complexe, le film du texte ?

 

8. Pour un autre scénario de l'édition numérique (la table de montage)

Une première réponse possible est de distinguer d’une part le travail de numérisation enrichie en mode texte, soumis aux protocoles de balisage et d’indexation mis en place par et pour le traitement automatique des corpus ; et d’autre part le travail de mise en scène des données disponibles dans un ou plusieurs scénarios de visite et de consultation, grâce à l’élaboration d’interfaces graphiques innovantes ainsi que des outils de conversion en mode image (générateurs de pdf ou de documents à imprimer). Le texte serait toujours converti en data, mais les data elles-mêmes pourraient être configurées en unités lisibles de texte, en quelque sorte ; et le cursus lectorial serait mimé dans la navigation hypertextuelle. C’est à peu près l’état où nous en sommes aujourd’hui dans l’édition numérique.

Une réponse complémentaire pourrait alors être apportée, qui enrichisse les interfaces graphiques par des scénarios de coopération intuitifs et productifs.

En superposant en effet les outils de consultation dynamique et les outils de montage filmique, l’édition numérique gagnerait à garantir une lisibilité augmentée des textes en proposant à la consultation la possibilité de manipuler la textualité selon cinq modes opératoires fondamentaux dans les opérations de relecture critique, dont les deux premiers sont bien évidemment consubstantiels au dispositif de l’imprimé, mais dont les suivants en rémunèrent précisément les faiblesses :

1. un mode de structuration séquentielle de la donnée textuelle : où l’élément minimal ne serait pas le mot, l’expression ou le format étiquetés selon des catégories grammaticales ou stylistiques (titre, paragraphe, chapitre, citation…), mais une extension syntagmatique prédéfinie, la séquence filmique, dont l’étiquette sémantique serait d’être une unité de lecture à combiner avec d’autres ;

2. un mode de défilement ordonné des séquences, avec possibilité de retours, de reprises, ou de sauts (confer la visualisation d’un film…) ;

3. un mode de consultation en parallèle de différentes séquences textuelles avec convocation possibles de leurs co-textes amont et aval : autrement dit, une consultation en parallèle de différents films textuels (parallélisation des traductions, des variantes, des commentaires, etc.) ;

4. un mode de sélection des séquences et de mise en réseau ; avec possibilité de variation sur le nombre des séquences et sur l’ordre du rail (confer les outils de montage des séquences vidéo) ;

5. un mode de récriture des séquence et d’écriture de séquences supplémentaires susceptibles d’être interpolées n’importe où dans le rail du film textuel (insertion de commentaires : confer les outils d’annotation et de surlignage sur tablettes).

Le livre augmenté libérerait la table de travail en la désencombrant des multiples ouvrages et papiers qui composent l’environnement réel du critique. Il proposerait sur le bureau virtuel de l’ordinateur des outils pour mener une lecture fortement interventionniste. Il ferait du lecteur le monteur réalisateur de son parcours d’appropriation et de la relecture-écriture le modèle actif de l’exploration numérique.

C’est ainsi que les données numériques fondamentales dans l’édition de corpus seraient à tisser et non pas uniquement à interroger ; à composer et non pas uniquement à empiler ; à actualiser et non pas uniquement à archiver ; à investir et non pas uniquement à encapsuler ; ou encore : à lire et non pas uniquement à compter !

 

BIBLIOGRAPHIE

  • Arpin R. et al., Notre Patrimoine, un présent du passé, Québec, 2000
  • Berra, A., « Faire des humanités numériques », dans P. Mounier dir., Read/Write Book 2. Une introduction aux humanités numériques, OpenEdition, 2012, URL : http://books.openedition.org/oep/238?lang=fr
  • Charles, M., L’Arbre et la source, Paris, Seuil, 1984
  • Clement, T.,  Steger, S., Unsworth, J. et Uszkalo K., « How Not to Read a Million Books », oct. 2008, URL : http://people.brandeis.edu/~unsworth/hownot2read.html
  • Déotte, J.-L., « Suspendre – Oublier », 50, Rue de Varenne n° 2, 1986, p. 29-36
  • Desvallées A., Mairesse F., dir., Concepts clés de muséologie, Paris, Armand Colin, 2010
  • Hayles, K., How We Think: Digital Media and Contemporary Technogenesis, University of Chicago Press, 2012
  • Leriche, F., « Quel balisage pour les corpus épistolaires numériques ? De l’annotation traditionnelle du « document » à une analyse générique et pragmaticienne » dans Rastier, F. et Ballabriga, M., Corpus en lettres et sciences sociales, Paris, Texto, 2006, URL : http://www.revue-texto.net/Parutions/Livres-E/Albi-2006/Sommaire.html
  • Malraux A., La Voie royale, Paris, Grasset, 1930
  • Meynard, C., Lebarbé, T., « Au croisement des lettres, de la linguistique et de l’informatique : Les Manuscrits de Stendhal en ligne », Fabula-LhT, n° 8, « Le partage des disciplines », mai 2011, URL : http://www.fabula.org/lht/8/lebarbe.html
  • Moretti, F., « Conjectures on World Literature », New Left Review, 1, 2000.
  • Moretti, F., Graphes, cartes et arbres: Modèles abstraits pour une autre histoire de la littérature (2005), Paris, Les Prairies ordinaires, 2008
  • Moretti, F., Distant Reading, New York, Verso, 2013
  • Mueller, M. « Notes towards a user manual of MONK », URL : https://apps.lis.uiuc.edu/wiki/display/MONK/Notes+towards+a+user+manual+..., 2007
  • Noille, C., « La forme du texte : rhétorique et/ou interprétation », Fabula-LhT, n° 14, « Pourquoi l'interprétation ? », février 2015, UR : http://www.fabula.org/lht/14/noille.html
  • Schuerewegen, F., « Brèves remarques sur Franco Moretti », Poétique 169, févr. 2012, p. 85-96

 

Publié le sam, 01/02/2016 - 16:03 par Christine Noille

Un billet de Christine Noille

Derniers billets

Droit et humanités numériques. L'exemple de l'UMR Litt&Arts
Publié le 3 Avril 2016 par Élisabeth Greslou
À quoi servent les éditions numériques ?
Publié le 2 Janvier 2016 par Christine Noille
Quelle place donner aux humanités digitales à l’Université ?
Publié le 29 Septembre 2015 par Raphaël Baroni