Les humanités numériques, une science “plug and play” ?

Le 3 avril 2012 je prononçais la conférence inaugurale des Journées d’étude de l’Institut des Humanités Digitales de Bordeaux. Invité au nom de Deuxième labo et du C@fé des sciences, j’ai choisi de faire un tour d’horizon des humanités numériques et leur rapport à l’outil. Voici le texte et les diapositives de mon intervention (quant à la vidéo, elle est visible sur le site de la WebTV Montaigne).

Typologie

Pour fixer les idées, commençons par une typologie de 4 grands mouvements qui se ressemblent beaucoup au premier abord mais s’avèrent riches de nuances :

  • Digital humanities ou humanités numériques
  • E-science
  • Open science
  • Science 2.0

Plutôt que de donner une définition absolue et définitive de chacun de ces termes, je préfère le travail de la typologie qui consiste à regarder les points communs et les différences entre les concepts qu’ils recouvrent. C’est ce que montre le diagramme ci-dessous :

 

Digital humanities

Commençons par les digital humanities, qui sont le point focal du colloque, et le renouvellement d’une tradition de recherche et de disciplines assez anciennes, qui en profitent pour embrasser des objets d’études nouveaux.

Dans les humanités numériques on peut mettre tout ce qui concerne la numérisation des sources, le travail d’archive, le travail sur des sources anciennes ou contemporaines, toutes ces compétences qui sont au cœur des sciences humaines et sociales. Grâce aux digital humanities on peut numériser et accéder dorénavant à ces sources de façon électronique ce qui offre un meilleur potentiel d’exploitation, de recherche et d’analyse de ces documents. Par ailleurs, une fois ces sources numérisées, on peut s’amuser à construire des bibliothèques virtuelles qui sont les pendants numériques des bibliothèques physiques pour lesquelles vont se poser les questions de constitution d’un corpus, de curation : que mettre dans ces bibliothèques virtuelles, quels choix éditoriaux fait-on ? Ensuite se posent des problèmes techniques de mise à disposition des documents, de feuilletage, de recherche : comment l’utilisateur va-t-il pouvoir rechercher dans cette base documentaire ?

Quelque chose qui est très lié, c’est la question du web sémantique, qui est un peu la nouvelle tendance du web et qui consiste à ne plus considérer le web comme un “sac de mots”. Aujourd’hui, quand vous faites une recherche sur Google, vous faites une recherche sur des mots qui apparaissent dans des pages — des mots qui apparaissent ensemble ou à l’exclusion les uns des autres. Avec le web sémantique, on va pouvoir caractériser, taguer chacun de ces mots pour préciser que Charles de Gaulle et Valéry Giscard d’Estaing ont en commun d’être des hommes, de nationalité française, anciens présidents de la République, etc. On va pouvoir donner plus de valeur et qualifier le langage, ce qui permettra ensuite d’augmenter et de connecter les sources d’information sur le web.

Quand on parle d’humanités numériques on parle aussi de grille informatique, ou de cyberinfrastructure : cela consiste à se doter d’équipements qui permettent d’accéder à des puissances de calcul nouvelles et de mettre en commun des outils de recherche, notamment des outils informatiques, pour augmenter le potentiel d’exploration de corpus et de données. Et puisque l’on parle de données, il y a le mouvement Open data, désormais bien connu, qui consiste à mettre en ligne et à libérer les données utiles à la recherche. C’est un mouvement qui peut se faire d’en haut avec des initiatives comme Etalab, organisant par décret la libération des données publiques détenues par les administrations. A l’inverse, on peut citer comme exemple de dépôt par le bas le dépôt par les chercheurs eux-mêmes, en même temps qu’ils publient un article, du jeu de données qui leur a permis de construire cette recherche.

E-science

L’E-science désignait initialement la science électronique (electronic science), mais devient de plus en plus l’enhanced science, c’est à dire une science augmentée, une science ré-équipée. On y retrouve ces deux concepts de grille informatique et d’Open data mais aussi la question de l’article augmenté. Cette idée consiste à sortir l’article du carcan du PDF et même de l’HTML, qui a déjà permis d’ajouter des images redimensionnables. L’article augmenté va au-delà, par exemple en connectant un article et son jeu de donnée, en rendant l’article sémantique, en le resituant dans son contexte, dans un corpus, en le connectant à des bases documentaires annexes, etc. Par E-science on entend également la question de la formation à distance, la formation électronique, le e-learning. La mode des univers virtuels comme Second Life est un peu passée mais ils ont fait leur preuve pour réunir au même moment et dans un même lieu, même virtuel, une classe ou les participants à un séminaire. Il y a eu de nombreux exemples de formation délivrées via des avatars dans des univers virtuels.

L’E-science c’est aussi la question de la communication en ligne, comment faire travailler des équipes de recherche non plus seulement dans un bâtiment mais dans plusieurs bâtiments, plusieurs villes, plusieurs pays, avec des outils très simple comme Google Docs. Mais aussi des outils plus sophistiqués de suivi de version des documents (versioning), de partage de code source (comme Github) ou d’algorithmes (comme Run my code), etc.. On inclut également dans E-science la question la plus centrale du diagramme ci-dessus : la question de l’accès libre et des archives ouvertes, qui consiste à libérer ce qui est la production principale des travaux de recherche c’est-à-dire articles académiques, afin qu’ils soient accessibles à tous sans conditions et si possible de façon pérenne. Soit en publiant dans des revues qui sont en accès libre (Open Access), soit en déposant soi-même dans des archives ouvertes institutionnelles ou sur sa page personnelle le preprint de ses articles.

Science 2.0

À l’instar du web 2.0, le mouvement de la science 2.0 consiste à rendre la science un peu plus sociable, sociabilisée, voir de l’accélérer avec la présence des chercheurs sur les réseaux sociaux qui vont pouvoir échanger sur leur recherche en cours et suivre l’activité de leurs pairs, un peu à la façon de Facebook : “voici où j’en suis, je vais à tel séminaire, j’ai publié tel article, je suis en train de travailler sur telles données, etc.” On trouve également ce que j’appelle la science contributive, ou crowdsourcing : l’idée de s’appuyer sur des données construites à leur insu ou presque par des professionnels, profanes ou usagers. La science 2.0, c’est aussi la question du peer commentary, le commentaire par les pairs. Vous savez qu’aujourd’hui lorsqu’on l’on publie dans une revue, il y a une double contrainte de qualité scientifique et d’ “intérêt politique”, ou scientifique, ou stratégique qui fait que votre article va être jugé pertinent. Le peer commentary dépasse cette limitation et considère que seule la qualité scientifique compte, charge à la communauté scientifique elle même de laisser des commentaires, des évaluations sur les articles en ligne afin que dans les mois ou les années qui suivent la publication on puisse trier le bon grain de l’ivraie, faire ressortir les aspects de l’article qui étaient les plus pertinents pour l’ensemble de la communauté, etc.

La science 2.0, ce sont aussi les blogs de science, qu’aujourd’hui on a tendance à appeler carnets de recherche pour se dégager du cliché du blog. Un carnet de recherche, c’est finalement un nouveau mode de publication intermédiaire entre le séminaire oral et la publication écrite totalement finalisée. Ici on est dans l’entre deux, pour faciliter la discussion avec les pairs, faciliter le partage et montrer un travail de recherche en train de se faire.

Open science

L’Open science c’est l’idée d’une science à ciel ouvert, une science qui va tenter d’impliquer un peu plus les citoyens et qui va être vue comme un bien commun. Dans l’Open science on va mettre surtout ce qui concerne l’Open data, l’Open access (publications en accès libre et archives ouvertes), les carnets de recherche puisque ce sont un mode de communication ouvert à la discussion de tous, et aussi bien la science participative que la science citoyenne.

Le principe de la science participative est d’impliquer des profanes, des citoyens, des internautes dans le recueil ou l’analyse d’un jeu de données. On peut citer des exemples du coté des sciences de la nature et sciences expérimentales avec des amateurs qui dépouillent des photos satellites de galaxies, ou repèrent autour de chez eux la floraison des arbres et les insectes du jardin. La science citoyenne tourne plutôt autour du principe des stratégies de recherche alternatives : explorer non pas la voie mainstream des OGM mais explorer les marges à la demande de groupement de citoyen, d’ONG, ou de parties prenantes, comme par exemple la voie de l’agro-écologie ou des agricultures biologiques.

Après ce tour d’horizon, zoomons sur quelques concepts-clés et transversaux, à garder en tête pour la durée du colloque.

#numérisation

Google Books a sorti récemment l’outil NGram Viewer qui permet de rechercher dans une partie importante de la base Google Books des mots ou paires de mots, afin d’observer leur fréquence d’apparition dans ce corpus et leur évolution au fil du temps. Côté pile, les chercheurs qui ont proposé cet outil voulaient lancer par là un nouveau mouvement de recherche appelé la culturomics, potentiellement intéressant pour les humanités numériques (études textuelles, sociologie de la culture, histoire des idées…) mais aussi pour tous les scientifiques. Quel géologue ou chimiste n’a pas souhaité suivre la popularité de son objet de recherche au fil du temps ? Côté face, voilà un outil qui s’appuie sur des connaissances en SHS ! Les paléographes savent que la langue évolue et que l’on peut parfois se tromper en cherchant dans un tel corpus. Par exemple, jusqu’en 1800 la lettre “s” était représentée par le “s long” qui ressemble au “f”, donc en cherchant “prefque” comme sur la capture ci-dessus vous verrez qu’elle est la forme dominante et qu’elle sera remplacée par “presque” aux alentours de 1790. Voilà le type de pièges dans lesquels il ne faut pas tomber et où les archivistes et paléographes peuvent apporter de la valeur.

#participation

Un autre mot-clé pour les humanités numériques, c’est la participation dont on a déjà parlé. Vous connaissez peut être le projet PhotosNormandie mené par des historiens professionnels de l’histoire du débarquement et de la Seconde Guerre Mondiale en Normandie, ainsi que des historiens amateurs. Il consiste à créer les descriptions les plus exhaustives, les plus complètes possible de jeux de photographies dans le domaine public (malheureusement des clichés américains et anglo-saxons puisqu’en France ces photos ne sont pas dans le domaine public). Elles sont mises à disposition sur la plateforme Flickr où chacun va y aller de ses indices pour retrouver, comme ci-dessus, une maison du village du Tronquay. Grâce à l’outil Google StreetView, on peut repérer la maison telle qu’elle est aujourd’hui et donc re-documenter cette photographie.

 

 

On peut repérer également des personnages, comme le photographe cerclé de rouge qui est nul autre que Robert Capa derrière son appareil. La photo était connue mais on ne savait pas qui était dessus, jusqu’à ce que ces passionnés recoupent des indices et révèlent son identité.

#sémantique

Qui dit sémantique en SHS aujourd’hui dit Isidore. Vous connaissez peut être ce moteur de recherche ou portail qui agrège tout un ensemble de bases documentaires (collections secondaires, sources primaires…), qui sont moissonnées et vont être mises en relation et augmenté grâce à des anthologies, grâce à des thésaurus. L’objectif est de pouvoir chercher à partir d’une interface unique tout cet ensemble documentaire et filtrer ensuite de façon intelligente les résultats : par période historique, par discipline, par type de source, par type de document, par collection, etc

#interopérabilité

Mon dernier mot-clé est celui de l’intropérabilité : comment créer des outils qui soient utilisables par tous à travers la planète pour favoriser notamment la reproductibilité de la recherche ? Comment mutualiser des outils, essayer de faire des économies d’échelles ? C’est une des missions d’Archéovision, centre de ressources 3D pour l’archéologie dont il est prévu une visite dans le cadre du colloque.

Communauté en ligne

Les humanités numériques ce n’est pas seulement des outils ou des concepts, ce sont aussi des hommes et des femmes qui aiment se retrouver en ligne.

Voici la capture de deux tweets de Cornellius Puschmann qui remarquait que les digital humanities ressemblent beaucoup à un champ où le sens de la communauté est basé sur les liens et la communication qu’on entretient via Twitter et les blogs plutôt que via les citations d’article à article qui sont le mode traditionnel, le plus courant de la reconnaissance par les pairs et de la formation de communauté ou de collège invisible.

La communauté des humanités numériques possède effectivement une très forte activité en ligne. On aime se retrouver en ligne, on aime commenter, on aime discuter via les réseaux sociaux.

Communauté IRL

 

C’est aussi une communauté qui a une présence physique, IRL (in real life), comme en 2010 avec l’événement THATCamp organisé à Paris, et bientôt avec la deuxième édition THATCamp Paris 2012. En mode “non-conférence” (barcamp), les acteurs des humanités numériques sont venus avec leurs questions, leurs solutions et pendant deux journées ils ont pu échanger et animer des ateliers répondant à leurs besoins. Tous étaient participants et pas seulement auditeurs de ces ateliers. L’édition 2012 promet d’être encore plus riche avec 120 participants inscrits et des événements complémentaires avant (BootCamp) et après (booksprint, codesprint) le THATCamp.

En ligne + IRL

Les humanités numériques, c’est donc un mélange de communautés virtuelles et des rencontres réelles, physiques. Le mélange se fait même en temps réel : au moment où se tiennent les Journées d’étude de l’Institut des Humanités Digitales de Bordeaux, des participants connectés répètent les propos (par exemple sur Twitter), les commentent, les enrichissent etc. Ceci participe d’un espace de discussion alternatif plutôt convivial, où se marient réflexion et plaisir. La capture ci-dessous donne une idée du flux Twitter lors d’un colloque de digital humanities (“Research Libraries in the Digital Age: Needs and Opportunities” organisé par l’American Antiquarian Society)

Du fastidieux…

Après avoir passé en revue ces quelques “marqueurs” des humanités numériques, regardons dans le rétroviseur. Souvenez-vous de la recherche d’information, un travail presque archivistique plutôt fastidieux où il fallait écumer des index (souvent papier) à la main, sans trop savoir où chercher, ou alors grâce à une très grande expertise.

 …au ludique

 

Aujourd’hui, grâce à des applications comme Mendeley sur iPad, on peut promener toute sa bibliothèque scientifique avec soi, où qu’on aille. L’interface est propre, l’ergonomie est magnifiquement pensée, cela devient un plaisir de travailler et de lire des articles académiques.

Un manifeste

 

 

Le plaisir, ou au moins l’excitation et la fierté, c’est aussi ce qui a présidé à la naissance du Manifeste des digital humanities. Il commence ainsi : “Nous, acteurs ou observateurs de digital humanities, nous sommes réunis à Paris lors du That Camp 2010…” Un manifeste qui définit et commence à structurer ceux qui se reconnaissent dans les humanités numériques.

Rejoignez-nous !

Enfin, comment être plus heureux qu’en créant de l’emploi quand on est une communauté enthousiaste et qui aime ce qu’elle fait ? “Nous recrutons”, s’exclame le Médialab de SciencesPo, l’air de dire qu’ici se prépare la recherche en sciences humaines et sociales de demain ; que c’est un champ en expansion ; et que l’avenir se construira ensemble et avec des Lego !

 

Plug

Concrètement dans les laboratoires, les humanités numériques font penser à une “foire aux outils”, un ensemble d’applications développées par les uns et par les autres dans lesquelles chacun va pouvoir puiser pour constituer sa trousse à outils personnelle de chercheur. C’est l’étape du plug illustrée ci-dessous par des exemples d’outils de publication, d’analyse, de visualisation de données, d’analyse de corpus, etc.

 

 

Play

Une fois ces outils en main arrive le temps du play : jouer avec les outils pour produire toutes ces choses que l’on voit souvent sur les carnets de recherche de la plateforme Hypotheses.org. Dans l’exemple ci-dessous tiré du blog collectif Polit’bistro, un chercheur en sciences politiques, qui avait sous la main un jeu de données, a produit quelques graphes suivis d’une petite analyse rapide “voici ce que ça m’évoque” afin d’engager la discussion. Un schéma presque ludique, qu’on peut répéter autant de fois qu’on veut : un jeu de données, un outil, on combine les deux et on peut produire facilement des graphes suffisamment parlants pour inciter à la discussion.

Autre exemple, toujours sur la plateforme de blog Hypotheses.org : en décembre 2010, Josquin Debaz (historien et sociologue des sciences à l’EHESS) s’était livré à une petite analyse des liens de citations entre les blogs de la plateforme Hypothèses. Il publie son “graphe de l’Hypothesosphère“, qui donne naissance à une discussion autour de ce thème. Quelques mois plus tard, Pierre Mercklé (sociologue à l’ENS Lyon) a accès à d’autres données, non pas les liens de citations entre les blogs mais les liens de visites des internautes et de navigation des internautes. Il propose alors une autre “cartographie de l’Hyposphère” et tente évidemment de comparer les deux. Quels sont les points communs ? Quelles sont les différences ? Dans cette cascade on retrouve à la fois une partie d’exploration, voire de jeu, et une partie de confrontation et reproduction des analyses : qu’est-ce que j’obtiens un avec autre jeu de données ou le même jeu de données, le même outil ou d’autres outils, etc. ?

 

 

Plug and play ?

Si l’on marie le plug (la foire aux outils) et le play (le plaisir de jouer avec les outils et confronter ses analyses à la volée), on arrive à la notion de science plug and play. En exagérant, ce serait une science branchée sur un interrupteur pour “allumer” ou “éteindre” les idées, grâce à l’enchaînement suivant : 1/ Question ; 2/ Données ; 3/ Outil ; 4 / Réponse. Est-ce ceci les humanités numériques ?

 

Out of the box ou outside the box ?

Dans le schéma de la science plug and play, les outils sont pas loin de constituer des boîtes noires pour ceux qui vont les utiliser. Or une boîte noire peut à la fois enfermer et libérer : les anglo-saxons ont deux expressions qui sont parfois confondues en français,  “out of the box” et “outside the box”. Un logiciel “out of the box” est un outil prêt à l’emploi, qui impose une forme de “pensée packagée” ; alors qu’une pensée “outside the box” sort de son carcan et tente de s’affranchir des schémas préconçus.

 

Build it and they will come

Un autre risque guette la profusion des outils : en même temps que ces outils sont relativement faciles à mettre en œuvre, ils sont fragiles. C’est presque une contradiction entre le sentiment que tout devient possible et l’incertitude intrinsèque aux nouveaux outils, à l’instar du grand mythe “construisez et lancez l’outils — build it — et vous aurez des utilisateurs en masse — and they will come“. Une des institutions britanniques qui s’intéresse à la diffusion de l’information en milieu académique a produit un rapport posant précisément cette question : “If you build it, will they come? How researchers perceive and use web 2.0“. Leur conclusion est  que ce n’est pas aussi simple, il ne suffit pas de lancer un outil ou un service web pour qu’automatiquement les chercheurs ou le public l’adoptent.

 

Empire ou rébellion ?

La troisième note discordante des humanités numériques, c’est sa position fluctuante entre la marge et le mainstream. Reprenons la capture du site web du Médialab de SciencesPo où était annoncé un recrutement :

L’utilisation d’une photo de Lego est une blague potache qui renvoie à un monument de la culture geek. Or les vrais geeks auront remarqué que  ces personnages de Star Wars en Lego déclarent : “The Empire wants you!” Or l’Empire dans Star Wars ce sont les méchants, et la rébellion ce sont les gentils. N’est-ce pas ironique que quand le Médialab recrute, il le fasse en se mettant à la place des méchants de Star Wars ? Et au-delà du clin d’œil, il y a de quoi être interpellé : ce recrutement se fait dans le cadre du projet Equipex DIME SHS, financé par les Investissements d’avenir (grand emprunt). difficile de faire plus institutionnalisé… Alors, les humanités numériques, Empire ou rébellion ?

vocabulari.se

J’aimerais maintenant partager avec vous un retour d’expérience sur un outil que nous avons construit chez Deuxième labo : vocabulari.se. Le principe et l’objectif de cet outil étaient de construire un réseau social des objets de recherche. Non pas des personnes, mais des objets de recherche, partant du principe que chacun ici travaille sur son objet de recherche — le calcul distribué, le réchauffement climatique, le  développement durable, les littératies digitales… Grâce à vocabulari.se, vous pouvez le mot ou les deux mots qui forment votre objet de recherche pour d’un coup convoquer les autres objets de recherche auxquels il se rattache. Ainsi, nous mettons à jour son réseau, ce dans quoi il s’inscrit, et tout son poids politique. Un des effets de ce dévoilement pourra être de renvoyer le chercheur à son vocabulaire, de donner un autre relief aux termes qu’il emploie lorsqu’il écrit un article, rédige un abstract ou soumet une demande de financement — et finalement de lui révéler la dimension politique des objets de recherche, au sens de Bruno Latour.

Pré-étude

 

Une fois l’objectif fixé, comment s’y prend-on ? On commence par défricher le terrain lors d’une pré-étude que nous avons confiée à des étudiants en informatique de Lyon dans le cadre d’une UE de veille technologique. Nous leur avons demandé de rechercher parmi les API (des interfaces machine/machine permettant de puiser dans des sources de données hétérogènes) lesquelles donnent accès à l’information scientifique et technique, c’est-à-dire aux bases de données d’articles. Et lesquelles de ces API sont réutilisables, ont des licences qui donnent un accès plutôt souple, etcLa conclusion à laquelle ils sont arrivés, qui était un petit peu notre intuition, c’est que d’une part il y a des archives ouvertes où les articles sont réutilisables, dont l’accès est ouvert, comme HAL qui possède une API, mais malheureusement extrêmement pauvres quantitativement. (À ce propos : on pourrait s’attendre à ce que toute la production des chercheurs français payés par nos impôts soit disponible sur HAL, mais non seulement ce n’est pas le cas, et en plus cela semble une utopie hors de notre portée aujourd’hui…) D’autre part il y a des éditeurs scientifiques, Elsevier et al., qui sont assis sur leurs bases de données d’articles et qui en ferment pratiquement l’accès, et qui restent organisés en silos de spécialités, ce qui rend une interrogation pluridisciplinaire compliquée. À côté de cela existent les outils du web 2.0 comme CiteULike ou Mendeley, qui permettent aux chercheurs d’organiser en ligne leur bibliographie. En mettant en commun les bibliothèques de chacun des utilisateurs, ils donnent une très bonne image de ce que sont les publications de recherche aujourd’hui, pratiquement toutes disciplines et tous pays confondus.

Déclencheur

Arrivés à ce stade, nous avions choisi l’API de Mendeley comme source de références bibliographiques. Et voilà justement que Mendeley organise en 2011 un concours (une “battle”) de la meilleure application utilisant leur API, avec 10.000 US$ de prix à la clé. Tout de suite cela nous a mis le pied à l’étrier ! À la lumière de cette expérience, j’incite évidemment tous les producteurs d’API donnant accès à des données, notamment en France, à lancer ce type d’initiative qui fonctionne assez bien, pour justement inciter des communautés de développeurs ou de geeks à s’intéresser à une API et proposer de nouveaux services afférents.

 Recette

La recette de vocabulari.se telle qu’on l’avait en tête était assez simple : d’abord nous nous appuyons sur des corpus issu de la science contributive (issus de la mise en commun des informations de nombreux internautes et utilisateurs) avec Wikipédia et Mendeley. Puis nous ajoutons quelques algorithmes d’analyse de grand corpus, c’est-à-dire de cette masse de données. Enfin nous ajoutons l’ingrédient du design de l’information, qui concerne la façon de présenter le résultat, ce qu’on retourne à l’utilisateur de vocabulari.se, l’expérience qu’on veut lui faire vivre.

 Design

Au titre du design de l’information, nous avons notamment fourni un important travail pour imaginer comment se présenterait la page de résultats de vocabulari.se. Finalement, l’utilisateur entre un ou deux mots-clés de recherche et on lui retourne trois colonnes de mots, qui sont des mots liés au mot-clé ou objet de recherche. La première colonne correspond aux mots inattendus (“unexpected”), classés ainsi car ils apparaissent peu souvent en même temps que le mot-clé mais fonctionnent bien lorsque c’est le cas (bon référencement dans Mendeley, beaucoup de lecteurs…).

La deuxième colonne concerne les mots controversés (“controversial“) : des mots qui apparaissent dans l’article Wikipédia du mot-clé recherché et dont la page Wikipédia est elle-même très controversée (page de discussion très longue, où les wikipédiens débattent longuement de ce que signifie ce concept, son histoire, ses ramifications, son importance etc.).

La troisième colonne est celle des mots qui agrègent d’autres disciplines (“aggregating“). Ce sont des mots liés au mot-clé de départ et qui sont les plus partagés avec d’autres disciplines ou communautés scientifiques d’après les données Mendeley. Utilisez ces mots plutôt que votre mot de départ et vous pourriez vous ouvrir tout un champ de collaboration ! Voilà ce que nous avions en tête comme page de résultat pour vocabulari.se.

 Collaboration

Il ne restait plus qu’à réunir l’équipe. L’idée originale revient à Deuxième labo et l’indispensable Axel Meunier. Pour le développement nous avons fait appel à des développeurs qui sont amateurs de ce type de challenge technique et intellectuel : Gnuside. Le design graphique est signé Jérémie Elalouf, qui a créé tout l’habillage et toute l’identité visuelle du projet. Enfin, nous nous sommes appuyés sur les conseils de Pierre Maumont pour tout ce qui était infogérance, gestion des serveurs et de l’hébergement.

Résultat

Le résultat, malheureusement, n’est pas montrable : actuellement vocabulari.se ne fonctionne pas. Quand on lance une recherche, elle s’exécute mais ne retourne pas de résultat. Vous concevez que ce n’est pas le résultat que l’on attendait, et qu’on est fortement déçus. Le problème provient du difficile compromis entre nos exigences (pour que le résultat soit extrêmement pertinent et s’appuie sur des données assez vastes) et les contraintes, au premier rang desquelles l’API Mendeley qui a un plafond de requêtes. Au final il manque un soupçon d’optimisation dans notre recette pour que réellement on puisse produire les résultats attendus par l’utilisateur.

Et pourtant, tel le magicien d’Oz derrière son rideau, nous avions tout mis en œuvre pour que le résultat soit convaincant. Par exemple, on avait pensé à mettre en place un cache afin de pouvoir afficher plus rapidement les résultats d’un mot-clé déjà cherché (ou proche d’un autre mot-clé déjà cherché). Nous avions même envisagé d’utiliser le cache pour, à chaque itération d’une recherche, remonter plus loin dans le réseau des objets de recherche, trouver d’autres degrés de relations et retourner des résultats encore plus pertinents avec un degré d’analyse supplémentaire. Sauf que pour constituer un cache il faut qu’il y ait des utilisateurs qui fassent des requêtes, et que si l’outil ne marche pas alors il n’y a pas d’utilisateurs, donc il n’y a pas de cache, et donc ça marche encore moins bien, etc. : on se mord un petit peu la queue.

 

 Perspectives

Plus que dans le cas d’un franc succès, ce retour d’expérience d’un semi-échec met en lumière le travail de construction d’un outil et la fragilité ou l’incertitude dont je parlais plus haut. Néanmoins c’est un échec qui est assez fructueux dans le sens où il nous incite à aller plus loin. D’abord parce que nous allons tout faire pour corriger ces défauts et faire en sorte que vocabulari.se fonctionne rapidement. Ensuite, parce qu’il ouvre également des perspectives : comme vocabulari.se met en relation des mots selon trois critères, on pourrait monter à partir de là au niveau des documents (puisque les documents sont des ensembles de mots), puis déduire des relations entre auteurs à partir de relations entre documents. Ainsi, plutôt que de donner des affinités entre auteurs par le simple fait que les auteurs sont en relation (ils publient ensemble, ils appartiennent à la même institution…), comme c’est si souvent le cas, on pourrait qualifier leurs affinités par le fait qu’ils publient des documents dont les mots relèvent du même champ sémantique ou possèdent les liens de controverse, de fertilité, de pluridisciplinarité dont il était question précédemment. On pourrait imaginer de créer pour chaque auteur son “empreinte vocabulari.se”, et regrouper automatiquement sur un réseau social de chercheurs ceux dont l’empreinte est suffisamment proche. Nous esquissons ainsi un moteur de similarité de chercheurs sans a priori sur leur discipline, leur affiliation institutionnelle, leur historique de collaboration…

En guise de conclusion

Avec l’exemple de vocabulari.se, j’espère avoir donné un aperçu de la position qu’occupe non pas l’utilisateur de l’outil, mais celui qui le crée. Il mène un travail radicalement différent de celui de l’utilisateur, et ô combien enrichissant. Les questions sans réponse, les ratages… font partie de l’aventure. Si les humanités numériques sont une science centrée sur les outils, alors il est important de s’intéresser au processus de création de ces outils, aux questions nouvelles qu’ils posent. Bien loin de stériliser le champ, ils deviennent alors des moteurs heuristiques pour la recherche, associée à la création. Les humanités numériques ont finalement de beaux jours devant elles !

Antoine

Une réponse à Les humanités numériques, une science “plug and play” ?

  1. […] Extension du domaine de la recherche  […]

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Les humanités numériques, une science “plug and play” ?

Le 3 avril 2012 je prononçais la conférence inaugurale des Journées d’étude de l’Institut des Humanités Digitales de Bordeaux. Invité au nom de Deuxième labo et du C@fé des sciences, j’ai choisi de faire un tour d’horizon des humanités numériques et leur rapport à l’outil. Voici le texte et les diapositives de mon intervention (quant à la […]