Retour sur l’expérience vocabulari.se

L’extension du domaine de la recherche, c’est exploiter des bases de connaissances pour construire des outils numériques innovants qui changent le travail du chercheur.

Après plus d’un an, il est temps de revenir sur un outil que nous avons construit chez Deuxième labo, et le semi-échec qu’il constitue : vocabulari.se. Le principe de cet outil était de construire un réseau social des objets de recherche. Non pas des personnes, mais des objets de recherche, partant du principe que chacun travaille sur son propre objet — le calcul distribué, le réchauffement climatique, les écoulements diphasiques, la constitution française, l’addiction au tabac… Grâce à vocabulari.se, nous voulons vous permettre de chercher le mot ou les deux mots qui forment votre objet de recherche pour, d’un coup, convoquer les autres objets de recherche auxquels il se rattache. Ainsi, nous révélons son réseau, ce dans quoi il s’inscrit, et tout son poids politique. Un des effets de ce dévoilement pourra être de renvoyer le chercheur à son vocabulaire, de donner un autre relief aux termes qu’il emploie lorsqu’il écrit un article, rédige un abstract ou soumet une demande de financement — et finalement d’expliciter la dimension politique des objets de recherche, au sens de Bruno Latour.

Cette idée ne vient pas de nulle part : la fréquentation de Bruno Latour et ses écrits nous a conduit à penser ainsi, et la référence que vous venez de lire n’est pas fortuite. Il y a également en toile de fond une réflexion sur l’actualité médiatique où la science est presque toujours présentée à travers les objets qu’elle étudie — et par là on entend aussi bien des objets “physiques” que des objets plus abstraits, plus conceptuels : la fonte des glaces, la disparition des abeilles, la susceptibilité génétique au cancer du sein, la mondialisation… Et c’est également par ces objets multiples et hybrides que la science fait irruption dans nos journaux télévisés et dans les rubriques “Société”, “Politique”, “Planète”, “Santé”… de nos magazines. Ces objets (“non-humains” dirait Latour) sont donc incontournables aujourd’hui et nous souhaitons leur donner l’importance qu’ils méritent — tout en bousculant l’idée selon laquelle ils seraient monolithiques, univoques, et réductibles à une vérité présentée comme universelle.

Pré-étude

Une fois l’objectif fixé, comment s’y prendre ? On commence par défricher le terrain lors d’une pré-étude que nous avons confiée à des étudiants en informatique de Polytech Lyon dans le cadre d’une UE de veille technologique. Nous leur avons demandé de rechercher parmi les API (des interfaces machine/machine permettant de puiser dans des sources de données hétérogènes) lesquelles donnent accès à l’information scientifique et technique, en l’occurrence aux bases de données d’articles. Et lesquelles de ces API sont réutilisables, ont des licences qui donnent un accès plutôt souple, etc.

Mini-site des étudiants Polytechnique Lyon pour le livre blanc sur les API et l'accès à l'information scientifique

Mini-site des étudiants Polytechnique Lyon pour le livre blanc sur les API et l’accès à l’information scientifique

La conclusion à laquelle ils sont arrivés, qui était un petit peu notre intuition, c’est qu’il y a d’une part des archives ouvertes où les articles sont réutilisables et qui possèdent une API mais qui sont extrêmement pauvres quantitativement (par exemple HAL en France — on pourrait s’attendre à ce que toute la production des chercheurs français payés par nos impôts soit disponible sur HAL, mais non seulement ce n’est pas le cas, et en plus cela semble une utopie hors de notre portée aujourd’hui…). D’autre part il y a des éditeurs scientifiques privés, comme Elsevier, qui sont assis sur leurs bases de données d’articles et qui en ferment pratiquement l’accès, et qui restent organisés en silos de spécialités, ce qui rend une interrogation pluridisciplinaire compliquée. Il faut signaler également un troisième groupe d’acteurs, les outils du web 2.0 comme CiteULike, Zotero ou Mendeley qui permettent aux chercheurs d’organiser en ligne leurs références d’article. En mettant en commun les bibliothèques de chacun des utilisateurs, ils donnent une très bonne image de ce que sont les publications scientifiques aujourd’hui, pratiquement toutes disciplines et tous pays confondus.

Déclencheur

Arrivés à ce stade, nous avions choisi l’API de Mendeley comme source de références en raison de son excellente couverture bibliographique (50 millions d’articles, soit 10 millions de plus que le Web of Science de Thomson Reuters qui fait pourtant référence), et de son API et ses données placées sous licence libre Creative Commons. Et voilà justement que Mendeley et PLoS ont lancé en 2011 un concours de la meilleure application bâtie avec leurs API, doté de 10 000 $. (À la lumière de cette expérience, tous les producteurs d’API donnant accès à des données, notamment en France, seraient bien inspirés de lancer ce type d’initiative qui fonctionne assez bien, pour justement inciter des communautés de développeurs ou de geeks à s’y intéresser et proposer de nouveaux services.) Nous voilà donc inscrits au concours…

Présentation du concours Mendeley/PLoS Binary Battle

Présentation du concours Mendeley/PLoS Binary Battle

Ingrédients

La recette de vocabulari.se telle qu’on l’avait en tête était assez simple : nous nous appuyons d’abord sur des corpus issu de la science contributive (issus de la mise en commun des informations de nombreux utilisateurs), c’est-à-dire Mendeley mais aussi Wikipédia que nous avons voulu ajouter à la recette pour apporter une couche de connaissances plus “grand public”. Puis nous ajoutons quelques algorithmes d’analyse de grand corpus, c’est-à-dire de cette masse de données. Enfin nous ajoutons l’ingrédient du design de l’information, qui concerne la façon de présenter le résultat, ce qu’on retourne à l’utilisateur de vocabulari.se, l’expérience qu’on veut lui faire vivre.

Design

Le design de l’information a consisté à imaginer comment se présenterait la page de résultats de vocabulari.se. Après plusieurs itérations, nous sommes tombés d’accord sur le fait que l’utilisateur doit entrer un ou deux mots-clés et que le moteur de recherche lui retournera trois colonnes de mots, tous liés au mot-clé cherché.

Ebauche de design pour la page de résultats vocabulari.se

Ebauche de design pour la page de résultats vocabulari.se

La première colonne correspond aux mots inattendus (“unexpected”), classés ainsi car ils apparaissent peu fréquemment en compagnie du mot-clé mais fonctionnent bien lorsque c’est le cas (bon référencement dans Mendeley, beaucoup de lecteurs…).

La deuxième colonne concerne les mots controversés (« controversial ») : des mots qui apparaissent dans l’article Wikipédia du mot-clé recherché et dont la page Wikipédia est elle-même très controversée (page de discussion très longue, où les wikipédiens débattent longuement de ce que signifie ce concept, son histoire, ses ramifications, son importance etc.).

La troisième colonne est celle des mots qui agrègent d’autres disciplines (« aggregating »). Ce sont des mots liés au mot-clé de départ et qui sont les plus partagés avec d’autres disciplines ou communautés scientifiques d’après les données Mendeley. Utilisez ces mots plutôt que votre mot de départ et vous pourriez vous ouvrir tout un champ de collaboration ! Voilà ce que nous avions en tête comme page de résultat pour vocabulari.se.

Un autre niveau de navigation et d’information est disponible en cliquant sur chacun des mots associés : s’affiche alors la “preuve” du lien entre le mot-clé cherché et ce mot, c’est-à-dire une référence bibliographique dans Mendeley, un article Wikipédia ou une page discipline dans Mendeley.

Maquette de la page de résultats vocabulari.se et affichage des liens entre mots clés et mots associés

Maquette de la page de résultats vocabulari.se et affichage des liens entre mots clés et mots associés

Pour la page d’accueil, nous avons voulu épurer au maximum en concentrant l’attention sur le champ de recherche (façon Google), accompagné quand même de quelques lignes d’explication (dont certaines, cachées, ne s’affichent qu’au survol de la souris) et de l’injonction “vocabulari.se your research!”.

Maquette de la page d'accueil de vocabulari.se

Maquette de la page d’accueil de vocabulari.se

Collaborations

Il ne restait plus qu’à réunir l’équipe. L’idée originale revient à Deuxième labo et l’indispensable Axel Meunier. Pour le développement nous avons fait appel à des développeurs qui sont passionnés par ce type de challenge technique et intellectuel : Gnuside. Le design graphique est signé Jérémie Elalouf, qui a créé tout l’habillage et toute l’identité visuelle du projet. Enfin, nous nous sommes appuyés sur les conseils de Pierre Maumont pour l’infogérance, c’est-à-dire la gestion des serveurs et de l’hébergement.

Résultat

Le résultat, malheureusement, n’est pas utilisable : actuellement vocabulari.se ne fonctionne pas. Quand on lance une recherche, elle s’exécute mais ne retourne pas de résultat. C’est un constat décevant.

Quand vocabulari.se mouline… mais ne retourne aucun résultat

Quand vocabulari.se mouline… mais ne retourne aucun résultat

Le problème provient du difficile compromis entre nos exigences (pour que le résultat soit extrêmement pertinent et s’appuie sur des données assez vastes) et les contraintes, au premier rang desquelles l’API Mendeley qui a un plafond de requêtes. Au final il manque un soupçon d’optimisation dans notre recette pour qu’on puisse réellement produire les résultats attendus par l’utilisateur.

Et pourtant, nous avions tout mis en œuvre pour que le résultat soit convaincant. Par exemple, on avait pensé à mettre en place un cache afin de pouvoir afficher plus rapidement les résultats d’un mot-clé déjà cherché (ou proche d’un autre mot-clé déjà cherché). Nous avions même envisagé d’utiliser le cache pour, à chaque répétition d’une recherche, augmenter le nombre de documents analysés et la profondeur du réseau des objets de recherche, trouver d’autres degrés de relations et retourner des résultats encore plus pertinents. Sauf que pour constituer un cache il faut qu’il y ait des utilisateurs qui fassent des requêtes, et que si l’outil ne marche pas alors il n’y a pas d’utilisateurs, donc il n’y a pas de cache, et donc ça marche encore moins bien, etc. : vous voyez le cercle vicieux.

Améliorations

Aujourd’hui, maintenant que nous sommes entrés à l’ère du big data, certains de ces problèmes ont trouvé leur réponse. Aussi bien pour la gestion du cache que de la “file des opérations”, des technologies existent qui seraient faciles à mettre en œuvre et amélioreraient vraisemblablement notre outil. Nous allons nous y mettre.

Conclusion et perspectives

Plus que dans le cas d’un franc succès, ce retour d’expérience d’un semi-échec met en lumière le travail de construction d’un outil numérique et leur fragilité quand on entre dans le domaine de la recherche. Néanmoins c’est un échec qui est assez fructueux dans le sens où il nous incite à aller plus loin. D’abord parce que nous allons tout faire pour corriger ces défauts et faire en sorte que vocabulari.se fonctionne rapidement. Ensuite, parce qu’il ouvre également des perspectives : comme vocabulari.se met en relation des mots selon trois critères, on pourrait monter à partir de là au niveau des documents (puisque les documents sont des ensembles de mots), puis déduire des relations entre auteurs à partir de relations entre documents. Ainsi, plutôt que de donner des affinités entre auteurs par le simple fait que les auteurs sont en relation (ils publient ensemble, ils appartiennent à la même institution…), comme c’est si souvent le cas, on pourrait qualifier leurs affinités par le fait qu’ils publient des documents dont les mots relèvent du même champ sémantique ou possèdent les liens de controverse, de fertilité, de pluridisciplinarité dont il était question précédemment. Une autre idée pourrait être d’utiliser vocabulari.se comme rouage d’une chaîne de traitement de l’information : à partir d’un mot clé, on pourrait obtenir son champ lexical et requêter ensuite des bases de données de publications pour obtenir des articles connexes pertinents — bien qu’ils ne contiennent pas le mot clé lui-même. A votre imagination, et à votre code !

En effet, le code source de vocabulari.se est disponible sur github sous la licence GNU Affero GPL. N’hésitez pas à contribuer ou à vous en inspirer !

En savoir plus

Poster vocabularise FréDoc

 

Une réponse à Retour sur l’expérience vocabulari.se

  1. Très belle idée. Très belle approche.
    Hâte d’avoir la chance d’essayer une version opérationnelle de cette application sans équivalent.
    L’idée d’exploiter les résultats de recherche pour identifier les opportunités de collaborations entre chercheurs est excellente. Bravo !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Retour sur l’expérience vocabulari.se

L’extension du domaine de la recherche, c’est exploiter des bases de connaissances pour construire des outils numériques innovants qui changent le travail du chercheur. Après plus d’un an, il est temps de revenir sur un outil que nous avons construit chez Deuxième labo, et le semi-échec qu’il constitue : vocabulari.se. Le principe de cet outil […]