Navigation – Plan du site

Bilbo, un outil d’annotation automatique des références

Identification dans les bibliographies

Entrées d’index

Notes de la rédaction

Bilbo a été développé par OpenEdition Lab, programme de recherche et développement commencé en 2011 avec les équipes d’OpenEdition et du Laboratoire informatique d’Avignon (LIA), puis du Laboratoire des sciences de l’information et des systèmes (LSIS, Aix-Marseille université - CNRS), grâce à l’obtention d’un Google Grant for Digital Humanities qui en a permis le financement initial. Le programme bénéficie également du soutien de l’ANR CAAS et du projet Inter-Textes.

Ce programme, dirigé par Patrice Bellot, professeur des Universités (LSIS, Polytech Marseille), et par Marin Dacos, directeur du Centre pour l’édition électronique ouverte (Cléo / OpenEdition), vise à développer des fonctionnalités de lecture, d’écriture, de navigation et de système de recommandations.
Le travail sur la première phase de Bilbo a été mené par Youg-Min Kim, post-doctorante, Jade Tavernier, stagiaire au LIA en 2012, Arnaud Cordier et Mathieu Orban, développeurs, et Élodie Faath, chargée de la coordination des projets d’OpenEdition Lab.

Texte intégral

1Cette documentation présente les fonctionnalités de Bilbo, notre outil d’annotation automatique des références bibliographiques.

Bilbo, un outil d’annotation automatique des références

Qu’est-ce que Bilbo ?

2Bilbo (Bibliographical Robot) est un logiciel capable de détecter, d’identifier, d’analyser et d’étiqueter les références bibliographiques présentes dans les documents. Par des méthodes de fouille de texte et d’apprentissage automatique, Bilbo identifie le prénom et le nom des auteurs, les titres, les éditeurs, l’année et le lieu d’édition de chaque référence bibliographique. Cette identification peut ensuite servir pour divers modes d’enrichissement des références et pour des utilisations s’appuyant sur le croisement de données (cross-linking).

3Nous vous présentons la première étape de ce travail qui porte sur la bibliographie générale des articles. La deuxième étape permettra d’appliquer l’identification aux notes de bas de page. Une troisième étape, enfin, offrira la perspective d’identifier les références implicites dans le corps du texte.

Que fait Bilbo aujourd’hui ?

Des références identifiées automatiquement par des DOI

4Le logiciel étiquette les références bibliographiques et identifie le premier auteur et le titre. Cela lui permet d’extraire l’information pour pouvoir interroger le moteur de recherche de CrossRef, agence officielle d’enregistrement de Digital Object Identifier (DOI, littéralement « identifiant d’objet numérique »), dont la base de données contient des millions de références scientifiques. Bilbo peut ainsi récupérer le DOI quand il existe, et l’ajouter à la référence dans la bibliographie du document. L’ajout du DOI se fait sous la forme d’un lien cliquable qui permet alors d’accéder directement à la ressource citée.

Alsic. Exemple d’ajout de DOI aux références d’un article

Alsic. Exemple d’ajout de DOI aux références d’un article

En début de bibliographie, une mention précise que des fonctionnalités ont été ajoutées par Bilbo.
Le DOI figure sous la forme d’un lien cliquable.

Source : Marie-Josée Hamel, « Analyse de l’activité de recherche d’apprenants de langue dans un prototype de dictionnaire en ligne », Alsic [En ligne], vol. 16 | 2013, mis en ligne le 28 février 2013, Consulté le 24 mars 2014. URL : http://journals.openedition.org/​alsic/​2613; DOI : 10.4000/alsic.2613

International Journal of Lexicography. Exemple d’article accessible depuis la référence citée dans la bibliographie d’un article de la revue Alsic

International Journal of Lexicography. Exemple d’article accessible depuis la référence citée dans la bibliographie d’un article de la revue Alsic

En cliquant sur le DOI de la référence « Chon, Y. V. (2009). The Electronic Dictionary for Writing: A Solution or a Problem? International Journal of Lexicography, 22(1), 23-54..
DOI : 10.1093/ijl/ecn034 », mentionnée dans l’article précédemment cité de la revue Alsic, on accède directement à l’article.

Un enrichissement de l’encodage de la référence

5Tous les documents contenus sur votre site sur Revues.org et/ou OpenEdition Books sont encodés dans un format XML-TEI adapté à l’édition électronique. TEI est l’acronyme pour the Text Encoding Initiative qui développe et maintient un standard XML pour la structuration et la sémantisation des textes et qui a été défini comme “un système pour faciliter la création, l’échange, l’intégration de données textuelles informatisées”.

6Comme Bilbo identifie le prénom et le nom des auteurs, les titres, les éditeurs, l’année et le lieu d’édition de chaque référence bibliographique, il est alors possible d’enrichir l’encodage en distinguant ces éléments dans la bibliographie structurée en TEI. Grâce à cet enrichissement, les éléments qui composent la référence peuvent être récupérés et affichés sous différents formats.

Des références téléchargeables dans le cadre des programmes OpenEdition Freemium

7Les lecteurs qui consulteront un document depuis une bibliothèque ou institution ayant souscrit à l’un des programmes Freemium d’OpenEdition auront la possibilité de télécharger les références pour lesquelles Bilbo aura trouvé un DOI aux formats APA, MLA, ou Chicago.

Vertigo. Exemple de téléchargement au format APA de toutes les références bibliographiques

Vertigo. Exemple de téléchargement au format APA de toutes les références bibliographiques

En cliquant sur le symbole en début de bibliographie, on accède à toutes les références bibliographiques identifiées par des DOI que contient le document. On peut choisir parmi les trois formats de citation proposés : APA, MLA ou Chicago.

Source : Sylvia Becerra, « Vulnérabilité, risques et environnement : l’itinéraire chaotique d’un paradigme sociologique contemporain », VertigO - la revue électronique en sciences de lenvironnement [En ligne], Volume 12 Numéro 1 | mai 2012, mis en ligne le 25 juin 2012, consulté le 24 mars 2014. URL : http://journals.openedition.org/​vertigo/​11988; DOI : 10.4000/vertigo.11988

Cybergeo. Exemple de téléchargement au format Chicago d’une référence

Cybergeo. Exemple de téléchargement au format Chicago d’une référence

En cliquant sur le symbole en regard de la référence, on peut accéder à la référence bibliographique identifiée par son DOI, et choisir parmi les trois formats de citation proposés

Source : Hovig Ter Minassian, « La réhabilitation thermique des bâtiments anciens à Paris : comment concilier protection du patrimoine et performance énergétique ? », Cybergeo : European Journal of Geography [Online], Regional and Urban Planning, document 536, Online since 30 May 2011, connection on 24 March 2014. URL : http:// journals.openedition.org/cybergeo /23737; DOI : 10.4000/cybergeo.23737

Pourquoi des DOI ?

8Le Digital Object Identifier (DOI) est le cœur d’un mécanisme d’identification de ressources numériques, comme les revues, les livres, articles scientifiques, rapports, vidéos, etc. Il est parfois comparé aux ISSN ou ISBN pour le web, mais c’est aussi une alternative à l’instabilité des URL par l’association de la localisation du document et des métadonnées qui lui sont liées. Grâce à cette identification pérenne, il est donc toujours possible de retrouver l’emplacement d’un document numérique pourvu d’un DOI.

9Nous vous rappelons que depuis 2009, OpenEdition propose d’acquérir à ses frais des DOI pour les numéros et articles des revues adhérentes de Revues.org, ainsi que pour les livres et documents des éditeurs adhérents d’OpenEdition Books.

  • Pour plus d’informations sur les DOI, vous pouvez vous reporter à cette page de La Maison des Revues : http://maisondesrevues.org/​253.

  • Pour toute question concernant l’attribution de DOI, vous pouvez contacter nos services aux adresses : revues@openedition.org et books-support@openedition.org.

Informations et recommandations

Insertion des DOI

10Lorsqu’aucun DOI n’est trouvé, l’affichage de la bibliographie reste identique à ce qu’il était lors du chargement du document et aucune mention particulière n’est ajoutée. En effet, si l’usage des DOI tend à se généraliser, certaines références ne figurent donc pas dans la base de données de CrossRef.

11Dans certains cas, Bilbo ne parvient pas à trouver la référence, même si elle se trouve chez CrossRef. Cela peut se produire du fait d’erreurs dans l’annotation de la référence, ou encore parce qu’il y a une ambiguïté, par exemple lorsque le DOI renvoie sur le compte-rendu de l’ouvrage cité dans la référence et non sur l’ouvrage lui-même.

12Afin de permettre à Bilbo de progresser dans la détection des DOI sans ambiguïté, nous invitons donc les équipes éditoriales à insérer les DOI dans leurs références bibliographiques, lorsqu’ils existent et sont connus. Nous recommandons de les ajouter en fin de référence, sous la forme suivante :

J.P. Berry, D. Estève, D. Follea, F. Thérez et G. Vialaret, Cellules solaires au silicium sous concentration. Eléments de conception - Un exemple d’application, Rev. Phys. Appl. (Paris), Volume 14, Numéro 1, janvier 1979, 193-199. DOI : 10.1051/rphysap :01979001401019300

Délai d’affichage

13Le travail d’interrogation de la base de données de CrossRef est assez long et l’ajout des DOI à vos références bibliographiques par Bilbo a lieu la nuit (fuseaux horaires européens). Si l’on tient compte de la répartition géographique majoritaire des revues et éditeurs des plateformes, l’affichage se fait donc le lendemain en cas de premier chargement d’un document. C’est également le cas lorsqu’on recharge un article après l’avoir corrigé et modifié : les DOI disparaissent et ne seront à nouveau affichés que le lendemain.

Améliorations et développements à venir

Bilbo est un logiciel qui apprend

14Nous avons mené un premier travail de vérification qui nous a permis d’estimer que près de 90 % des DOI trouvées par Bilbo correspondent à la référence citée. Il y a donc un taux d’erreur d’environ 10 % que nous allons corriger progressivement avec votre aide. Vos retours nous sont d’autant plus précieux que les identifications erronées que nous allons relever vont nourrir le corpus d’apprentissage de Bilbo et lui permettre de progresser.

15Divers outils de feedback sont en cours de mise en place pour les retours d’expérience. L’un de ces outils, accessible directement depuis la page du document, permettra aux équipes éditoriales de nous signaler ces erreurs très simplement, en un clic. D’ici là, et pour tout autre retour concernant Bilbo, les revues et les éditeurs peuvent écrire à l’adresse d’OpenEdition Lab (lab@openedition.org) en précisant [Bilbo] dans l’objet du message.

Les prochains développements

16Bilbo est maintenant capable de reconnaître et d’extraire des références dans les bibliographies. À présent, l’équipe d’OpenEdition Lab travaille à la prochaine étape, Bilbo 2, qui permettra d’identifier les références contenues dans les notes de bas de page, tout en préparant le corpus d’apprentissage qui permettra plus tard à Bilbo d’apprendre à reconnaître les références implicites dans le corps des documents.

17Bilbo sera également utilisé dans le cadre d’autres projets de recherche, notamment pour pouvoir lier les comptes-rendus de lecture disponibles sur les sites des revues et des carnets de recherche avec les livres cités.

18Pour plus d’informations sur le développement de Bilbo, vous pouvez consulter les billets qui lui sont consacrés dans le carnet de recherche d’OpenEdition Lab.

  • OpenEdition Journals