Humanités Numériques

Cours 8 : Sciences ouvertes, données ouvertes

Loïc Grobol

2022-11-22

Sciences ouvertes

La (les) science(s) ouverte(s), open science ou open research
Mouvement visant à rendre accessibles
- La recherche scientifique
- Les données et leur diffusion accessibles
Open data
Outils de travail collaboratif (Wikipédia, Wikiversité, Wikispecies…) et de science participative (Plantnet, Merlin…)
E-learning

Accessible à qui ?

Tout le monde, amateurices et professionnel⋅es.

Multidisciplinarité
Multilinguisme
Multiculturalité

On considère la science et les données comme un « bien commun ».

Un cadre juridique

(en France)

Article 30 de la loi n° 2016-1321 du 7 octobre 2016 pour une République numérique :

Donne un nouveau droit aux auteurs de publier en accès ouvert leurs articles après un embargo de 6 (sciences de la nature et sciences formelles) à 12 (LSHS) mois, pour des recherches financées au moins à 50% sur fonds public.

L’article 6 définit le principe d’ouverture par défaut pour les données administratives : données construites dans le cadre des missions de service public, auxquelles les données de recherche appartiennent : il crée une obligation

En pratique : suivant les champs de recherche, les implémentations sont variables

Gold open access
Green open access
Publications « hybrides » : modèle « auteur payeur », à des prix très élevés (Van Noorden, 2013)

Pour la plupart des champs de recherche, le modèle publish or perish sert de levier aux éditeurs pour capter indirectement des financements de recherche.

L’ouverture des données reste un champ de bataille (Stérin et Noûs, 2019)

Une politique scientifique

(aussi en France)

Plan science ouverte : La France s’engage pour que les résultats de la recherche scientifique soient ouverts à tous, chercheurs, entreprises et citoyens, sans entrave, sans délai, sans payement.

Généraliser l’accès ouvert aux publications scientifiques

L’ouverture des publications scientifiques doit devenir la pratique par défaut aussi vite que possible. […] les publications issues de recherches financées au moyen d’appels à projets sur fonds publics seront obligatoirement mises à disposition en accès ouvert, que ce soit par la publication dans des revues ou ouvrages nativement en accès ouvert, soit par dépôt dans une archive ouverte publique comme HAL.

Structurer et ouvrir les données de recherche

Faire en sorte que les données produites par la recherche publique française soient progressivement structurées en conformité avec les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable), préservées et, quand cela est possible, ouvertes.

S’inscrire dans une dynamique durable, européenne et internationale

Le succès de la science ouverte implique le développement de nouvelles pratiques quotidiennes pour les chercheurs. Cela nécessite la définition de nouvelles compétences, le développement de nouvelles formations et l’adoption de nouveaux services.

À l’échelle de l’UE

Plan S :

Obligation de publication en libre accès pour la recherche financées par des subventions publiques
Coalition de financeurs de la recherche (en France, l’ANR)

Le mouvement pour la science ouverte

Les chercheureuses emploient aujourd’hui les outils numériques dans toutes les facettes de leur activité.

Outils
Plateformes
Données
Leurs publications nativement numériques.

Cependant, ces productions scientifiques numériques de la recherche sont souvent difficilement accessibles :

Ressources non publiques ou non documentées
Nécessité d’être abonné ou d’avoir acheté la ressource (paywall)
Formats incompatibles, voire incohérents

→ L’utilisation pleinement efficace du numérique est entravée.

La science ouverte vise à corriger cette insuffisance :

Approche transversale de l’accès au travail scientifique, des visées et du partage des résultats
une nouvelle façon de faire de la science, en ouvrant les processus, les codes, les méthodes, les protocoles…

Accès ouvert

Rend possible le mouvement de diffusion de la production scientifique sur internet
Lève les barrières de l’accès en maintenant toutes les protections du droit d’auteur. (relativement)
Aussi ouvert que possible, « aussi fermé que nécessaire » (Rapport commission européenne 2016)

Humanités numériques et sciences ouvertes

Cycle de vie des données

La diversité des sujets autour des données de la recherche est illustrée par leur cycle de vie, constitué de 6 étapes :

Création ou collecte
Traitement
Analyse
Préservation
Partage
Réutilisation

Les données FAIR

Constat :

Le taux de réutilisation des données (scientifiques) est extrêmement faible

Objectifs :

Améliorer les infrastructures pour permettre aux machines de retrouver les données, et aux chercheureuses de les réutiliser
Promouvoir des principes concis et mesurables
Bonnes pratiques pour la gestion des données.

13 principes qui se déclinent en un ensemble de caractéristiques que doivent présenter les données et les métadonnées pour faciliter leur découverte et leur utilisation par les humain⋅es et par les machines

Référence aux trois types d’entités :

Données (ou tout objet numérique),
Métadonnées (informations sur l’objet numérique),
L’infrastructure de support (moteur de recherche, plateforme de stockage…).

Facile à trouver (Findable)

Faciliter la découverte des données par les humains et les systèmes informatiques par une description et une indexation des données et des métadonnées.

F1 Les données et les métadonnées sont identifiées par un identifiant global unique et pérenne.
F2 Les métadonnées décrivant les données sont riches.
F3 Les données et les métadonnées sont enregistrées et indexées dans un dispositif permettant de les rechercher.
F4 Les métadonnées spécifient l’identifiant de la donnée.

Accessible

Stocker durablement les données et les métadonnées et à faciliter leur accès, spécifier les conditions d’accès (ouvert ou restreint) et d’utilisation (licence) :

A1 Les données et les métadonnées sont accessibles par leur identifiant via un protocole de communication standardisé.
- A1.2 Le protocole utilisé permet l’authentification et l’autorisation si besoin.
- A1.1 Le protocole utilisé est ouvert, libre et peut être implémenté de manière universelle.
A2 Les métadonnées sont accessibles même quand les données ne le sont plus.

Interopérable

Intégrer les données téléchargeables, utilisables, intelligibles et combinables avec d’autres données :

I1 Les données et les métadonnées utilisent un langage formel, accessible, partagé et largement applicable pour la représentation des connaissances.
I2 Les données et les métadonnées utilisent des vocabulaires qui respectent les principes FAIR.
I3 Les données et les métadonnées incluent des liens vers d’autres (méta)données.

Réutilisable

Rendre les données réutilisables pour de futures recherches ou d’autres finalités (enseignement, innovation, reproductibilité, transparence) :

R1 Les données et les métadonnées ont des attributs multiples et pertinents.
- R1.1 Les données et les métadonnées sont mises à disposition selon une licence explicite et accessible.
- R1.2 Les données et les métadonnées sont associées à leur provenance.
- R1.3 Les données et les métadonnées correspondent aux standards des communautés indiquées.

Les documents structurés

Documents de base : texte comme flux de caractères
Manquent :
- Métadonnées
- Structures : paragraphes, sections, chapitres, en-têtes…
- Pas les mêmes types selon les docs : roman, journaux, dictionnaires, juridique…

HTML

Hypertext Markup Language

Créé autour de 1991 par Tim Berners-Lee
- Avec les adresses URL et le protocole HTTP c’est ce qui fait le web
- Objectif : un format simple pour décrire des documents textuels structurés, incluant des ressources multimédia et liés entre eux.
À l’origine un cas particulier de SGML, s’en éloigne avec le temps
Toujours en évolution pour s’adapter aux usages

<!DOCTYPE html>
<html>
  <head>
    <title>This is a title</title>
  </head>
  <body>
    <p>Bonjour, tout le <a href="https://fr.wikipedia.org/wiki/Hello_world">monde</a></p>
  </body>
</html>

Les éléments entre chevrons < et > sont des balises (tags, elements)
Les balises structurent le document
- Indiquent la fonction de chaque partie de texte
- Séparent contenu et méta-données
- Le résultat peut être vu comme un arbre
Les balises peuvent contenir des métadonnées, comme la cible d’un lien
En principe, informations purement sémantique : on ne code pas la mise en forme

Pourquoi des chevrons ?

C’est une convention historique d’annotation, recyclée

Dans son usage philologique, s’utilise par paires et sert à ajouter un mot, un groupe de mots, un élément conjecturel dans une édition généralement scientifique.
Sert de parenthèse qui permet d’isoler une portion de texte en l’isolant de la situation de communication.

XML

Extensible Markup Language

Créé en 1996 sous les auspices du World Wide Web Consortium (W3C)
Objectif : description structurée de tout type de données encodables comme du texte
Au contraire de HTML, l’ensemble des balises n’est pas prédéfini et chaque document peut définir les siennes

<div type="act" n="II" xml:id="II"><head>Acte II</head>
   <div type="scene" n="2" xml:id="II2"><head>Scène 2</head>
     <sp><speaker>Rodrigue</speaker>
         <l part="I">À moi, comte, deux mots.</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="M">Parle</l></sp>
     <sp><speaker>Rodrique</speaker>
         <l part="F">Ôte-moi d'un doute</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="I">Connais-tu bien Don Diègue ?</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="M">Oui</l></sp>
     <sp><speaker>Rodrigue</speaker>
       <l part="F">Parlons bas, écoute.</l>
       <l>Sais-tu que ce vieillard fut la même vertu,</l>
       <l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp>
   </div>
 </div>

La TEI

La « Text Encoding Initiative » (TEI) est l’un des projets les plus durables et influents du champ aujourd’hui appelé « humanités numériques ». Son but est de fournir des recommandations pour la création et la gestion sous forme numérique de tout type de données créées et utilisées par les chercheurs en sciences humaines, comme les sources historiques, les manuscrits, les documents d’archives, les inscriptions anciennes et bien d’autres.

(Burnard, 2015)

Un format de balisage et une communauté académique internationale
Recommandations pour l’encodage de ressources numériques, et plus particulièrement de documents textuels.

La TEI met l’accent sur ce qui est partagé par tous les types de documents, qu’ils soient représentés physiquement sous une forme numérique sur un disque ou une carte mémoire, sous une forme imprimée comme un livre ou un journal, sous une forme écrite comme un manuscrit ou un codex, ou sous une forme inscrite dans la pierre ou sur une tablette de cire.

Cette continuité facilite la migration du texte depuis des manifestations plus anciennes, comme l’imprimé ou le manuscrit, vers d’autres plus récentes comme le disque ou l’écran.

C’est pourquoi la vision de la TEI de ce qu’est le texte est largement conditionnée par ce que le texte a été dans le passé, sans toutefois trop compromettre ce que le texte peut devenir dans le futur. Elle essaie de traiter tous les types de documents numériques de la même façon, qu’ils soient « nativement numériques » ou non.

La TEI fournit le nom et la définition de centaines de balises, en même temps que des règles sur la façon dont elles peuvent être combinées. Plus précisément, les Guidelines de la TEI définissent cinq ou six cents concepts différents, avec les spécifications détaillées des éléments et classes d’éléments XML qui peuvent être utilisés pour les représenter.

La plupart des documents TEI n’a besoin que d’une petite partie de ce qui est proposé
Mais rien n’est inutile, simplement différents documents ont différents besoins
- Théâtre
- Épigraphie, Paléographie
- Dictionnaires
- Transcriptions de la parole…

Bibliographie

Lou Burnard. 2015. Qu’est-ce que la Text Encoding Initiative ?Encyclopédie numérique. OpenEdition Press, Marseille, octobre.

Anne-Laure Stérin et Camille Noûs. 2019. Ouverture des données de la recherche : les mutations juridiques récentes. Tracés. Revue de Sciences humaines(#19, #19):37‑50, décembre.

Richard Van Noorden. 2013. Open access: The true cost of science publishing. Nature, 495(7442, 7442):426‑429, mars.