Tenue d'un registre de travail
Une étape essentielle du processus de recherche consiste à conserver des traces de votre travail tout au long du projet. Vous aurez à tout le moins besoin des données pour décrire les résultats de votre recherche dans toute présentation ou publication à venir. Vous devrez fournir des renseignements supplémentaires, tels que des informations sur les citations, une explication de la méthodologie de l'enquête, des informations sur l'échantillonnage, le contexte et le codage des questions, comment et pourquoi les variables dérivées ont été créées, et plus encore, afin de conserver vos données dans un dépôt ou de les partager avec d'autres.
Métadonnées
De nombreux services et plateformes de préservation de données à long terme exigent une quantité variable de métadonnées structurées pour accompagner les fichiers de données déposés.
Les métadonnées sont des données ou des informations qui facilitent la découverte, la compréhension et la gestion de vos données de recherche. Des métadonnées de bonne qualité sont essentielles pour une utilisation précise et informée, surtout si les données doivent être réutilisées ou partagées plus tard. Les métadonnées créées au cours des étapes de planification d'un projet de recherche réduisent les risques associés à la perte de données pendant et après l'achèvement du projet. Il est donc essentiel de commencer à tenir un registre de vos données dès le début de votre projet.
Utilisez les métadonnées pour :
- Permettre à d'autres de réutiliser vos données
- Faciliter la conservation
- Permettre la reproduction à une date ultérieure
- Rendre les données compréhensibles pour les autres
Le type de structure utilisé pour consigner vos données dépendra de la complexité du projet ou des données collectées et du nombre de personnes impliquées dans le projet. Envisagez de tenir un registre des éléments suivants :
Sur le plan de l'étude
- Les créateurs, les collaborateurs, les sources de financement, les droits
- La question de recherche et sa justification
- La date à laquelle les données ont été recueillies ou analysées
- La méthodologie de l'enquête
- Le cadre d'échantillonnage
- Les instruments, la configuration des instruments ou les mesures utilisées
Sur le plan du fichier ou de la base de données
- La relation entre les fichiers
- Les informations contenues dans les fichiers
- Le format dans lequel les fichiers sont stockés
- Les tests ou les analyses effectués sur le(s) fichier(s)
- Les informations qui concernent le fichier ou le dossier (à l’aide d’un fichier readme.txt)
- Cela inclut des informations sur le nom des fichiers, les abréviations ou les acronymes utilisés ainsi que sur le contenu du ou des fichiers.
Sur le plan des variables
- Le nom de la variable, mais aussi l'étiquette de la variable expliquant sa signification, l'unité de mesure, la pondération de l'échantillon, etc.
- L'information peut être contenue dans une liste de codage.
Sources d'information sur les métadonnées
- Les renseignements standards soumis dans la demande du comité d'éthique de la recherche (CER)
- Les cahiers de laboratoire et les protocoles expérimentaux
- Les questionnaires, les listes de codage, les dictionnaires de données
- Les fichiers de syntaxe et de sortie des logiciels
- Les informations sur les réglages de l'équipement et l'étalonnage des instruments
- Le schéma de la base de données
- Les rapports méthodologiques
- La provenance des données dérivées
Utilisation des normes, des taxonomies et des systèmes de classification
Lors de la conservation ou du partage des données, les normes, les taxonomies ou les systèmes de classification peuvent être utilisés pour catégoriser ou consigner les données ou d’autres informations selon une méthode largement comprise. Les dépôts de données vous demandent généralement d'utiliser une norme de métadonnées internationale.
Normes
Il existe une grande variété de normes et de schémas à utiliser pour consigner les données de recherche. La plupart sont propres à une discipline, mais certains peuvent être adaptés pour être utilisés dans d'autres domaines. Tous ont un ensemble de balises de base qui recueillent des informations essentielles relatives à votre projet, notamment le titre, l'auteur, les sources de financement, le résumé, les mots-clés, les conditions d'utilisation et les informations relatives au droit d'auteur. En voici quelques exemples :
- Dublin Core (DC) (site en anglais), norme d'usage général pour la description des éléments de base (voir plus bas pour l'adaptation française).
- Data Documentation Initiative (DDI) (site en anglais), norme basée sur le langage XML pour la description d'ensembles de données en sciences sociales et comportementales.
- Federal Geographic Data Committee (FGDC) (site en anglais) pour la description de données géospatiales.
Classifications
Il s'agit d'une méthode de normalisation des informations dans des schémas relationnels garantissant une compréhension généralisée des concepts et des descriptions.
Systèmes de classification
Largement utilisés par les gouvernements pour décrire les relations hiérarchiques et les descriptions standards de classes précises, telles que les biens, les cultures, les unités géographiques, les industries, les professions. En voici quelques exemples :
- Classification nationale des professions
- Système de classification des industries de l'Amérique du Nord
- Système canadien de classification des sols
Exemple de norme de métadonnées : ensemble des éléments de métadonnées Dublin Core
Cet ensemble de quinze termes forme les éléments de base qui doivent être utilisés pour décrire une ressource numérique. Il fait partie d'un ensemble plus complexe de vocabulaires connu sous le nom de DCMI Metadata Terms, qui est certifié norme ISO [ISO15836] et norme ANSI/NISO [NISOZ3985].
Termes descriptifs (éléments du Dublin Core) |
Définitions |
Titre |
Nom donné à la ressource : le titre est généralement le nom formel sous lequel la ressource est connue. |
Créateur |
Entité principalement responsable de la création du contenu de la ressource. Un créateur peut être une personne, une organisation ou un service. Généralement, on utilisera le nom du créateur pour désigner cette entité. |
Sujet |
Thème du contenu de la ressource. Généralement, le sujet est présenté sous forme de mots-clés, d’expressions-clés ou de codes de classification. La pratique recommandée est de choisir une valeur dans un vocabulaire contrôlé ou dans un plan de classification. |
Description |
Présentation du contenu de la ressource. Les exemples de description du contenu peuvent comprendre, sans s’y limiter : un résumé, une table des matières, une référence à une représentation schématique du contenu, un texte libre sur le contenu. |
Éditeur |
Entité responsable de la mise à disposition ou de la diffusion de la ressource. Un éditeur peut être une personne, une organisation ou un service. Généralement, on utilisera le nom de l’éditeur (le nom d’une maison d’édition) pour désigner cette entité. |
Contributeur |
Entité ayant contribué au contenu de la ressource. Un contributeur peut être une personne, une organisation ou un service. Généralement, on utilisera le nom d’un contributeur pour désigner cette entité. |
Date |
Date d’un événement (création, mise à disposition, publication, modification, etc.) dans le cycle de vie de la ressource. On choisira généralement la date de création ou de mise à disposition de la ressource, qu’on présente sous la forme AAAA-MM-JJ. |
Type |
Nature ou genre du contenu de la ressource. On peut décrire ici des catégories, des fonctions, des genres généraux ou des niveaux d’agrégation du contenu. La pratique recommandée est de choisir une valeur dans un vocabulaire contrôlé (par exemple, dans la liste du DCMI Type Vocabulary). Pour décrire le support matériel ou numérique de la ressource, y compris ses dimensions, il faut plutôt utiliser l’élément format. |
Format |
Matérialisation (ou manifestation matérielle ou numérique) de la ressource, y compris le type de support ou les dimensions de la ressource. Ici, on peut identifier le logiciel, le matériel ou tout autre équipement nécessaire pour afficher ou exploiter la ressource. Les exemples de dimensions comprennent la taille et la durée. Il est recommandé de sélectionner une valeur dans un vocabulaire contrôlé (par exemple, la liste des Internet Media Types définissant les formats de supports informatiques). |
Identifiant de la ressource |
Référence univoque à la ressource dans un contexte donné. Il est recommandé d’identifier la ressource au moyen d’une chaîne de caractères ou d’un numéro conforme à un système d’identification officiel. Les systèmes d’identification officiels comprennent notamment le « Uniform Resource Identifier » (URI / identificateur de ressources uniformes), qui inclut le « Uniform Resource Locator » (URL), le « Digital Object Identifier » (DOI / identificateur d’objet numérique) et le « International Standard Book Number » (ISBN). |
Source |
Ressource à l’origine de la ressource décrite; de laquelle cette dernière est dérivée. La ressource décrite peut être dérivée de la source en tout ou en partie. La pratique recommandée est d’identifier la ressource mentionnée dans l’élément Source par une chaîne de caractères ou par un numéro conforme à un système d’identification officiel. |
Langue |
Langue du contenu intellectuel de la ressource. Il est recommandé d’utiliser une des valeurs définies par des normes officielles. Les codes utilisés peuvent par exemple être « en » ou « eng » pour l’anglais et « fr » ou « fre » pour le français. |
Relation |
Ressource apparentée. Il est recommandé d’identifier la ressource apparentée par une chaîne de caractères ou un numéro conforme à un système d’identification officiel. |
Couverture |
Périmètre, cadre ou domaine d’application du contenu de la ressource, c’est-à-dire sa couverture spatiotemporelle. Ici, on inclut généralement une position géographique (le nom d’un lieu ou les coordonnées d’une entité administrative). Il est recommandé de sélectionner une valeur dans un vocabulaire contrôlé (par exemple, le thésaurus de noms géographiques TGN Thesaurus of Geographic Names) et d’utiliser, quand cela est approprié, des noms de lieux ou de périodes plutôt que des identifiants numériques tels que des coordonnées ou des intervalles de dates. |
Gestion des droits |
Informations sur les droits associés à la ressource. Généralement, cela inclut une mention de la gestion des droits afférents à la ressource ou une référence au service fournissant cette information. L’information sur les droits englobe souvent les droits de propriété intellectuelle, le droit d’auteur et divers droits de propriété. Si l’élément gestion de droits est absent, aucune hypothèse ne peut être émise sur les droits associés à la ressource. |
Ce tableau a été compilé à partir du guide d’utilisation du Dublin Core (DC) de la BnF.
Remerciements
Nous tenons à remercier la Bibliothèque nationale de France et le UK Data Service pour l'utilisation de leur matériel de formation dans la création de ces modules.
Nous tenons également à remercier EDINA et la Data Library de l'Université d'Édimbourg pour l'utilisation du matériel du cours en ligne Research Data MANTRA dans la création de ces modules.