Partage et réutilisation des données

Les plans de partage et de réutilisation des données font partie intégrante de la planification de la gestion des données de recherche.

De nombreux bailleurs de fonds et d’éditeurs de revues ont des politiques qui encouragent, prévoient ou exigent des chercheurs qu’ils préparent et fournissent leurs données en vue de leur partage. Cela est particulièrement vrai pour les données produites grâce à un financement public.

La Déclaration sur l’accès aux données de la recherche financée par des fonds publics de l’OCDE, dont le Canada est signataire, énonce les raisons de partager la recherche.

Le partage des données :

Encourage la recherche scientifique
Promeut l’innovation
Réduit la duplication des projets de recherche
Conduit à de nouvelles collaborations
Élargit la portée des résultats de la recherche
Réduit les coûts de la recherche dans les pays en développement
Encourage la vigilance, la transparence et la responsabilité
Permet l’utilisation dans l’enseignement

Préparation des données pour le partage

La préparation des données en vue de leur partage commence par la création d’un plan de gestion des données au cours des étapes initiales du projet. Les chercheurs doivent se familiariser avec les politiques de leurs bailleurs de fonds à l’étape de la planification.

Les facteurs dont on doit tenir compte sont les suivants :

Éléments juridiques et éthiques
- La confidentialité des participants sera-t-elle compromise?
- Des renseignements sensibles seront-ils compromis?
- Le partage violera-t-il des accords contractuels?
- Le partage viendra-t-il à l’encontre des accords de licence?
- Le partage a-t-il été inclus dans l’accord de consentement éclairé?
- Les données devront-elles être rendues anonymes avant d’être diffusées?
- Avez-vous le consentement des partenaires du projet?
- Avez-vous le droit de partager des données secondaires?

Droits de propriété intellectuelle
- Allez-vous mettre en marché ou demander des brevets?

Les chercheurs devraient consulter l’Énoncé de politique des trois conseils : Éthique de la recherche avec des êtres humains (EPTC2) et le Bureau de la recherche et de la déontologie de l’Université Saint-Paul pour obtenir des renseignements sur les obligations contractuelles et éthiques.

Obtention du consentement

L’Énoncé de politique des trois conseils (EPTC2) stipule que le consentement éclairé des participants au projet est nécessaire pour le partage et la réutilisation de données contenant des renseignements identifiables (règle 3.2 et règle 5.2 de l’EPTC2). Pour s’assurer que le consentement a été reçu, il faut tenir compte de la façon dont est formulée la demande de consentement, surtout en ce qui a trait à la conservation, à la réutilisation ou au partage de données contenant des renseignements identifiables, la manière dont ces renseignements seraient protégés et les conditions dans lesquelles les données seraient partagées ou réutilisées. Le consentement des participants n’est pas nécessaire pour l’utilisation secondaire ou la réutilisation de données anonymes ou agrégées, mais il est considéré comme éthique d’informer les participants sur la conservation, la réutilisation et le partage de ces données.

Conditions de partage

La législation canadienne sur le droit d’auteur ne comprend pas les données de recherche brutes, mais elle comprend les descriptions de données telles que les tableaux, les schémas et les bases de données. Le partage des fichiers de données peut être géré et protégé grâce à l’utilisation de licences. Dans de nombreux cas, les chercheurs peuvent décider du degré d’accès et des conditions d’utilisation des données qu’ils partagent ou ajoutent à un dépôt. Des dépôts particuliers peuvent proposer des options de licence à même leur plateforme.

Pour obtenir de l’aide sur les questions relatives au droit d’auteur, consultez notre section Droit d’auteur.

Plusieurs options de licence en ligne peuvent être adoptées pour un usage personnel :

Creative Commons (CC) permet aux utilisateurs de combiner des éléments de licence pour créer une licence unique et adaptée à leurs propres données de recherche.
Open Data Commons (ODC) (en anglais seulement) offre trois options de licence.

Les conditions d’utilisation doivent refléter la nature des données et le niveau de confidentialité concerné.

Les conditions d’utilisation peuvent inclure :

Exiger l’autorisation des chercheurs pour obtenir l’accès
Définir des autorisations d’accès pour des groupes de chercheurs précis
Placer les données sous embargo temporel
Fournir un accès sécurisé aux données
Exiger la reconnaissance et l’attribution du chercheur initial

Anonymisation des données

Les renseignements d’identification personnels ne doivent jamais être divulgués dans les résultats de la recherche, sauf si les participants ont donné leur consentement explicite par écrit.

Les chercheurs doivent s’assurer que l’identité d’une personne ne peut être établie par le biais :

D’identifiants directs
- Comprend les noms, les adresses, les dates de naissance, les codes postaux, les numéros de téléphone, les numéros d’assurance sociale, les images, etc.
D’identifiants indirects
- Lorsqu’ils sont associés à d’autres identifiants ou à des renseignements accessibles au public, ils peuvent révéler l’identité d’un participant
- Comprend les renseignements sur le lieu de travail, la profession, l’âge, le salaire, etc.

Les identifiants directs recueillis au cours de la recherche ne sont généralement pas essentiels à l’analyse des données et peuvent être facilement supprimés des données. Il faut tenir compte de la durée pendant laquelle ces identifiants sont conservés séparément et en toute sécurité et de la manière dont ils peuvent être détruits. Dans de nombreux cas, la collecte d’identifiants directs peut être évitée lors de la phase de collecte initiale.

L’anonymisation des données quantitatives peut demander la suppression ou l’agrégation de variables. Des techniques, telles que la suppression des cellules, l’arrondissement, le contrôle d’inférence et la perturbation peuvent être employées pour anonymiser les données. Le codage des informations à l’aide de classifications standards à des niveaux plus élevés que celui auquel les données ont été collectées est un exemple de technique à faible risque qui peut être employée dans le processus d’anonymisation.

Les données relationnelles requièrent une attention particulière lorsque les connexions entre les variables peuvent, par inadvertance, révéler des identités. La transcription des entretiens peut nécessiter l’emploi de différentes techniques, telles que l’utilisation de pseudonymes cohérents ou de termes plus généraux pour réduire le risque d’identification sans rendre les données inutilisables. Conservez des versions non éditées de vos données pour les utiliser au sein de l’équipe ou en cas d’erreur lors de l’anonymisation. N’oubliez pas de consigner toutes les techniques utilisées et les cas de remplacement ou d’agrégation de variables.

Veuillez vous référer aux ressources UKAN du UK Anonymization Network (en anglais seulement) pour obtenir des renseignements et de la documentation supplémentaires sur l’anonymisation des données, y compris des guides complets pour effectuer l’anonymisation.

Remerciements

Nous tenons à remercier le UK Data Service (en anglais seulement) pour l’utilisation de leur matériel de formation dans la création de ces modules.

Nous tenons également à remercier EDINA et la Data Library de l’Université d’Édimbourg pour l’utilisation du matériel du cours en ligne Research Data MANTRA (en anglais seulement) dans la création de ces modules.