Skip to content

Nature : 11 façons d'éviter un désastre en matière de stockage de données

Perte de données et sauvegarde des données

Illustration ci-dessus par The Project Twins

Publié à l'origine par Nature International Journal of Science.
Par Jeffrey M. Perkel

Nature International Journal of Science parle de la sauvegarde des données pour éviter les pertes de données.

Les pannes de disques durs sont inévitables, mais la perte de données ne doit pas l'être.

Tracy Teal était une étudiante diplômée lorsqu'elle a exécuté ce qui aurait dû être une commande de routine dans son terminal Unix : rm -rf *. Cette commande demande à l'ordinateur de supprimer récursivement tout ce qui se trouve dans le répertoire actuel, y compris tous les sous-répertoires. Il n'y avait qu'un seul problème : elle se trouvait dans le mauvais répertoire.

À l'époque, Teal étudiait la linguistique informatique dans le cadre d'un master en biologie à l'université de Californie à Los Angeles. Elle avait passé des mois à développer et à faire fonctionner un logiciel de simulation et était enfin prête à commencer son analyse. La première étape consistait à "nettoyer les données et à s'organiser", dit-elle. Au lieu de cela, elle a supprimé tout son projet. Et contrairement au filet de sécurité offert par les poubelles des systèmes d'exploitation Windows et Macintosh, il n'y a aucun moyen de récupérer l'exécution de rm. À moins que vous n'ayez une sauvegarde.

Dans le monde numérique, la sauvegarde des données est essentielle, qu'il s'agisse de selfies pris avec un smartphone ou de données massives de séquençage du génome. Les supports de stockage sont fragiles et tombent inévitablement en panne - ou sont perdus, volés ou endommagés.

Les options de sauvegarde vont des clés USB aux énormes serveurs institutionnels à bandes magnétiques, en passant par les services de stockage de données dans le nuage, et les chercheurs en exploitent généralement plusieurs. Mais toutes ces stratégies ne présentent pas les mêmes avantages, et les scientifiques doivent découvrir ce qui leur convient le mieux en fonction de la nature et du volume de leurs données, de la disponibilité des ressources de stockage et des préoccupations relatives à la protection de la vie privée.

Dans le cas de Teal, c'est l'automatisation qui a sauvé la mise. Le serveur sur lequel elle travaillait était régulièrement sauvegardé sur bande, et les "informaticiens très sympathiques et serviables" du service d'assistance informatique pour les sciences de la vie de son département ont pu récupérer ses fichiers. Mais la situation était particulièrement embarrassante, dit-elle, car Mme Teal - qui est aujourd'hui directrice exécutive de The Carpentries, une organisation à but non lucratif de San Francisco, en Californie, qui organise des ateliers sur l'informatique scientifique - avait déjà travaillé pour l'équipe des technologies de l'information (TI). C'était "comme si le sauveteur devait être secouru", dit-elle.

Voici 11 conseils qui pourraient rendre les pertes de données moins douloureuses.

1. Appliquer la règle 3-2-1

Selon Michael Cobb, directeur de l'ingénierie chez DriveSavers, une entreprise de récupération de données située à Novato, en Californie, la règle à suivre pour la sauvegarde des données est la suivante : "3-2-1" : "Il s'agit de trois copies, sur deux supports différents, dont une hors site. Vous pouvez, par exemple, conserver des copies sur votre ordinateur personnel, sur un disque dur externe et sur le service de synchronisation de fichiers Dropbox (US$12,50 par utilisateur et par mois, à partir de 3 utilisateurs et de 3 téraoctets de stockage). "Il s'agit d'une rubrique dont on peut s'inspirer, pas d'une loi", note Elizabeth Wickes, informaticienne à l'université de l'Illinois à Urbana-Champaign, car les données précieuses peuvent nécessiter des précautions supplémentaires.

2. S'adresser aux spécialistes

Votre institution emploie à plein temps des personnes chargées de réfléchir aux données, alors adressez-vous à elles, conseille Juliane Schneider, qui dirige la conservation des données à Harvard Catalyst à Boston, Massachusetts. Votre centre informatique de recherche peut proposer des systèmes de sauvegarde institutionnels gratuits ou peu coûteux ; votre bibliothécaire peut vous aider à élaborer une stratégie de gestion des données ; et votre bureau des subventions peut vous conseiller sur les exigences des organismes de financement, notamment sur la manière dont les données doivent être conservées et sur la durée de leur conservation. "Ils veulent vous aider à conserver vos données, surtout si vous bénéficiez d'une subvention", dit-elle.

3. Gérer vos données

Des sauvegardes fiables nécessitent une gestion intelligente des données. Se référant à la méthode d'organisation mise au point par Marie Kondo, une célèbre consultante japonaise en art de vivre et auteur du livre The Life-Changing Magic of Tidying (2014), Ciera Martinez, data scientist à l'université de Californie à Berkeley, conseille de se poser la question pour chaque fichier : "A-t-il besoin d'être stocké ? Et Teal d'ajouter en riant : "Vous ne pouvez pas garder uniquement les données qui vous apportent de la joie !

Établir des conventions sur la dénomination et l'organisation des fichiers - par exemple, que chaque projet ait son propre dossier, que les données et le code soient placés dans des sous-répertoires dédiés et que chaque dossier de projet comprenne un fichier qui documente les objectifs, les méthodes, les métadonnées et les fichiers du projet. Planifiez où et comment les données sont sauvegardées et établissez un calendrier - quotidien ou hebdomadaire, par exemple - à cet effet.

Les données brutes doivent toujours être sauvegardées, mais les fichiers de traitement intermédiaires peuvent souvent être éliminés. Les ensembles de données volumineux requièrent une attention particulière : certains fournisseurs de services en ligne limitent la taille des fichiers stockés, et les coûts de transfert et de stockage des données peuvent devenir prohibitifs.

4. Protéger la vie privée

Les données recueillies auprès des patients ou des étudiants sont souvent soumises à des restrictions, ce qui signifie qu'elles ne peuvent pas être stockées n'importe où. Selon Mme Wickes, les chercheurs de son établissement disposent de plusieurs options de sauvegarde des données basées sur le cloud, mais une seule est approuvée pour l'utilisation de données sensibles. L'équipe informatique de votre département peut vous conseiller. "La non-conformité en matière de protection des données peut être très grave. Vous risquez des sanctions financières ou de perdre la possibilité de mener des recherches", explique M. Wickes.

5. Automatiser la sauvegarde

L'automatisation est la clé des sauvegardes. Kelly Smith, généticienne cardiaque à l'université du Queensland à Brisbane, en Australie, a accès à un lecteur réseau partagé qui est copié sur bande. Elle avait l'habitude de déplacer manuellement ses fichiers sur le disque, mais seulement une fois par mois ; en cas de défaillance du disque, les fichiers les plus récents risquaient d'être perdus. Un système de sauvegarde automatisé basé sur le cloud, appelé Druva inSync, de la société de protection des données Druva à Sunnyvale, en Californie, permet désormais d'éviter ce problème. "C'est une chose de moins dont je dois me préoccuper", dit-elle.

"Il ne faut pas y penser", explique Teal. "Car c'est lorsque les choses tombent en panne et que l'on a oublié les sauvegardes des trois derniers mois que l'on est le plus stressé.

6. Protéger les données brutes

Toutes les données sont précieuses, mais les données brutes sont irremplaçables : le seul moyen de les recréer est de refaire l'expérience. Elles doivent donc être sauvegardées et conservées sous forme de fichiers en lecture seule. Mme Wickes a déjà dû interrompre un projet parce qu'elle avait ouvert un fichier crucial dans Microsoft Excel, qui formatait automatiquement une colonne, modifiant les valeurs et détruisant l'ensemble des données sous-jacentes. Protégez donc vos données brutes, dit Martinez, "quoi qu'il arrive".

7. Rendre la sauvegarde réalisable

Un plan de gestion des données doit être facile à suivre pour les nouveaux membres du laboratoire, ainsi que pour les postdocs qui passent une nuit blanche. Vous pourriez dire : "Oh, c'est un système parfait". D'accord, mais allez-vous le faire à 3 heures du matin, après avoir travaillé pendant 24 heures sur quelque chose ? Allez-vous le faire alors que vous êtes en train de vous battre avec un problème de code ? dit Wickes. Discutez de la stratégie en équipe et assurez-vous qu'elle est réalisable. Ensuite, comme vous le feriez pour votre congélateur à -80 °C, simulez ce qui se passerait en cas de catastrophe : quelles données perdriez-vous et à quelle vitesse pourriez-vous les récupérer ? "Au minimum, cette expérience de réflexion serait utile", déclare M. Teal.

8. Tester régulièrement les sauvegardes

Ne supposez pas que vos sauvegardes fonctionnent : testez-les. Pouvez-vous ouvrir vos fichiers ? Disposez-vous des applications, des identifiants et des clés d'enregistrement nécessaires pour les utiliser ? Le service informatique départemental de Mme Wickes offre à son personnel un compte gratuit sur CrashPlan de Code42 Software à Minneapolis, Minnesota, qui automatise les sauvegardes dans le nuage. Un jour, Mme Wickes a décidé de tester sa sauvegarde et s'est aperçue qu'elle avait cessé d'être synchronisée six mois plus tôt. "J'étais tranquille, car j'avais aussi une sauvegarde locale Time Machine", dit-elle, en référence au système de sauvegarde d'Apple pour les ordinateurs fonctionnant avec son système d'exploitation Macintosh. Réitérant les conseils qu'il a donnés dans le premier conseil, M. Cobb précise : "Donc, 3-2-1 sauvegarde, puis restauration [de certains fichiers clés]. Testez-le sur un autre ordinateur, dans une autre pièce, sur un autre appareil, car dans le pire des cas, vous n'aurez plus votre appareil".

9. S'attendre à l'inattendu

La vie est ainsi faite. Cobb - qui a perdu tous ses biens personnels dans un incendie de forêt en 2017 - avait un client qui stockait un rack de 96 disques durs sous un arroseur anti-incendie. Un jour, l'arroseur a sauté et les disques ont été inondés d'eau. "Aucune de ces données n'était sauvegardée", explique-t-il. Leslie Vosshall, neurobiologiste à l'université Rockefeller de New York, a failli perdre ses données de séquençage du génome du moustique en 2012 lorsque les serveurs de son sous-sol ont été inondés à la suite de l'ouragan Sandy. De tels événements sont inévitables mais peuvent souvent être anticipés. Il y a environ un an et demi, le bureau de Mme Cobb a été secoué par un petit tremblement de terre, ce qui n'est guère surprenant en Californie. Une photo de l'ancien président des États-Unis, et ancien client, Gerald Ford, s'est détachée du mur et a heurté son ordinateur portable "juste comme il faut", brisant l'écran. "Après cela, je me suis dit que je ferais mieux de déplacer mes affaires pour être mieux préparé.

10. Conserver une sauvegarde hors ligne

Les dispositifs de sauvegarde connectés à l'internet sont pratiques : les données sont instantanément disponibles. Mais ces dispositifs sont aussi instantanément vulnérables aux erreurs de l'utilisateur et aux logiciels malveillants. Craig Rager, directeur technique de Data Mechanix, une société de récupération de données située à Irvine, en Californie, explique que nombre de ses clients ont été victimes d'attaques par ransomware, un virus qui crypte le disque dur d'un ordinateur et le rend inutilisable. Un disque de sauvegarde, qu'il soit connecté à l'ordinateur directement ou par l'intermédiaire d'un réseau, peut également être touché par ce type d'attaque. "Comme on ne peut jamais éliminer cette menace, la seule chose que l'on puisse faire est de disposer d'un dispositif de sauvegarde, qui est ensuite mis hors ligne ou inaccessible à votre réseau", par exemple en étant mis hors tension.

11. Planifier à l'avance

En fin de compte, vos données doivent être disponibles à l'avenir. Pensez donc au "futur vous", dit Teal. Pensez aux supports sur lesquels vos données sont sauvegardées et aux applications que vous utilisez pour les ouvrir. Essayez de rester à jour. La plupart des premières données de Vosshall sont stockées dans un format de disque obsolète, dit-elle, ce qui signifie qu'elles sont sauvegardées mais inaccessibles. "Il me faudrait aller dans un magasin d'antiquités pour trouver un lecteur. Même l'informatique dématérialisée n'offre aucune garantie : les sociétés de stockage de données peuvent modifier leurs priorités commerciales, ou vous pouvez tout simplement perdre l'accès à votre compte. Veillez donc à conserver une sauvegarde locale ou, au moins, à sauvegarder vos données sur des services indépendants. "Les gens me demanderont : "Vous voulez dire que vous ne faites pas confiance à Google Docs ? "Il ne s'agit pas nécessairement de faire confiance à Google Docs, mais de s'assurer que l'on n'en perd pas l'accès.

Nature 568, 131-132 (2019)

doi: 10.1038/d41586-019-01040-w

Lire la suite : https://www.nature.com/articles/d41586-019-01040-w

Mike Cobb, directeur de l'ingénierie et RSSI
En tant que directeur de l'ingénierie, Mike Cobb gère les opérations quotidiennes du département d'ingénierie, y compris les récupérations physiques et logiques des supports rotatifs, des disques SSD, des dispositifs intelligents et des supports flash. Il supervise également les efforts de R&D pour les technologies de stockage passées, présentes et futures. Mike encourage la croissance et s'assure que chaque département et ses ingénieurs continuent d'acquérir des connaissances dans leur domaine. Chaque ingénieur de DriveSavers a été formé pour s'assurer que la récupération complète et réussie des données est leur priorité absolue.

En tant que responsable de la sécurité de l'information (CISO), Mike supervise la cybersécurité chez DriveSavers, y compris le maintien et la mise à jour des certifications de sécurité telles que la conformité SOC 2 Type II, la coordination de la politique de sécurité de l'entreprise et la formation des employés en matière de cybersécurité.

Mike a rejoint DriveSavers en 1994 et est titulaire d'une licence en informatique de l'Université de Californie, Riverside.

Haut de page
Rechercher