Le terme « sécurité des données » permet de parler de toutes les techniques de sécurisation des données, en allant du RAID à la sauvegarde sur bande.
Ce post a pour but de vous donner les clés et la théorie lié à la sécurisation des données de manière générale, pour que vous puissiez faire des choix adaptés a vos besoin.
N’hésitez pas à participer en proposant vos expériences et surtout vos logiciels, je tacherais de mettre a jour tout ça (ça m’intéresse professionnellement, je cherche des logiciels de sauvegarde efficace)
Note : les termes utilisés ne sont pas forcement ceux utilisés par les pro, j’essaye ici de faire comprendre des concepts, donc j’utilise – tant que c’est possible – des termes français non spécialisés.
Se prémunir
Sécurité matérielle
Sometimes, shit happens. Et souvent, c’est le matériel qui flanche. Usure, coup de jus, you name it, il arrive régulièrement qu’un disque dur crame et là, c’est le drame (rime bonus) : Vous avez perdu vos photos de vacances/video de tata ginette/whatever.
La problématique de la sécurité matérielle des données n’apparaît qu’une fois que vous ayez eu le problème. Avant ça, bah ça marche bien sur mon pc, mes données sont la, pourquoi se faire chier.
Sauf qu’il arrive que le pc crame, et avec lui emporte le disque dur, ou tout simplement le disque dur lui même qui décide de s’arrêter.
Pour résoudre le problème, il existe plusieurs solutions technique qui seront détaillées un peu plus loin. Voici la liste exhaustive :
- Solutions « Redondance de disque ». Les solution « Redondance de disque » permettent de copier, de manière automatique et plus ou moins intelligente, toutes les données de l'unité d'un ou plusieurs disque à un autre. Cette solution est très efficace et abordable, mais déporte le maillon faible – le disque dur – vers un autre élément, en théorie plus fiable mais pouvant tomber en panne aussi. Note : j’intègre le cloud synchrone dans la redondance de disque. Les technos sont différente mais le résultat est le même : les mêmes données, tout le temps, a deux endroits différents
- Solution de sauvegarde. Il existe plusieurs solutions technique pour la sauvegarde (disque dur usb, bandes, cloud asynchrone) mais ce sont des solutions asynchrones : A un instant T, on décide de sauvegarder les données de A vers B. C'est une solution qui présente, elle aussi, des avantages et des inconvénients.
Sécurité utilisateur
Parfois, c’est l’utilisateur qui se chie dessus. Grave. Genre « shift-supprimer » ou « rm -Rf » (oui je parle deux langues en informatique) et une fois que c’est fait, c’est déjà trop tard – Naaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaan.
Dans ce genre de cas, les solutions proposé en 1 ne sont pas forcement adapté, et les solutions a redondance de disque ne permettent pas, par exemple, de traiter ce problème.
Solutions possibles :
- Solution de sauvegarde. Il existe plusieurs solutions technique pour la sauvegarde (disque dur usb, bandes, cloud asynchrone) mais ce sont des solutions asynchrones : A un instant T, on décide de sauvegarder les données de A vers B. C'est une solution qui présente, elle aussi, des avantages et des inconvénients.
- Historisation. Le principe de l'historisation est de conserver chaque modification d'un même fichier. Imaginons que vous créez le fichier toto.txt le 31/12/2013 a 14:12. Vous le modifiez a 16:32 , 19:42 et 00:05 le 1/1/2014. L'historisation vous permet de conserver les 4 fichiers différents dans un coin du disque, mais seule la version de 00:05 est disponible sur le disque. Pour aller chercher les autres, il faut utiliser le logiciel d'historisation qui vous permet de garder l’évolution du fichier. Effectivement, ça prends de la place mais c'est une sécurité très efficace, qui permet non seulement de récupérer un fichier efface mais aussi de revenir a une version précédente, genre d'il y a 1 mois.
Sécurité environnementale
Ce cas est largement plus rare que les deux autres, mais peut vous arriver : Cambriolage, feu, inondation, coup de vent™Franky, tous les événements de la vie courante qui peuvent endommager l’ensemble de vos équipement informatique en une seule fois.
Solutions possibles:
- Solution de sauvegarde. Il existe plusieurs solutions technique pour la sauvegarde (disque dur usb, bandes, cloud asynchrone) mais ce sont des solutions asynchrones : A un instant T, on décide de sauvegarder les données de A vers B. C'est une solution qui présente, elle aussi, des avantages et des inconvénients. Notez que, pour que cela soit efficace, il faut que l’unité de sauvegarde soit protégé (coffre...) ou déporté (chez un voisin/ami/parent). En général, on a une unité sur place et une unité déporté, qu'on échange quand on estime que c'est nécessaire.
- Cloud synchrone (forme de redondance de disque). Le concept est simplement d'avoir, a un instant T, la même chose au lieu A et la même chose au lieu B. Le lieu A est votre maison/apart, la ou il y a votre ordinateur. Le lieu B vous ait inconnu, c'est physiquement quelque part dans le monde et accessible a tout instant via Internet. Si, sur votre ordinateur, vous sauvegardez un fichier, celui ci est automatiquement recopié sur un serveur. Le cloud est une solution de sauvegarde très intéressante mais pose plusieurs problèmes, notamment en terme de débit montant (upload) et confidentialité des données.
Solution techniques
Prérequis
Avant de parler de Sata, d’IDE, de SAS et de SCSI, je vais vous proposer quelques petites définitions qui vont nous permettre de parler le même langage.
- IDE : Norme de gestion des disques dur moderne. Il existe deux méthodes : PATA (grande nappe grises moche chiante a placer dans un boîtier) et SATA (petit cable rouge avec connecteurs fragiles). La techno PATA tends a disparaître pour être remplacé par la norme SATA, plus efficace et plus moderne.
- SCSI : Norme professionnelle de gestion des disques, plus chère mais plus efficace. Comme pour le PATA/SATA, la norme a été renommé SAS car elle a suivi l’évolution de l'IDE : passer d'une technologie parallèle a une technologie série. L’intérêt du SCSI pour le grand publique est faible, et l’intérêt pour les professionnelles reste, avec l’efficacité du SATA, a démontrer. En théorie, le matériel SCSI est plus fiable. En pratique, c'est surtout gavé plus cher.
Il existe un très grand nombre de solutions techniques et il va être compliqué de tout détailler. N’hésitez pas a consulter wikipedia pour plus de détails.
- Technologies RAID
De la protection de données (RAID 1)
Des débits plus grands (RAID 0)
De la protection de données ET des débits plus grand (RAID 5) Pour simplifier, je vais passer sous silence le RAID 0 (qui nous intéresse pas pour les données) et les technos exotiques comme le raid 10 (ou 1+0) voir le raid 6.
RAID 1 : L’idée est de prendre 2 disques dur et, lorsque qu'on copie un fichier sur un des disques, la donnée est recopié automatiquement sur l'autre disque. On est protégé en cas de panne d'un des disques dur.
RAID 5 : Dans ce cas, on prends 3 disques dur et on réparti les données sur les 3 disques. Du coup, on a 1/3 des données sur chaque disque et, quand on veut lire des données, le débit est théoriquement multiplié par 3. De plus, chaque disque contient de données de CRC qui permettent de palier au manque d'un des disques . En gros, on aurait la formule suivante :
Data disque 1+CRC disque 1 + data disque 2 + CRC disque 2 = data disque 3.
On a donc une vitesse de débit accru et une sécurisation des données en cas de panne d'un disque. En revanche, pour écrire un fichier sur tous les disques, c'est plus compliqué.
Pour gérer ces technologies, il existe deux méthodes :
RAID logiciel : C'est une technologie peu coûteuse mais qui utilise le CPU principal pour faire les calculs. Faire un RAID 5 logiciel est possible, mais les gains en débit seront a contre balancer avec la perte de puissance CPU nécessaire aux calculs. En revanche, un RAID 1 logiciel ne prends pas beaucoup de ressource et permet une bonne sécurisation matérielle. Notez que les solutions RAID présentes sur les cartes mères sont des solutions logicielles : C'est le CPU principal qui gère les calculs RAID.
RAID matériel : Réservé au monde professionnel, une carte RAID matérielle est composé d'un micro contrôleur et de mémoire dédié pour gérer elle même tous les calculs. Cela décharge le CPU de la gestion des disques, ce qui permet de meilleurs performances. C’était le principe utilisé aussi pour les cartes SCSI. Si, il y a 10 ans avec des CPU monocore, la différence était sensible, la démocratisation des cpu multicore a réduit le gain ressenti en performance. De plus, la carte RAID devient le maillon faible et, en général, on en achète deux : Ça double le coût final.
Note : A l’origine, les implémentations RAID étaient propriétaires. C’est a dire que si vous utilisiez une carte RAID de marque A, il fallait impérativement utiliser une carte de marque A et de même modèle pour exploiter vos données, si jamais la carte tombait en panne. Les industriels ont crié au scandale, et les implémentation RAID 1 sont désormais normalisé. Quelque soit la solution utilisé (soft/hard), la marque utilisé, tout disque RAID 1 est lisible tout seul par n’importe quelle carte du marché (en admettant que vous utilisé le même format, a savoir SATA, PATA, etc). Pour le reste des technos RAID, cela reste propriétaire.
Principe d'utilisation du RAID. Le but de cette section est d'utiliser le vocabulaire standard de la technologie RAID. En effet, lorsque l'on configure une unité RAID 1, on utilise deux disque dur et on demande au BIOS (ou au système d'exploitation) « fais de ces deux disques une unité RAID 1 ». On parle aussi d'array RAID. A l'utilisation, on transforme deux disques physique en un disque logique appelé ARRAY, qui représentera un disque dur physique pour le système d'exploitation. C'est a dire qu'il sera possible de faire des partitions dessus, etc (note : uniquement avec un RAID matériel ou un RAID géré via le BIOS de la carte mère. Dans le cas d'un RAID software sous linux par exemple, une array RAID représente une partition). La plupart des systèmes RAID permettent de faire plusieurs array avec deux disques physique. Imaginez que vous ayez 2 disques dur de 1To. Vous voulez faire 2 array, une array de 100Go pour le système et une array de 900Go pour les données. Vous allez donc créer deux disques dur virtuels, un disque RAID 1 de 100Go et l'autre de 900Go.
Avantages et inconvénients :
_Pas trop cher.
_RAID 1 efficace en mode logiciel.
_Une fois configuré, une unité RAID (on parle d’array) ne peut pas être modifié a moins de perdre les données.
- Solutions commerciales
Il existe un grand nombre de dérivé des technologies RAID, en fonction du constructeur. Citons XRAID chez netgear, Synology Hybrid RAID chez Synology, etc. Ces technos sont souvent propriétaires et, si le matériel tombe en panne, les données seront perdu a moins de racheter le même matériel (et encore)
Mais ces technologies proposent des améliorations d'utilisation, comme l'augmentation de la taille de l’unité, ce que ne permet pas le RAID standard.
- Choix du matériel.
Pour faire du RAID (ou dérivé) pour le grand public, il existe deux principaux moyens :
_Via le chipset interne de la carte mère (même la plus pourri des CM actuelles fait au moins du raid 1)
_Via un NAS domestique.
Le choix de l'une ou l'autre des technos est assez simple : Combien il y a d'ordinateurs chez vous ?
S'il n'y en a qu'un, la solution du chipset interne est largement suffisante.
S'il y en a plusieurs, la solution du NAS reste plus adapté.
- Choix des disques dur.
Le but ici est de conserver des données, donc il est préférable d'obtenir des disques en théorie plus fiable que rapide. On utilisera de préférence des disques dur 5400-5900trs/min dit « green » car ils chauffent moins et sont du coup plus robuste. Attention, pour les NAS, il est préférable d'utiliser des disques prévu pour, comme la série RED de chez western digital : ils tournent a 5400trs et sont prévu pour fonctionner 24/24.
Cloud synchrone.
Le principe est similaire au RAID 1, mais avec des technos (et des débits) évidement différents.
Il existe plusieurs solutions/logiciels :
- Dropbox
- Google drive
- Skydrive
Solutions de sauvegarde.
Le but de la solution de sauvegarde est de sauvegarder l’intégralité des données à l’instant T et de stocker l’unité de sauvegarde dans un coin. Dans 90 % du temps, une unité de sauvegarde est ETEINTE. On l’allume/utilise que lorsqu’on sauvegarde, ou lors d’une restauration.
De plus, si une unité de sauvegarde sauvegarde régulièrement (tous les mois/semaine/jour en fonction des besoins), il est conseillé de tester la restauration régulièrement aussi : C’est très bien de faire une sauvegarde, mais si celle ci n’est pas utilisable quand on en a besoin pour restaurer un fichier, ça ne sert a rien.
Il existe a l’heure actuelle trois grandes technologies de sauvegarde :
- Disque amovible (disque sur, cle usb)
- Bandes
- Cloud (asynchrone)
- Disque amovible
Cas particulier des machines virtuelles: Il existe des solutions de sauvegarde dedié, notamment Veeam Backup
Pour les pros, je suis à la recherche de solutions efficace. Cobian backup est pas mal mais ne gère pas plus de 200Go en 7zip. Yosemite Server Backup était prometteur mais n’est pas capable de gérer mes disques dur usb « green » qui se coupe tout seuls au bout de 10 min.
Il faudrait :
_Sauvegarde sur disque dur. Ça paraît idiot mais il y a peu de logiciels de backup qui fonctionne sur disque dur externe. Ça envoie sur une bande dans encore 50 % des cas et sur NAS/cloud dans les logiciels plus moderne (DPM étant le mieux intégré a Windows mais aussi le plus inutilisable)
_Logiciel user friendly et sous Windows. Quand je suis absent, d’autres personnes gèrent la sauvegarde et ces personnes ne sont pas informaticiens.
_Logiciel gérant les agents de sauvegarde. Il y a 4 serveurs Windows et 2 serveurs Linux a sauvegarder, donc des agents multiplateformes seront bienvenus.
_Sauvegarde différentielles.
Suggestions bienvenues
- Bandes
- Cloud asynchrone.
Sur GZ, crashplan semble être très utilisé. Les détails ne sont pas facile a trouver sur le site mais ça semble être du cloud synchrone avec historisation.
Vous pouvez aussi utiliser des solution comme dropbox ou google drive (cloud synchrone) que vous rendez asynchrone avec synctoy ou create synchronicity.
Historisation
Les premiers systèmes d’historisation ont été créé par les développeurs, pour les développeurs : il s’agit de logiciel de gestion de version comme SVN ou CVS (Visual Source Safe pour les Windowsiens)
Très utile pour la programmation, ils ne sont pas très pratique a l’utilisation quotidienne (même si avec tortoise, ça s’est pas mal amélioré)
De plus en plus de technologies cloud disposent d’un système d’historisation.
Des OS comme windows 7 disposent directement d’un système d’historisation. Consultez la page suivante pour plus d’information :
http://windows.microsoft.com/fr-fr/windows/previous-versions-files-faq#1TC=windows-7
Attention, l’historisation consomme de l’espace disque (configurable), et le temps de rétention des anciennes version dépend directement de l’espace alloué a l’historisation – du coup, un répertoire avec plein de petits fichiers pourra être conservé longtemps, alors qu’un répertoire avec des vidéo de vacances, la conservation sera beaucoup plus faible.
Concernant les Mac, le salut viendra de Time Machine - la plupart des NAS gère ce protocole (?).
Conclusion
J’espère que ce grand post vous aura éclairé dans l’antre de la sécurisation des données. Il y a sûrement des erreurs, n’hésitez pas à me les signaler.
Proposez moi aussi des petits tests des différents logiciels/solution de cloud que vous utilisez, je rajouterais tout ça dans le post principal
Je me rends compte aussi que j’ai détaillé certaines parties et certaines manquent de détails. Je vais tacher de faire vivre ce post avec vos remarques.
LoneWolf
This is an OVER 4000 Post. (a peine 3200 signes, j’aurais presque pu faire le combo)