Les disques en RAID, dans mon cas du RAID1, c'est en principe très bien. On ne risque que peu de perdre ses données sur une panne de disque. Or les pannes peuvent arriver, même des pannes mettant hors service l'ensemble de la machine, j'ai vu un serveur ou tout avait "grillé", de l'alimentation aux disques système pourtant en RAID1. Comme quoi une bonne sauvegarde est un bien nécessaire, on ne le dira jamais assez.
Revenons à mon ennui "bizarre" : il y a quelques jours un mail me signale que le device RAID md6 est en état de problème.
Je regarde le statut de ces disques ( cat /proc/mdstat ) et un des devices est marqué défaillant. Les cas de désynchronisation d'un RAID1 ne sont pas une rareté (coupure de courant violente ...) mais dans la plupart des cas la resynchronisation est automatique et au bout d'un certain temps (voire un temps certain ?) le disque "fautif" ré-apparaît dans le device RAID et tout repart normalement.
Dans mon cas le message me signalait une erreur "Rebuild33" ??? et le disque ne s'était pas resynchronisé.
J'ai alors essayé de resynchroniser manuellement en :
"enlevant" la partition en erreur du device RAID :
mdadm --manage --remove /dev/pas_bon /dev/md6
"remettant" la partition dans le device :
mdadm --manage --add /dev/pas_bon /dev/md6
Et j'ai encore récupéré une erreur Rebuild33 ...
J'ai alors testé la partition avec "badblocks" qui au bout de plusieurs heurs (#450Go) n'a signalé aucune erreur. Nouvel essai de resynchro qui me donne une erreur Rebuild40. La manip suivante a consisté à modifier le type de partition (de Linux Raid à Linux) et à formater cette partition récalcitrante en ext3, là non plus aucune erreur n'a été signalée. Je remet alors la partition en "Linux Raid" et retente une synchronisation qui se termine sur une erreur Rebuild80, le problème n'est donc pas encore résolu et je commence sérieusement à envisager de restaurer depuis une sauvegarde.
Or ma sauvegarde date de quelques semaines et j'ai stocké "plein de choses" sur ce disque depuis.
Je décide dons de retenter le coup :
- Passage de la partition en "Linux"
- Formatage en ext4
Quelques tests de copie pour "secouer" ce machin récalcitrant, prudent quand même car il y a une autre partition sur ce disque.
- Repassage de la partition en "Linux Raid"
Je retente la synchronisation et ... miracle ... la synchro se termine bien et le tout fonctionne maintenant depuis environ deux semaines sans autre problème.
J'ai quand même décidé de faire des sauvegardes un peu plus fréquentes, surtout quand j'ai bien travaillé et stocké des tas de trucs tels que des photos ajustées et retouchées avec amour et pas mal de temps.
J'ai aussi mis ces disques sur la liste des disques à changer .... prochainement.