[Linux] Remplacement disque en raid soft

Mar 8 Mai 19:44:46 CEST 2007

Salut,

Ca y est, je vais devoir faire mon premier remplacement de disque en raid 
software ;-((
Je voulais juste être sur de la procédure (histoire de rien flinguer...).

La machine a ses 2 disques en hda et hdc, il y a 5 "md" dessus, tous en raid-1 
(racine, swap, usr, var, home) basés sur 5 partoches de chaque disque.
Le disque qui commence à fatiguer est hda (mais /proc/mdstat le montre 
toujours "up").

# mdadm --manage /dev/md0 --fail /dev/hda1  (pour chaque md)
# mdadm --manage /dev/md0 --remove /dev/hda1 (pour chaque md)
# grub   (car je ne suis pas sur de l'avoir sur hdc :-( 
root (hd1,0)
setup (hd1)
quit
# halt

Arrivé là, je vire hda, je "déplace" hdc (le bon) à la place (ide1/master vers 
ide0/master) et je branche un nouveau disque en hdc. Et je rallume... 
Normalement, ça boote (et surtout, les utilisateurs peuvent bosser ;-)

# sfdisk -d /dev/hda | sfdisk /dev/hdc  (copie table partoches)
# cfdisk /dev/hdc  (pour vérif...)
# grub
root (hd1,0)
setup (hd1)
quit
# mdadm --zero-superblock /dev/hdc1  (pour chaque partition)
# mdadm --manage /dev/md0  --add /dev/hdc1 (pour chaque md)
# 

J'ai néanmoins quelques questions:
- puis-je échanger mes 2 disques (les diverses docs que j'ai trouvées sur le 
net ne parlent que du cas où c'est le 2ème disque qui lâche), il n'y a pas de 
référence "en dur" dans le superblock-raid j'espère ?
- comme le nouveau disque a servi à divers essais, il *faut* faire le 
zero-superblock, non ? (un dd if=/dev/zero sera trop long :-(  )
- l'actuel disque me sortant de temps en temps des erreurs de lecture, est-on 
certain que dans ce cas c'est l'autre disque mirroré qui sert ? (car le 
foireux n'est toujours pas faulty !)
- j'ai toujours lu qu'il fallait attendre la fin du "resync" avant de 
rebooter. Est-ce justifié ? Normalement, la synchro "devrait" être, comment 
dire, "transactionnelle", on "marque" 10% effectué, 20%, etc... Ca évite de 
tout recommencer. Par exemple, il peut il y avoir un shutdown forcé par un 
onduleur avant la fin. Sous Netware, je ne m'occupais pas de la couche raid, 
c'etait le boulot de l'OS de savoir d'où il recommençait la synchro et il 
semblait le faire par gros blocs commités.

Voilà, désolé, cétait long!