D'expérience sur un parc de 20 000 disques :
- SMART ne permet pas de prédire une panne. Un disque avec 30 000 heures peut tenir encore 20 000 heures sans problème, alors qu'un disque avec 2000 heures au compteur peut tomber en panne demain
- SMART ne se trompe quasiment jamais quand il dit qu'il y a un problème. Si smartctl râle, c'est probablement déjà trop tard. Changez le disque maintenant, ou comptez sur votre backup
- les erreurs dans le dmesg sont souvent une bonne indication pour prédire une panne.
- les performances qui s'écroulent sont une très bonne indication de la probable panne du disque. Et de toute façon, vous ne voulez pas garder un disque qui ralentit votre grappe RAID, donc il faut le remplacer sans tarder. C'est aussi une donnée pas toujours évidente à mesurer, surtout quand l'activité des I/O est faible
Il y a généralement plusieurs façons pour un disque de tomber en panne :
- plus rien ne fonctionne d'un coup
- le disque devient de plus en lent
- le disque n'arrive plus à lire certains secteurs
Quand smartctl dit que le disque a un problème, vous ne le verrez pas forcément. Peut-être que vous vous en rendrez compte quand le disque sera plein. C'est donc un risque inutile de ne pas le changer.
Et n'oubliez pas : un disque dur tombe toujours (un jour) en panne. On ne sait juste pas prédire quand avec précision...