Salut !
si il s'agit d'un problème hardware, as tu essayé de voir les logs des MCE ( machine check events) reporté par le hardware via le kernel ?
Il te faut pour cela:
- un kernel possedant les attributs suivants d'activés: CONFIG_X86_MCE CONFIG_X86_MCE_INTEL (si proc/chipset Intel) CONFIG_X86_MCE_AMD (si proc/chipset AMD)
- une installation de mcelog (http://www.kernel.org/pub/linux/utils/cpu/mce/)
Suite à cela, tu auras la commande "mcelog" à disposition qui te permet d'avoir un rapport de l'erreur hardware détectée. Attention, chaque utilisation de la commande flush le cache donc si il te donne une erreur, il te faut la sauvegarder qq part par copier/coller ou autre. Si le plantage est total donc tu es obligé de rebooter ton serveur, alors, il te faut utiliser le mode démon de mcelog via syslog (idéalement sur un syslog hors serveur via ethernet) pour avoir une chance de savoir pourquoi il y a eu plantage avant le reboot du serveur qui flushera les MCE logs.
Le mécanisme des MCE n'est pas toujours efficace mais a le mérite de te donner la panne exacte hardware quand il te donne une alerte. Par exemple il peut te remonter une erreur de cache CPU, une erreur de RAM, du northbridge, etc... de manière assez précise te signalant un processeur sous volté, une barrette de RAM défectueuse ou un chipset trop chaud....
JeFF
On Wed, 2011-08-31 at 16:39 +0200, Sebastien PLOT wrote:
Le 31/08/2011 15:35, Sylvain Rochet a écrit :
Lu,
On Wed, Aug 31, 2011 at 03:24:00PM +0200, "Vincent Duvernet (Nolmë Informatique)" wrote:
Sinon, il y a aussi la politique de l'autruche. Tu rachètes de la RAM si tu n'as pas de serveur de spare. Et si c'est pas la RAM, c'est que c'est la CM et qu'il faut la remplacer ^^
Oui, et aussi d'un point de vue purement financier, ça coûte souvent moins cher de remplacer totalement un chassis plutôt que de passer du temps à chercher à comprendre un défaut matériel. Surtout quand ce n'est pas reproductible facilement.
Mais... ça nécessite d'avoir du stock et des bons contacts chez ses fournisseurs pour renvoyer du matos vraisemblablement pourri, i.e. qui semble fonctionner quand même.
Sylvain
il te reste également la possibilité de retoucher les timing SPD à la hausse.
ça m'est déjà arriver sur un PC perso, le PC plantait aléatoirement. En jouant à la hausse les timing SPD (donc à la baisse sur les perf) j'ai pu stabiliser ma conf.
Le problème venait des timing annoncé par les RAM qui n'était pas complètement fonctionnel sur la CM et c'est le DUAL channel qui révélait vraiment l'erreur...
A essayer _______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org/