Bonjour,
(désolé j'ai plus le message-id, j'ai trouvé le mail sur les archives)
sur l'ensemble de mes serveurs Dell, j'ai 9 serveurs R410 en production depuis plusieurs mois. 4 ont planté lamentablement dans le mois d'octobre, de manière aléatoire.
Rien dans les logs, le serveur reboot et stop juste après le BIOS sur le message "System fatal error - press F1 to continue or F2 for setup". Un diagnostique Dell donne ces erreurs :
Critical interrupt sensor (PCIE Fatal Err) Bus Fatal Error Processor sensor (CPU Machine Chk) transition to non-recoverable
Je suis en contact avec Dell, ai envoyé pas mal de logs et de rapports DSET, mais pour l'instant ils n'ont pas de piste, le bug est "escaladé"...
La seule chose que j'ai faite après avoir supprimé les logs IPMI, c'est de mettre à jour le BIOS en 1.8.2, depuis pas d'erreurs, mais comme ça faisait déjà plusieurs mois qu'ils tournaient sans problème, ce "bug" peut potentiellement revenir ...
As tu plus d'infos aujourd'hui ? L'upgrade de Bios a t-elle aidée ? Ou pas ?
J'ai ce problème sur un R620 (j'en suis à 3 reboots) alors que son petit frère qui a le même workload n'a pas encore rebooté...
Merci,
On 22/01/2013 15:37, Sébastien Bocahu wrote:
Bonjour,
(désolé j'ai plus le message-id, j'ai trouvé le mail sur les archives)
sur l'ensemble de mes serveurs Dell, j'ai 9 serveurs R410 en production depuis plusieurs mois. 4 ont planté lamentablement dans le mois d'octobre, de manière aléatoire.
Rien dans les logs, le serveur reboot et stop juste après le BIOS sur le message "System fatal error - press F1 to continue or F2 for setup". Un diagnostique Dell donne ces erreurs :
Critical interrupt sensor (PCIE Fatal Err) Bus Fatal Error Processor sensor (CPU Machine Chk) transition to non-recoverable
Je suis en contact avec Dell, ai envoyé pas mal de logs et de rapports DSET, mais pour l'instant ils n'ont pas de piste, le bug est "escaladé"...
La seule chose que j'ai faite après avoir supprimé les logs IPMI, c'est de mettre à jour le BIOS en 1.8.2, depuis pas d'erreurs, mais comme ça faisait déjà plusieurs mois qu'ils tournaient sans problème, ce "bug" peut potentiellement revenir ...
As tu plus d'infos aujourd'hui ? L'upgrade de Bios a t-elle aidée ? Ou pas ?
J'ai ce problème sur un R620 (j'en suis à 3 reboots) alors que son petit frère qui a le même workload n'a pas encore rebooté...
Merci,
J'ai eu ce comportement sur des R720. La solution a été de: - mettre à niveau le BIOS - désactiver l'I/O ATDMA - installer le package intel-microcode
2013/1/22 Laurent CARON lcaron@unix-scripts.info
On 22/01/2013 15:37, Sébastien Bocahu wrote:
Bonjour,
(désolé j'ai plus le message-id, j'ai trouvé le mail sur les archives)
sur l'ensemble de mes serveurs Dell, j'ai 9 serveurs R410 en production
depuis plusieurs mois. 4 ont planté lamentablement dans le mois d'octobre, de manière aléatoire.
Quel OS ?
sur l'ensemble de mes serveurs Dell, j'ai 9 serveurs R410 en production depuis plusieurs mois. 4 ont planté lamentablement dans le mois d'octobre, de manière aléatoire.
Quel OS ?
Pour Greg je ne sais pas :), en ce qui me concerne, Xen 4.1/Linux 3.2
J'ai eu ce comportement sur des R720. La solution a été de:
- mettre à niveau le BIOS
- désactiver l'I/O ATDMA
- installer le package intel-microcode
Merci Laurent pour ce retour :)
ATDMA a quelquechose à voir avec DMA ou Time division multiple access ? ça se recherche assez mal sur un moteur de recherche...
C'est à quel niveau, cette option ? BIOS/UEFI ?
On 22/01/2013 16:33, Sébastien Bocahu wrote:
J'ai eu ce comportement sur des R720. La solution a été de:
- mettre à niveau le BIOS
- désactiver l'I/O ATDMA
- installer le package intel-microcode
Merci Laurent pour ce retour :)
ATDMA a quelquechose à voir avec DMA ou Time division multiple access ? ça se recherche assez mal sur un moteur de recherche...
C'est à quel niveau, cette option ? BIOS/UEFI ?
C'est dans le BIOS.
Le thread sur la LKML: http://lkml.indiana.edu/hypermail/linux/kernel/1210.2/00146.html
Laurent CARON wrote:
On 22/01/2013 16:33, Sébastien Bocahu wrote:
J'ai eu ce comportement sur des R720. La solution a été de:
- mettre à niveau le BIOS
- désactiver l'I/O ATDMA
- installer le package intel-microcode
Merci Laurent pour ce retour :)
ATDMA a quelquechose à voir avec DMA ou Time division multiple access ? ça se recherche assez mal sur un moteur de recherche...
C'est à quel niveau, cette option ? BIOS/UEFI ?
C'est dans le BIOS.
Le thread sur la LKML: http://lkml.indiana.edu/hypermail/linux/kernel/1210.2/00146.html
OK. Merci beaucoup ;)