Contactez nous
  • Page d'accueil
Blog
 
FIN incident infrastructure du 6 septembre 2019

Publiée le : 09/09/2019

Il n'y a pas que wikipedia qui a eu des problèmes ce weekend. Comme vous avez pu constater vos services web et courriels ont été hors ligne de la nuit de jeudi 5 à vendredi 6 septembre à la nuit de dimanche 8 à lundi 9 septembre. En savoir plus...

Que s'est-il passé ?

1/ Malgré l'utilisation de matériel DELL de qualité professionnelle un des disques de stockage de notre infrastructure est devenu instable na nuit de jeudi  5 à vendredi 6 septembre juste au (mauvais) moment ou une mise à jour du noyau du serveur était appliquée.
Cela faisait un peu plus de 5 ans que nous n'avions pas eu ce type d'incident (en 2014).

2/ Malgré la configuration en mode " RAID-1 " (disques redondants synchronisés) il n'a pas été possible de maintenir la continuité du service puisqu'il s'agissait d'un disque de démarrage et que l'on ne voulait pas prendre le risque que l'autre disque (qui était encore OK) soit endommagé à son tour.

3/ La malchance a voulu que le centre d'hébergement était en rupture de stock de ce type de disque.
Ils ont du se réapprovisionner et cela a pris du de temps.
Le nouveau disque a été installé la nuit de vendredi à samedi.

4/ Un nouveau problème est apparu après la reconstruction du duo de disques : puisque l'instabilité c'était produite au moment d'une mise à jour du noyau et le redémarrage de la machine, le système d'exploitation était incohérent : le serveur n'avait plus de connexion réseau, rendant impossible l'accès à distance.

5/  Il a fallu du temps pour -avec l'aide des fonctionnalités du centre d'hébergement à Paris-arriver à reprendre la main sur le serveur et corriger la mise en réseau.

6/ Nous avons commandé un disque supplémentaire pour le serveur afin de redémarrer sur une nouvelle base.

7/ Pendant l'incident notre propre extranet était impacté aussi. Ce n'est bien sûr pas une bonne stratégie : nous allons apprendre de cette situation. Nous n'avons pas été en mesure de vous informer pendant l'incident, sauf en mettant une information succincte sur une page d'attente de vos services et un message d'information sur l'incident en cours sur notre ligne téléphonique.

Impacte sur les courriels ?

Vous n'avez pas eu accès aux services mail et vos logiciels ont certainement indiqué des erreurs.

Les courriels entrants ont été mis en attente pour être livré après le retour au fonctionnement normal du service.

Vos correspondant ont reçu un message les informant que : " Un message que vous avez envoyé n'a pas encore été remis à un ou plusieurs de ses destinataires et est en file d'attente. ", cela toute les 24 heures.

En ce moment (matin du lundi 9 septembre 2019) les files d'attente sont en train de se vider.
Aucun mail entrant n'a été perdu.

Nous espérons que vos utilisateurs n'ont surtout rien changé aux réglages de leur logiciel mail et qu'ils n'ont pas donné suite aux messages d'erreurs : leur logiciel a commencé à fonctionner à 2h45 de na nuit de dimanche à lundi 9 septembre 2019.

Pour le courriel sortant vous avez été plus pénalisé. Il ne vous a pas été possible d'envoyer du courriel pendant l'incident. Nous le regrettons. Votre logiciel de mail a du garder les courriels en attente sur votre poste de travail. Ils ont dû être envoyés la nuit passée. Il n'y a pas de solution simple à cette situation, car autoriser l'utiliser d'autres serveurs de courriel pénaliserait la délivrabilité de vos courriels auprès des logiciels anti-spam de vos destinataires.

Vos données ont-elles été en danger ?

Non, à tout moment le serveur a gardé vos données en intégrité sur au moins 1 disque.
Il y a des sauvegardes envoyées chaque heure vers un autre centre d'hébergement à Paris. Au pire nous avions donc une sauvegarde d'environ 45 minutes avant l'incident.
Les sauvegardes sont répliquées vers un centre d'hébergement d'un autre fournisseur, ce qui amène à un triple stockage.

Comment allons-nous éviter que ce type d'incident se reproduise ?

Une fois un peu décanté d'un weekend chargé nous allons faire le point sur le fait que nous n'avons pas été en mesure de communiquer avec vous pendant l'incident. Nous allons revoir notre stratégie de reprise après sinistre. Nous allons rendre notre propre extranet client indépendant de l'infrastructure des sites clients et envisageons de vous fournir une adresse sur notre domaine backupcontact.com que vous pourrez l'ajouter au comptes de vos logiciels mail. Nous serons ainsi tous mieux préparé à ce type de situation et nous pourrons communiquer dans le cas de ce type d'incident.

Nous voulons nous excuser pour la gêne occasionnée et vous remercier pour votre patience.
Nous avons tout mis en œuvre pour redémarrer les services avant le début de votre nouvelle semaine de travail.

Merci d'utiliser les services d'ICOLEIS.


Retour à la liste