Le Data-center d’AMU : virtualisation poussée, efficacité bien réelle !


Un centre de traitement des données (data-center) est un lieu où sont installées les infrastructures centrales du système d’information : serveurs, baies de stockage, équipements réseau… Comme son nom l’indique, le data-center sert à héberger les applications qui gèrent les données et qui fournissent des services.

Ces centres sont souvent redondants, par sécurité ; à AMU, il est double, les infrastructures sont réparties sur deux sites, qui ont été sélectionnés par les équipes techniques en fonction de toute une série de critères permettant de maximiser la sécurité des équipements entre les deux sites, un réseau à très haut débit (10 Gbits) a été renforcé. Sur le réseau comme dans les data-centers, de nombreux mécanismes détectent le moindre incident.
En cas d’incident grave perturbant les performances de l’un des deux centres, l’autre prend automatiquement le relai. Les services s’exécutent sur l’un ou l’autre site, de façon transparente pour les utilisateurs.

Les différents types d’incidents sont au maximum anticipés, et des procédures spécifiques sont prévues : plans dits de continuité d’activité (PCA, en cas de coupure d’électricité, de perte d’un serveur pendant un laps de temps assez court…) et de reprise d’activité (PRA : en cas de sinistre grave sur un site, le service peut être interrompu, mais il sera rétabli avec une perte mineure de données voire sans et pour les plus critiques en moins de  4h).
Toutes ces procédures nécessitent des compétences pointues et des interventions permanentes, parfois planifiées, parfois imprévues, mais ce gros travail est totalement invisible pour l’utilisateur, qui constate juste … qu’il peut travailler normalement en utilisant ses applications métiers.
Une conjonction de plusieurs incidents peut néanmoins se traduire, non pas par une perte de données ni une rupture durable d’accès au service, mais, plus fréquemment, par des temps de réponse (de la messagerie, par exemple) trop longs. Le diagnostic est alors difficile à établir, et l’enchaînement des opérations pour tout rétablir complexe. La messagerie est disponible de façon satisfaisante, et lorsque ce n’est pas le cas, les usagers d’AMU, habitués à un niveau de service élevé, services disponibles 24h/24, 7j/7, s’en aperçoivent.

Toutes ces infrastructures sont une somme de choix qui ont été faits et qui engagent l’établissement : les data-center représentent un fort investissement matériel et notamment humain, et d’importantes phases de tests en amont.

 

La virtualisation des serveurs : AMU à la pointe des technologies et des compétences

La virtualisation permet d’exécuter sur un même serveur physique, des serveurs totalement indépendants les uns des autres, avec leur propre matériel (virtuel bien sûr) tout en partageant les mêmes ressources processeurs et mémoire de la machine hôte.

La virtualisation présente beaucoup d’avantages, mais complexifie la façon d’aborder l’exécution d’un simple serveur et exige des compétences très spécifiques. Elle apporte beaucoup de souplesse dans l’exploitation ; même si une intervention de mise à jour se révèle problématique, le temps de restauration des données peut passer de 2h à 2mn.

A AMU, près de 200 serveurs virtuels sont exécutés sur 22 serveurs physiques [44 processeurs pour un pool de 440 Ghz et 2 To de mémoire vive (2000 Go)]. On ne pourrait pas gérer ce volume de machines si ceux-ci étaient physiques (les moyens financiers et humains ne le permettraient pas). La virtualisation est désormais disponible sur le stockage et permet l’exécution des données au bon endroit. Ceci démultiplie donc les possibilités : A ce jour le pôle système gère plus de 200 Téra Octet (To) (soit 200 000 Giga Octet) de volumétrie, extensible  jusqu’à près de 3 PetaOctet (3000 To).
Hier une application comme le BV (bureau virtuel, plus gros consommateur d’espace disques) nécessitait 2 armoires complètes, et une forte consommation électrique Aujourd’hui, elle représente moins d’ 1/50 de la place nécessaire qu’auparavant.

Ce choix n’a donc que des avantages, sous réserve bien sûr d’être en mesure de maîtriser des technologies et des systèmes extrêmement complexes. Mais il offre à AMU une certaine capacité à croître de façon homogène en maîtrisant la qualité de ses services et leur coût tout en les rendant plus fiables et disponibles
C’est pourquoi plusieurs autres établissements se tournent désormais vers nos équipes ! Quel que soit le stade de leur projet de virtualisation, ils souhaitent bénéficier du retour d’expérience d’AMU.


La climatisation, c’est pas du luxe !

Tout le monde le sait, les ordinateurs, ça chauffe, alors forcément les armoires de stockage et de serveurs, ça chauffe beaucoup. La climatisation est une fonction vitale pour le data-center. Elle est également beaucoup plus complexe que chez un particulier, puisque de nombreuses contraintes interviennent (plage de température, schéma de circulation de l’air, locaux nécessairement fermés etc…).
Or, même si les matériels s’améliorent un peu en termes de tolérance à la chaleur, ils ont tous une limite, qui, lorsqu’elle est dépassée, va générer des dégâts à court et moyen terme et compromettre la sécurité des données. Ainsi, si une climatisation s’avère défaillante dans une salle, les incidents sur les serveurs peuvent apparaître des mois plus tard.

Une coupure réseau ne génère pas de perte de données (éventuellement une perte d’accès temporaire au service). En revanche, une coupure électrique ou de climatisation est beaucoup plus grave. Il faut rétablir mais aussi remonter toute l’infrastructure, ce qui implique des moyens extrêmement lourds pour l’équipe système.

C’est pourquoi AMU a veillé à assurer cette prestation pour les deux data-centers, et va progressivement l’améliorer pour toutes les autres salles hébergeant des serveurs DOSI.

 

L’infrastructure AMU au banc d’essai en 2012

L’infrastructure du SI AMU à été architecturée pour répondre à plusieurs scénarios catastrophes
Certains se sont déjà produits tout au long de l’année précédente.


Scénario 1 : Coupure électrique : Pas d’arrêt (11 ; 49)
Scénario 2 : Défaut courant ondulée : Pas d’arrêt (1 ; 4)
Scénario 3 : Défaut sur équipements d’annonces de niveau 3 : Bascule automatique en moins de 20 s. (0 ; 0)
Scénario 4 : Défaut sur annonces RAIMU : Bascule automatique en moins de 20 s. (5 ; 360)
Scénario 5 : Défaut sur n’importe quel équipement réseau (ethernet ou iSCSI) de l’infrastructure : Pas d’arrêt (1 ; 4)
Scénario 6 : Arrêt électrique global d’une salle prévu ou maintenance globale d’un des deux sites : bascule à chaud (en cours d’utilisation) des serveurs notifiés PCA et des données associées sur l’autre site (la majorité). (2 ; 14)