La tolérance aux pannes
La capacité d’un réseau informatique à continuer de fonctionner même quand il y a des problèmes est très importante pour maintenir le service sans interruption et disponible à tout moment. Cela dépend beaucoup de la mise en place de systèmes doublés, ce qui veut dire qu’on fait une copie de sécurité des parties les plus critiques du réseau, comme les routeurs, les commutateurs et les connexions, pour s’assurer que si une pièce tombe en panne, il y en a une autre prête à prendre le relais sans délai. Cette stratégie réduit la possibilité de coupure du service.
Les dispositifs de secours sont conçus pour se lancer automatiquement si le système principal échoue. Ils peuvent être des serveurs de secours, des unités de stockage, ou même des réseaux complets qui se déclenchent en cas de problème détecté. Leur capacité à réagir vite et sans que personne ne le remarque est vitale pour assurer que le réseau fonctionne bien.
Éviter les pannes avant qu’elles ne surviennent est aussi un aspect vital. Cela nécessite de garder un œil constant sur le réseau pour trouver et résoudre les problèmes avant qu’ils ne mènent à une panne. Cela comprend l’utilisation de logiciels pour surveiller le réseau, examiner régulièrement comment le système fonctionne et mettre à jour le matériel et les logiciels pour se protéger contre les failles de sécurité.
Faire des mises à jour ou des réparations nécessaires sans arrêter le service est possible grâce à la maintenance qui peut se faire pendant que le réseau est en marche. C’est très important dans les situations où arrêter le système, même brièvement, pourrait causer des problèmes sérieux. Cela demande une bonne organisation et des technologies adaptées qui permettent de changer ou de mettre à jour des pièces sans devoir tout éteindre.
Parallèlement, s’assurer que le réseau peut continuer à fonctionner normalement même en cas de panne repose sur des mécanismes automatiques qui redirigent les données et les opérations vers les dispositifs de secours sans que les utilisateurs s’en aperçoivent. Mettre en place une telle capacité demande de concevoir un réseau solide et de prévoir des stratégies efficaces pour récupérer après un incident.
L’uptime institue
Pour qu’un datacenter soit certifié, tous ses systèmes et composants doivent respecter les normes de ce niveau. Cela signifie que si un datacenter vise la certification, il doit assurer une redondance complète et une tolérance aux pannes dans tous les domaines, y compris l’alimentation électrique, le refroidissement, le réseau et les systèmes de sécurité. Un « maillon faible » dans l’un de ces domaines pourrait réduire le niveau général de tolérance aux pannes et de disponibilité du centre, le rendant inéligible pour la certification.
Cette approche globale garantit que la redondance et la résilience sont intégrées dans l’ensemble du design et de l’exploitation du datacenter, éliminant ainsi les points uniques de défaillance et maximisant la fiabilité du service. L’Uptime Institute est une organisation reconnue pour ses normes et certifications dans la conception et l’exploitation des datacenter. Elle établit un cadre rigoureux pour évaluer la tolérance aux pannes et la redondance des infrastructures informatiques. À travers son système de classification, l’Uptime Institute définit quatre niveaux de fiabilité et de redondance pour les datacenters, allant de Tier I à Tier IV.
En complément aux classifications de Tiers de l’Uptime Institute, les garanties de disponibilité d’un datacenter ou d’un serveur sont souvent mesurées par un niveau d’Accord de Niveau de Service (SLA). Ces accords SLA sont généralement exprimés en termes de nombre de “neufs” pour décrire la fiabilité et la disponibilité d’un service. Par exemple, un SLA offrant une disponibilité de 99% (deux neufs) signifie que le système peut être indisponible jusqu’à 3,65 jours par an, tandis qu’un SLA de 99,9% (trois neufs) indique une tolérance à une indisponibilité maximale de 8,76 heures par an. À mesure que le nombre de “neufs” augmente, la disponibilité s’améliore, réduisant ainsi le temps d’arrêt acceptable. Un SLA de 99,999% (cinq neufs), par exemple, permet seulement environ 5 minutes d’indisponibilité par an.
Disponibilité en % | Panne tolérée par an | Panne tolérée par mois | Tier |
---|---|---|---|
90% (un neuf) | moins de 36 jours cumulés | moins de 3 jours cumulés | |
99% (deux neuf) | moins de 90 heures | moins de 8 heures | |
99.5% | moins de 44 heures | moins de 4 heures | Tier I |
99.9% (trois neuf) | maximum 8 heures | maximum 45 minutes | Tier II |
99.95% | maximum 4 heures | maximum 20 minutes | |
99.99% (quatre neuf) | moins de 1 heure | moins de 5 minute | Tier III |
99.995% | moins de 20 minutes | moins de 2 minutes | Tier IV |
99.999% (cinq neuf) | moins de 5 minutes | moins de 30 secondes ! |
Il est à noter que les niveaux de SLA sont distincts des Tiers de l’Uptime Institute. Tandis que les Tiers se concentrent sur la conception physique et la redondance des infrastructures, les SLA concernent la performance opérationnelle et la fiabilité. La combinaison des deux fournit une vue complète de la robustesse et de la fiabilité d’un datacenter ou d’un service de cloud computing.
Tier I
Le Tier I, selon la classification de l’Uptime Institute, représente le niveau de base de la redondance et de la disponibilité dans un datacenter. Bien que ce soit le niveau le plus élémentaire, il y a des exigences spécifiques à respecter pour qu’un datacenter soit classifié Tier I.
- Infrastructure de base : Un datacenter de niveau I doit avoir une infrastructure qui inclut tous les éléments nécessaires à son fonctionnement. Ceci englobe les équipements de calcul et de stockage, les dispositifs de connexion réseau, ainsi que les systèmes pour fournir de l’électricité et pour le refroidissement.
- Alimentation électrique et refroidissement : L’alimentation électrique et le système de refroidissement doivent être suffisants pour supporter les opérations normales. Cependant, dans un Tier I, ces systèmes ne sont pas redondants. En cas de défaillance, il est probable que les opérations soient interrompues.
- Distribution électrique : La distribution électrique doit être fiable et capable de supporter toutes les charges opérationnelles. Le système doit être conçu pour minimiser les risques de panne mais n’inclut pas de composants redondants.
- Maintenance : La maintenance dans un datacenter Tier I peut entraîner des interruptions de service, car il n’existe pas de chemins de distribution redondants pour l’électricité ou le refroidissement. Les opérations de maintenance nécessitent donc souvent un arrêt planifié des équipements.
- Protection contre les interruptions : Bien que les datacenters Tier I n’aient pas de redondance intégrée, ils doivent tout de même mettre en place des mesures de protection contre les interruptions, telles que des onduleurs (UPS) pour pallier les coupures de courant de courte durée.
- Sécurité physique et environnementale : Protéger les équipements contre les intrusions non autorisées grâce à des mesures de sécurité physique, ainsi que surveiller les conditions environnementales pour repérer des anomalies telles que la surchauffe ou l’humidité, sont des actions nécessaires.
- Connectivité réseau : Le datacenter doit disposer d’une connectivité réseau fiable pour permettre l’accès aux données et aux services hébergés. Cependant, la redondance de la connectivité n’est pas une exigence pour le Tier I.
En résumé, un datacenter Tier I fournit une infrastructure de base avec une capacité opérationnelle limitée en termes de redondance et de tolérance aux pannes. Il convient pour les organisations ayant des besoins informatiques moins critiques, où les interruptions occasionnelles sont acceptables.
Tier II
Le Tier II de la classification de l’Uptime Institute représente une évolution par rapport au Tier I, en introduisant une certaine redondance dans les composants du datacenter. Voici les aspects clés à considérer pour un datacenter classifié Tier II :
- Infrastructure améliorée : Le Tier II conserve les exigences de base du Tier I mais inclut des améliorations dans l’infrastructure. Ces améliorations sont orientées vers une plus grande fiabilité, mais sans atteindre la redondance complète.
- Alimentation électrique et refroidissement : Dans un datacenter Tier II, des éléments redondants sont ajoutés aux systèmes d’alimentation électrique et de refroidissement. Toutefois, cette redondance est partielle, ne couvrant pas tous les composants ou chemins de distribution.
- Distribution électrique avec redondance partielle : La distribution électrique intègre une redondance partielle, ce qui permet de gérer certaines formes de défaillances sans entraîner d’interruption totale. Les composants critiques peuvent avoir des backups, mais pas l’ensemble du système.
- Maintenance avec interruption limitée : La maintenance dans un datacenter Tier II peut encore entraîner des interruptions, mais dans une moindre mesure comparée au Tier I. Certains travaux de maintenance peuvent être effectués sans arrêt total du service.
- Protection contre les interruptions améliorée : Les mesures de protection contre les interruptions, comme les UPS, sont renforcées en Tier II, offrant une meilleure couverture en cas de coupures de courant.
- Sécurité physique et environnementale accrue : Tout comme en Tier I, la sécurité physique et la surveillance environnementale sont primordiales, mais avec des systèmes potentiellement plus robustes en raison de la valeur accrue de l’infrastructure.
- Connectivité réseau avec redondance limitée : La connectivité réseau peut inclure une certaine redondance. Cependant, contrairement aux Tiers supérieurs, cette redondance n’est pas exhaustive et ne couvre pas tous les chemins ou composants.
En résumé, un datacenter Tier II offre une fiabilité supérieure au Tier I grâce à une redondance partielle dans ses composants et systèmes. Il convient aux organisations où les interruptions de service sont moins tolérables, mais où une interruption temporaire planifiée reste acceptable.
Tier III
Le Tier III de la classification de l’Uptime Institute marque une nette progression en termes de redondance et de disponibilité par rapport aux Tiers I et II. Voici les aspects clés d’un datacenter classifié Tier III :
- Infrastructure avec redondance concrète : Les datacenters Tier III sont conçus avec une redondance significative dans leur infrastructure, y compris des chemins de distribution d’énergie et de refroidissement multiples et indépendants, permettant un fonctionnement simultané et sans interruption.
- Alimentation électrique et refroidissement avec redondance N+1 : Les systèmes d’alimentation électrique et de refroidissement intègrent une redondance N+1, garantissant qu’en cas de défaillance d’un composant, un autre est immédiatement disponible pour prendre le relais sans impact sur les opérations.
- Distribution électrique redondante : La distribution électrique en Tier III est conçue pour supporter une redondance complète, avec des chemins de distribution multiples et indépendants. Cela permet d’assurer une alimentation ininterrompue même pendant les maintenances ou en cas de défaillances d’un composant.
- Maintenance sans interruption : Une caractéristique clé des datacenters Tier III est la capacité de mener des opérations de maintenance sans interrompre les services informatiques. Cela est rendu possible grâce à la redondance des chemins de distribution et des équipements.
- Protection contre les interruptions robustes : Les systèmes d’alimentation sans interruption (UPS) sont conçus pour offrir une couverture complète et continue, même en cas de maintenance ou de défaillance d’un des UPS, grâce à la redondance N+1.
- Sécurité physique et environnementale avancée : La sécurité et la surveillance environnementale sont encore plus critiques dans les datacenters Tier III, en raison de l’importance accrue de maintenir une opérationnalité continue.
- Connectivité réseau redondante : La connectivité réseau dans un datacenter Tier III bénéficie également de redondance, avec des liaisons multiples et diversifiées pour garantir une connectivité constante et fiable.
Un datacenter Tier III est donc adapté aux organisations nécessitant une haute disponibilité, où les interruptions de service, même brèves, ne sont pas tolérables. La conception de redondance complète garantit que les services restent opérationnels même durant des interventions de maintenance ou des défaillances isolées.
La philosophie derrière le concept de redondance “N+1” est relativement simple et s’applique directement aux systèmes critiques comme l’alimentation électrique et le refroidissement dans les datacenters. “N” représente le nombre de composants nécessaires pour fonctionner à pleine capacité sous une charge normale. Le “+1” indique la présence d’un composant supplémentaire, au-delà de ce qui est strictement nécessaire.
En pratique, cela signifie que si un datacenter a besoin de trois unités d’alimentation pour gérer sa charge maximale (c’est-à-dire “N” égal à 3), un système N+1 aurait quatre unités d’alimentation. L’idée est que si l’une de ces unités tombe en panne ou nécessite une maintenance, les trois autres peuvent continuer à gérer la charge totale sans aucune réduction de performance ou d’interruption de service.
Ce principe assure donc une couche supplémentaire de sécurité et de fiabilité. Même en cas de défaillance inattendue d’un composant, le système reste opérationnel, car le composant supplémentaire (“+1”) prend immédiatement le relais. En d’autre mots, N+1 est une stratégie de redondance qui garantit qu’il y a toujours un excédent de capacité opérationnelle pour pallier les défaillances potentielles des équipements.
Tier IV
Le Tier IV est le niveau le plus élevé dans la classification de l’Uptime Institute pour les datacenters. Il représente le summum de la redondance et de la tolérance aux pannes. Voici les caractéristiques fondamentales d’un datacenter classifié Tier IV :
- Infrastructure entièrement redondante : Les datacenters Tier IV sont conçus avec une redondance complète dans tous les aspects de l’infrastructure, y compris des chemins de distribution d’énergie et de refroidissement multiples et entièrement indépendants, garantissant une opérabilité continue même en cas de défaillance majeure.
- Alimentation électrique et refroidissement 2N+1 : Les systèmes d’alimentation et de refroidissement sont conçus pour offrir une redondance 2N+1, assurant une double protection contre les défaillances. Cela signifie que chaque composant à un système de secours indépendant.
- Distribution électrique complètement redondante : La distribution électrique dans un Tier IV est redondante et diversifiée, avec des chemins de distribution complètement séparés et indépendants, éliminant tout point de défaillance unique.
- Maintenance sans aucune interruption : La maintenance dans un datacenter Tier IV se déroule sans aucune interruption des services. Les chemins de distribution et équipements redondants permettent des opérations de maintenance simultanées sans affecter la disponibilité.
- Protection contre les interruptions complète : Dans un datacenter Tier IV, la protection contre les interruptions est conçue pour offrir une couverture totale, allant bien au-delà des systèmes UPS standards. Cela inclut, non seulement une redondance complète des UPS, mais également des générateurs de secours, des systèmes de distribution d’énergie complètement indépendants et des mesures de sauvegarde pour d’autres types d’interruptions.
- Connectivité Réseau à Redondance Totale : La connectivité réseau bénéficie d’une redondance totale, avec plusieurs chemins indépendants pour assurer une continuité ininterrompue du service.
Un datacenter de niveau IV convient parfaitement aux organisations pour lesquelles la continuité du service est nécessaire et où toute interruption, même très brève, n’est pas tolérée. La conception et la gestion de ces datacenters visent à maximiser la résistance aux pannes, garantissant ainsi le niveau le plus élevé de disponibilité et de fiabilité.
La certification impose une exigence très stricte en matière de continuité de service : même en cas de panne majeure, il ne doit y avoir aucune interruption du service. Cela signifie que la conception et l’infrastructure du datacenter doivent être telles que tout composant défaillant peut être immédiatement remplacé par un autre, sans impact sur les opérations en cours.
De plus, pour les éléments les plus critiques du datacenter, il est vivement recommandé d’avoir des systèmes de secours qui possèdent eux-mêmes leurs propres systèmes de secours indépendants. Cette approche, souvent réalisée à travers la redondance 2N+1, assure que même si un système de secours rencontre un problème, il existe encore un autre niveau de sauvegarde pour maintenir le service actif.
La philosophie derrière le concept de redondance 2N+1 est centrée sur l’assurance d’une fiabilité et d’une disponibilité maximales dans les systèmes critiques comme ceux des datacenters. Pour clarifier :
- 2N signifie avoir deux fois le nombre nécessaire de composants pour faire fonctionner le système. Par exemple, si un système nécessite un seul composant pour fonctionner, avec 2N, vous aurez deux de ces composants. Cela crée une redondance complète : si un composant tombe en panne, l’autre peut immédiatement prendre le relais sans interruption.
- 2N+1 ajoute un autre niveau de sécurité. Cela signifie que, en plus de la redondance complète (2N), il y a un composant supplémentaire en réserve. Ainsi, si vous avez besoin d’un composant pour fonctionner (N), avec 2N+1, vous avez un total de trois composants : deux en fonctionnement actif et un en réserve.
L’idée derrière 2N+1 est donc de fournir non seulement une sauvegarde en cas de panne (avec le 2N), mais aussi une marge supplémentaire de sécurité (le +1) pour gérer des situations imprévues ou des maintenances simultanées. Cela garantit que le système reste opérationnel même si l’un des composants redondants est défaillant ou hors service pour maintenance. Pour résumé, 2N+1 est une stratégie visant à maximiser la continuité et la fiabilité du service en prévoyant un niveau supplémentaire de sauvegarde au-delà de la redondance simple.