Les pannes de cloud sont-elles le résultat du choix du prix plutôt que de la fiabilité ?

Les pannes de cloud sont-elles le résultat du choix du prix plutôt que de la fiabilité ?

Bien que les mécanismes derrière de nombreuses pannes de cloud soient finalement révélés, certains des problèmes pourraient se reproduire en raison des compromis faits par les fournisseurs pour des raisons de coût et de rentabilité.

La majorité des pannes de cloud se résument à des mises à jour logicielles ou à des changements de configuration qui ont mal tourné, explique Kurt Seifried, directeur de la blockchain et directeur des projets spéciaux de la Cloud Security Alliance. Lui et d’autres experts voient le cloud devenir de plus en plus complexe avec de nouvelles fonctionnalités déployées pour répondre à la demande et aux attentes en matière d’innovation, mais la volonté de publier des mises à jour peut conduire à des raccourcis. “En fin de compte, c’est un échec humain dans la mesure où ils auraient dû le tester davantage”, déclare Seifried, bien qu’il reconnaisse que lorsque des modifications sont apportées à un système majeur, à un moment donné, les tests doivent s’arrêter et les mises à jour doivent être déployées.

Connaître le problème ne résout pas toujours le problème

Il dit que bien que les problèmes majeurs qui conduisent aux pannes soient relativement connus, l’omniprésence et la nécessité du cloud pour le commerce moderne signifient qu’il n’y a pas d’autre choix que de suivre les pratiques des fournisseurs actuels. « La plupart des entreprises font des compromis, car que vont faire les clients ? Partir? Cela fait partie du problème », déclare Seifried. “Le coût de ces pannes est largement externalisé.”

Début juillet, Rogers Communications a subi une panne qui a duré environ 19 heures et a affecté le commerce, y compris les services bancaires et d’autres services vitaux. Rogers, qui compte quelque 2,25 millions de clients Internet de détail et plus de 10 millions de clients sans fil, a initialement offert à ses clients un crédit automatique équivalant à cinq jours de frais de service. Plus récemment, la société a annoncé qu’elle dépenserait 7,74 milliards de dollars américains au cours des trois prochaines années pour renforcer les tests et tirer parti de l’IA pour éviter de futures pannes.

L’incident a conduit le gouvernement canadien à ordonner une enquête sur la question, avec des appels à de nouveaux protocoles pour mieux informer le public, mais les motivations axées sur le marché peuvent entraver la résilience du cloud.

« Voulez-vous un réseau rapide, ou voulez-vous qu’il soit fiable, ou voulez-vous qu’il soit bon marché ? Vous pouvez en choisir deux », dit Seifried. La tendance, dit-il, est que les clients optent pour le rapide et le bon marché.

Pas de cloud signifie pas d’affaires

La dépendance à l’égard du cloud continue d’augmenter, déclare Amitabh Sinha, PDG de Workspot, dont les clients déploient des PC cloud dans différentes parties du monde et ont besoin d’accéder au cloud. « Si ce n’est pas disponible, les gens ne travaillent pas », dit-il.

Lire aussi  Vous voulez dégager plus de valeur de vos efforts en matière de développement durable ?

Les pannes peuvent entraîner une perte de productivité moyenne de 150 $ par heure et par utilisateur parmi la clientèle de Workspot avec des PC cloud, dit Sinha, si le cloud est en panne.

Les mauvaises mises à jour de pilotes étant fréquemment responsables des pannes de cloud, plutôt que des catastrophes naturelles ou des cyberattaques, Sinha affirme que les fournisseurs sont devenus plus aptes à se préparer à de tels problèmes. « Les fournisseurs de cloud ont appris une chose, qui est de ne pas pousser une mise à jour dans le monde entier dès le premier jour », dit-il.

Au lieu de cela, ces mises à jour peuvent être poussées vers une région pour commencer. Même avec des dommages limités aux régions, la gravité du problème peut augmenter s’il s’agit d’une mauvaise mise à jour de la structure plutôt que d’un simple problème de pilote, dit-il. “Si vous poussez une mauvaise mise à jour de votre tissu, cela affecte l’ensemble du tissu”, déclare Sinha. “Ce sont un peu plus catastrophiques.” Un mauvais tissu peut faire tomber tous les clients d’une région, dit-il, et peut prendre de six à 24 heures pour annuler les mises à jour du tissu. “Cela n’arrive pas très souvent – une fois par an au moins.”

Les pannes dans certaines régions densément peuplées peuvent cependant faire tomber des services majeurs tels que Netflix, qui a tendance à attirer l’attention du public, dit Sinha. “Quand cette région s’effondre, on a l’impression que le monde s’est arrêté.” Il estime toujours que le réseau cloud global est résilient, bien que des défaillances régionales puissent apparaître plus fréquemment. « Ce ne sont pas des échecs mondiaux », dit Sinha. “Les fournisseurs de cloud ont un bon modèle pour s’assurer que les pannes sont détectées tôt et corrigées tôt.”

Les pannes régionales peuvent provoquer de larges ondulations

Cela n’a toujours pas réduit la perturbation de la panne de Rogers, qui, selon Seifried, a également révélé la portée des fournisseurs de communications. « Nous avons tous appris que Rogers est propriétaire d’Interac, qui est notre principal réseau de traitement des paiements ici pour les cartes de débit », dit-il. Lorsque Rogers est tombé en panne, il a laissé le débit Interac et d’autres services indisponibles pour le public. Cela a ouvert une discussion politique plus profonde, dit Seifried, sur le fait que le fournisseur était ouvert sur son influence et son impact sur le Canada. “Il est assez clair qu’ils ont fait une fenêtre de maintenance à 3 heures du matin et ont tué leur réseau pendant une journée”, dit-il.

Lire aussi  L'iPhone 15 arrive bientôt: voici à quoi s'attendre d'Apple

Seifried compare cela avec la gestion des pannes par Cloudflare, qui, selon lui, publiera des rapports dans la demi-heure à une heure suivant un incident, suivis un jour plus tard d’une analyse complète des causes avec les remèdes pris pour s’assurer que de tels incidents ne se reproduisent pas. “Beaucoup d’entreprises ont peur d’être honnêtes sur les raisons pour lesquelles elles ont foiré”, dit-il.

Les compagnies de téléphone qui sont des fournisseurs de cloud, dit Seifried, peuvent être réticentes à exposer initialement ce qui a précipité une panne. “Ils ne vont pas vous dire la vérité de sitôt sans la tourner parce qu’ils ne veulent pas être poursuivis en justice”, dit-il. “Nous devons accéder à cet espace plus mature, car c’est tout maintenant.”

Erreurs internes

La majorité des pannes de cloud peuvent provenir d’erreurs du fournisseur de cloud, mais Seifried dit qu’il y a manifestement eu des acteurs malveillants dans certains cas aberrants. Par exemple, lorsque l’attaque du botnet Mirai a frappé en 2016, lançant des attaques par déni de service distribuées sur Dyn et OVH, Seifried dit qu’elle a déclenché une panique des cyber-attaques d’États-nations en cours avec des craintes que l’ensemble du Web soit en danger. “Il s’est avéré que trois personnes dans la vingtaine faisaient des manigances sur le serveur Minecraft”, dit-il. «Essentiellement, ils utilisaient un racket de protection. Ils faisaient ça dans un dortoir en gros.

Pourtant, la plupart des pannes connues proviennent de fournisseurs, dit Seifried, comme la panne BGP (protocole de passerelle frontalière) en octobre dernier, qui a perturbé Facebook, Instagram, WhatsApp et d’autres sites pendant environ six heures. BGP est la façon dont les réseaux se connectent à d’autres réseaux Internet. “Vous cassez cela et vous avez tout cassé”, dit-il.

Facebook a signalé que la panne avait été «déclenchée par le système qui gère la capacité de notre réseau fédérateur mondial. L’épine dorsale est le réseau que Facebook a construit pour connecter toutes nos installations informatiques entre elles, qui se compose de dizaines de milliers de kilomètres de câbles à fibres optiques traversant le monde et reliant tous nos centres de données.

Auparavant, une telle panne pouvait affecter une empreinte numérique plus petite, mais désormais, l’interconnectivité du cloud signifie que les pannes sont moins ignorables. “Auparavant, c’était:” Oh, Internet est en panne. Ce n’est pas grave », déclare Seifried. “Maintenant, c’est comme, ‘Internet est en panne. Personne ne peut acheter de la nourriture.’

Lire aussi  Lotte Liquor, recevant une « nouvelle » force, vise un autre grand succès avec une nouvelle bière

Un problème massivement complexe

Des entreprises telles qu’AWS et Cloudflare sont intégrées dans la composition du cloud et doivent souvent créer des innovations plus récentes et plus importantes, explique Seifried, pour évoluer vers le haut et vers le bas – et la gravité des pannes peut être liée à la complexité croissante. «Ce sont des systèmes horriblement vastes et complexes qui changent et évoluent constamment», dit-il.

Les mesures de sécurité et de sûreté peuvent être compromises, dit Seifried, à mesure que de nouvelles capacités sont déployées, bien que les fournisseurs fassent un assez bon travail pour couvrir leurs bases. “Lorsque Cloudflare tombe en panne, cela représente environ 30 % de l’Internet mondial. Cloudflare le corrige généralement en 30 à 40 minutes », dit-il.

À certains égards, le rythme des changements dans le cloud a également conduit à l’inverse du problème de la dette technologique héritée. Au lieu que les entreprises se bousculent pour trouver des ingénieurs versés dans la maintenance des anciens systèmes, il devient de plus en plus difficile de suivre les derniers systèmes. « Dans le passé, vous déployiez un système informatique et l’utilisiez pendant 10 ans », explique Seifried. “Maintenant, pouvez-vous imaginer de manière réaliste qu’une entreprise déploie un système informatique tel quel et ne le mette pas à niveau ou ne le modifie pas de manière importante au cours des 10 prochaines années ?”

Cela soulève des questions sur l’avenir de la résilience du cloud, car les fournisseurs sont confrontés à des systèmes qui continuent de se développer, augmentant de manière exponentielle les composants numériques dont ils ont besoin pour surveiller les pannes et les correctifs. “Où apprenez-vous à faire des choses à l’échelle d’Amazon autre que chez Amazon ? Vous ne pouvez pas simplement apprendre cela dans votre sous-sol », déclare Seifried. « Ma plus grande crainte est que nous arrivions au point de complexité où vous ne pouvez pas apprendre cela sans faire un apprentissage. Il n’y a aucun moyen qu’une université puisse vous apprendre à gérer un système avec 100 millions de notes de calcul couvrant le monde entier.

Que lire ensuite :

Comment concevoir une architecture pour la résilience dans une réalité de pannes de cloud

La dépendance au cloud nécessite une plus grande résilience parmi les fournisseurs

Panne et récupération : que se passe-t-il après la perturbation d’AWS ?

5 leçons tirées de la panne de Facebook, Instagram et WhatsApp

Related News

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick