Les pratiques opérationnelles d’Orange en question lors de la panne des numéros d’urgence

La panne des numéros d’urgence le mercredi 2 juin 2021 a révélé des insuffisances chez Orange. Au point que le gouvernement demande à l’Autorité de régulation des télécoms, de vérifier, en substance, si l’opérateur fait correctement son métier. Le manque de réactivité et de compréhension des enjeux par Orange apparaît clairement à la lecture du rapport qui vient d’être remis au Premier ministre. Six cas de décès signalés peuvent être liés à l’événement. La panne a touché les numéros d’urgence 15 (Samu), 17 (police), 18 (pompiers) et 112 (numéro européen unique).

Trop de temps pour prendre des décisions clés

Les équipes d’Orange ont mis beaucoup trop de temps pour prendre des décisions clés lors de la dégradation de leurs services de téléphonie malgré les messages venant de leurs clients. Des personnes d’Orange ont diffusé des messages inexacts sur les délais de retour à la normale. De plus, certains responsables d’Orange désignés comme les personnes à contacter en situation de crise ont été difficilement voire impossible à joindre. Le rapport d’audit a été établi par l’Anssi (Agence nationale de la sécurité des systèmes d’information) avec le concours de l’IGAS (Inspection générale des affaires sociales), de l’IGA (l’inspection générale de l’administration), du CGE (le Conseil général de l’économie) et du CCED (le Commissariat aux communications électroniques de défense).

Les actions du technicien auraient dans tous les cas causé une indisponibilité du service car l’ordre d’exécution des commandes n’était pas le bon

La panne est due au dysfonctionnement des serveurs d’appels, fournis par Italtel, et dont la configuration a été modifiée par un technicien d’Orange le mercredi 2 juin à 16 h 44. L’impact très important de cette panne est dû à un bug informatique du constructeur, reconnaît le rapport. Néanmoins, les actions réalisées par le technicien auraient dans tous les cas causé une indisponibilité du service car l’ordre d’exécution des commandes de configuration n’était pas le bon. Sans le bug logiciel de l’équipementier, cette indisponibilité aurait toutefois été de courte durée, d’au maximum 15 minutes.

La manière de modifier le paramétrage des équipements en production par l’opérateur est pointée du doigt. Il n’y a pas eu de phase de test de la nouvelle configuration et celle-ci a été installée simultanément sur tous les serveurs d’appel. Les opérations qui ont conduit au bug logiciel sur les serveurs d’appels n’ont pas été testées sur la plateforme de pré-production, car Orange ne considérait pas cette opération comme sensible. De toute façon, cette plateforme de pré-production ne possède pas d’équipements permettant de simuler la montée en charge du trafic téléphonique. Des dysfonctionnements ont été visibles dans les 5 à 10 minutes qui ont suivi le changement de configuration.


Il a fallu 1 heure pour prendre conscience de l’impact sur les numéros d’urgence

Le rapport s’étonne que la mise en place d’un dispositif de gestion de crise par Orange adapté à l’ampleur des problèmes a été plus lente que celui de l’État. On pourrait s’attendre à ce qu’Orange dispose d’une surveillance plus précise et plus réactive de son réseau. En particulier, Orange a mis près de 1 heure à prendre conscience que la panne touchait en particulier les services d’urgence, 2 heures pour en informer les autorités et près de 3 heures pour mettre en place un dispositif adapté. « Cela est dû à plusieurs dysfonctionnements internes à Orange » souligne le rapport.

Aucun exercice de crise simulant une défaillance logicielle impactant le service des numéros d’urgence n’a été réalisé par Orange

Aucun exercice de crise simulant une défaillance logicielle ou une attaque informatique impactant le service des numéros d’urgence n’a été réalisé par Orange ou n’a été organisé par l’État. Un retour d’expérience sur un incident de mai 2018 n’a pas profité aux exploitants ou à l’équipe de maîtrise d’œuvre des serveurs d’appels alors qu’un bug logiciel était également à l’origine de l’incident. Il existe un manque de compréhension fine du produit d’Italtel par Orange en partie dû au fait que cette technologie est vieillissante et qu’il est donc difficile de se former. Les explications fournies par Orange lors de certains entretiens ont pu se révéler inexactes.

La crise qui a affecté de façon notable les communications téléphoniques les 2 et 3 juin 2021 a montré que le dispositif de crise existant au sein d’Orange devait être amélioré pour prendre en compte de façon spécifique d’éventuels dysfonctionnements affectant les services d’urgences, au niveau des délais de réaction d’une part, de la relation avec les pouvoirs publics d’autre part.

Cédric O, secrétaire d’Etat au numérique a présenté le résultat de l’audit d’Orange le 22 juillet


Aucune mesure particulière n’était prise pour les numéros d’urgence

Dans le dispositif de gestion de crise d’Orange, la qualité de l’abonné – en l’occurrence les services d’urgences – ne constitue nullement un élément d’appréciation utilisé par l’opérateur pour caractériser une situation de crise. Il n’y a ainsi aucune mesure particulière de prévue pour des abonnés aussi sensibles que les services d’urgence, hormis une éventuelle approche commerciale renforcée avec des informations via des équipes dédiées, et ce uniquement pour ceux d’entre eux ayant souscrit un contrat spécifique auprès d’Orange Business Services.

« La décision d’activer le dispositif de crise n’a pas été déclenchée par la remontée d’alerte de services d’urgences »

D’ailleurs, lors des auditions des responsables d’Orange, il a été indiqué à la mission d’audit que « la décision d’activer le dispositif de crise n’avait pas été déclenchée par la remontée d’alerte de services d’urgences mais par la dégradation du trafic sur l’interconnexion entre les réseaux IP et RTC qui concernait tous les numéros ». Cette situation explique la réaction spontanée d’un représentant d’Orange durant une réunion du centre interministériel de crise indiquant « que des entreprises aussi ont été touchées », remarque perçue par certains comme l’indice d’une absence de prise en considération du caractère d’urgence vitale qui était lié à cette crise.

Le rapport reconnait cependant que le caractère aléatoire des dysfonctionnements (coupures intermittentes, pas de black-out) et de leur localisation, n’a pas facilité pour Orange l’identification de la réalité et de l’ampleur du problème, ni de détecter immédiatement l’impact particulier qu’il pouvait avoir sur certains numéros sensibles. Il manquait un dispositif qui permette de détecter plus tôt un impact qui est intervenu dès 16 h 45 mais dont Orange ne semble avoir identifié l’ampleur qu’une heure plus tard, si l’on se réfère à sa main courante. Même la veille des réseaux sociaux assurée par les services marketing d’Orange, faute de lien avec les services techniques de supervision, n’a pas permis d’accélérer la détection du problème. L’un des opérateurs tiers n’a pu entrer en contact avec Orange qu’à 20 h 42.

Absence de conseil de la part d’Orange pour contourner le problème

Orange n’a pas fourni, que ce soit au niveau local ou au niveau national, de véritable conseil et d’aide la décision, ni de solutions de contournement, au moins durant la soirée et la nuit du 2 au 3 juin. D’une façon générale, les messages d’Orange semblent surtout avoir eu pour objet de rassurer, voire de faire patienter, comme on le ferait dans une relation commerciale classique.

Déroulé des événements chez Orange :

  • 16 h 44, changement de la configuration de tous les serveurs d’appels sans tests préalables
  • 16 h 45, un ticket d’incident est ouvert auprès du centre support d’Orange par le Samu du Nord de la France qui observe une chute soudaine des appels entrants
  • 17 h, les services techniques d’Orange identifient un problème et mobilisent des experts des serveurs d’appels.
  • 17 h 10, la brigade des sapeurs pompiers de Paris essaye de joindre Orange mais n’y parviendra pas avant 18 h 35.
  • 17 h 20, Orange tente de rétablir le service et débute l’escalade de l’incident en interne. Cette escalade n’aboutira qu’à 19 h 14.
  • 17 h 25, les techniciens d’Orange tentent de revenir en arrière sur la configuration du serveur d’appels numéro 1 mais sans succès.
  • 17 h 30 à 18 h 10, ouverture de tickets incident chez Orange par les autres opérateurs.
  • 17 h 36, le président du SAMU envoie un email d’alerte aux cabinets de la Présidence de la République, du Premier ministre et du ministère des solidarités et de la Santé ainsi qu’à la direction générale de l’offre de soins (DGOS).
  • 17 h 40, le centre opérationnel de gestion interministérielle de crise appelle les grands opérateurs nationaux pour leur demander des investigations sur leurs réseaux.
  • 17 h 47, chez Orange, on mentionne dans la main courante, « beaucoup de plaintes sur les services, notamment à numéro court d’urgence ».
  • 18 h 06, un message interne chez Orange signale que « les services d’urgence d’Île-de-France, du Grand Est et du département du Nord sont injoignables ».
  • 18 h 35, la brigade des sapeurs pompiers de Paris arrive à joindre Orange. On lui explique qu’il s’agit d’un problème de maintenance et que le rétablissement interviendra dans les deux heures.
  • 18 h 41, un représentant d’Orange annonce « un rétablissement prévu vers 19 h 00 »
  • 18 h 45, les équipes d’Orange désactivent certaines fonctionnalités pensant améliorer les chances qu’un appel soit correctement acheminé en limitant le nombre de passages par les serveurs d’appels. Cette vision toujours partagée par la direction d’Orange est remise en question par le rapport.
  • 18 h 45, deux heures étant passées depuis le déclenchement de l’alerte, Orange décide la mise en place d’une cellule de crise managériale, avec la nomination d’une directrice de crise.
  • 18 h 50, Orange réalise le premier contact avec Italtel, l’équipementier lui fournissant les serveurs d’appel.  
  • 19 h 14, Orange ouvre un ticket chez Italtel. L’opérateur tente jusqu’à 22 h 00 le redémarrage des serveurs d’appel. Italtel intervient rapidement mais les redémarrages périodiques des serveurs d’appels compliquent  la compréhension de l’incident et la mise en œuvre de mesures de rétablissement du service.
  • 19 h 33, un message d’Orange signale que le règlement pourrait intervenir dans l’heure
  • 19 h 40, la première réunion de la cellule stratégique de crise d’Orange a lieu, une heure après l’activation du dispositif de crise avec une première communication via un tweet.
  • 19 h 50, Orange diffuse un communiqué conseillant d’utiliser les téléphones portables qui ne sont pas affectés par l’évènement  pour joindre les services d’urgence
  • 20 h 00, le directeur technique et SI d’Orange a un premier contact avec le directeur de cabinet du secrétaire d’État chargé du Numérique.
  • 20 h 40, Orange a un premier contact avec un des opérateurs tiers pour signaler un dysfonctionnement sur les numéros interconnectés, sans préciser l’impact particulier sur les numéros d’urgence.
  • 20 h 48, un message d’Orange « on espère un retour dans la nuit ».
  • 21 h 50, Orange essaye d’identifier une solution technique sans succès, et émet l’hypothèse d’avoir à relancer complètement les systèmes. L’opérateur indique que les solutions 06 vers 06 doivent être privilégiées.
  • 22 h 00, chez Orange, on débute la procédure qui permettra un retour en arrière sur les changements effectués sur les serveurs d’appels.
  • 22 h 40 et jusqu’au 3 juin à 2 heures, chez Orange, on procède au redémarrage à froid pour rétablir la configuration précédente des serveurs d’appels. Une procédure spécifique est réalisée. Elle est fournie par Italtel dans le manuel de l’équipement ainsi que directement lors d’échanges techniques au cours de l’incident, permettant de forcer l’application de la bonne configuration. Un redémarrage dit « à froid » est initié. Il vise à redémarrer les modules des serveurs d’appels en les forçant à charger une configuration présente sur le serveur de configuration. Cette procédure n’a été utilisée qu’en dernier recours car un redémarrage à froid prend 50 minutes.
  • 23 h 45, chez Orange, le fonctionnement des serveurs d’appels est rétabli
  • 23 h 50, selon Orange, la situation redevient nominale et les flux se rapprochent des trafics normaux en nuit normale. Maintien de la vigilance car la cause de la panne n’a pas été décelée.
  • 10 h 30, le jeudi 3 juin, selon  Orange, il y a un retour à la normale après des perturbations résiduelles constatées sur serveurs d’appels. C’est  la première réunion technique avec les opérateurs tiers.
  • 18 h, le jeudi 3 juin, Orange active une cellule d’accueil pour les services d’urgence qui rencontrent encore des difficultés.

Une réaction sur “Les pratiques opérationnelles d’Orange en question lors de la panne des numéros d’urgence” :

  1. AvatarQM

    J’ai du mal à comprendre comment certaines personnes chez Orange peuvent considérer les numéros courts d’urgences comme un client pro comme un autre 😓 Les accidents peuvent arriver, même si je pense qu’il aurait pu être évité, mais au moins réaliser l’impact d’une indisponibilité des numéros d’urgence… Orange sera-t-il porté responsable des morts potentiels lié à l’accident ? Ou cet incident sera-t-il considéré comme un accident sans responsable, du moins, causé par la malchance ?

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *