Panne « Rogers » ou « les enjeux de BGP (« protocole de passerelle frontière »)

Depuis maintenant 24 heures, le Canada entier est affecté par une panne complète des services de l’un des plus importants fournisseurs de services Internet (FSI) et de télécommunications au pays, Rogers.

Selon l’organisation NetBlocks, une diminution soudaine et soutenue de 25% de tout le trafic Internet au Canada a été constaté (!). Ce qui signifie, en gros, que le Canada ne peut pas se permettre de perdre les services de Rogers.

Pour l’instant, la théorie principale derrière cette panne, serait une erreur (humaine ou technique) en lien avec BGP (« Border Gateway Protocol » ou le « Protocole de passerelle frontière »).

En gros, le « protocole de passerelle frontière », c’est ce qui fait que les systèmes reliés aux réseaux interne de Rogers arrivent à communiquer le plus optimalement possible avec l’Internet et tous les autres réseaux des autres entreprises. Comme un gare de train qui s’assure de bien aiguiller tous les trains vers les bonnes destinations, que ce soit vers le garage, vers un autre réseau de chemins de fer (appartenant à une autre compagnie de chemin de fer) ou vers la station d’arrivée ou de départ. Si quelqu’un s’amuse à jouer avec le système d’aiguillage des trains, tout peu arriver et des catastrophes peuvent s’en suivre.

C’est ce qui semble, pour l’instant, être arrivé avec Rogers. Quelqu’un ou quelque chose aurait affecté BGP et cela compromis tout le trafic Internet de l’entreprise à travers toutes les lignes d’affaires. Du moins, c’est l’analyse qu’en a fait CloudFlare, une énorme multinationale technologique américaine et l’un des plus gros fournisseur de service de distribution de contenu et de protection contre les attaques de déni de service.

D’ailleurs, selon cette analyse de Mingwei Zhang, au courant de la journée de vendredi et de samedi, Rogers aurait tenté de régler la situation à plusieurs reprises, mais à chaque fois, il semblait que le système retombait. Seulement samedi, une reprise graduelle et stable des services à partir de l’est du pays a été observée. À voir si cela fonctionnera à l’ensemble du pays. Mais pour l’instant, c’est ce qui est constaté.

Les entreprises technologiques sont de plus en plus victimes de ce genre d’erreur en lien avec le protocole de passerelle frontière. En octobre 2021, Facebook avait complètement disparu d’Internet pendant 6 heures suite à une erreur avec le BGP.

À ce sujet, un site web qui se nomme « Est-ce que BGP est sécuritaire maintenant? » existe et est dédié entièrement à parler des enjeux reliés à ce protocole.

Quelques enjeux de BGP

Selon ce même site, qui compare d’ailleurs BGP au « service postal d’Internet », les enjeux en lien avec BGP seraient les suivants :

Par défaut, BGP n’intègre aucun protocole de sécurité. Il appartient à chaque système autonome de mettre en place un filtrage des « mauvaises routes ». Les routes qui fuient peuvent casser des parties d’Internet en les rendant inaccessibles. C’est souvent le résultat de mauvaises configurations. Bien que ce ne soit pas toujours accidentel. Une pratique appelée BGP hijack consiste à rediriger le trafic vers un autre système autonome pour voler des informations (via le phishing, ou l’écoute passive par exemple).

BGP peut être sécurisé si tous les systèmes autonomes (AS) n’annoncent que des routes légitimes. Une route est définie comme légitime lorsque le propriétaire de la ressource autorise son annonce. Des filtres doivent être construits afin de s’assurer que seules les routes légitimes sont acceptées. Il existe quelques approches pour la validation de route BGP qui varient en degrés de fiabilité et d’efficacité.

https://isbgpsafeyet.com/#faq

Et maintenant? Déterminer les causes

Si la panne est effectivement reliée à BGP, il faudra alors identifier la cause. Si la tendance se maintient, cela serait peut-être simplement dû à une erreur humaine interne. Par inadvertance, inattention, malveillance ou incompétence?

Si l’erreur est relié à un problème technique/technologique, il faudra déterminer si c’est un bête incident ou un événement de sécurité. Il faudra déterminer si cela est la cause ou un symptôme d’un enjeu plus large (par exemple la compromission des systèmes critiques de l’entreprise).

Bref, il faudra définitivement que Rogers enquête. Mais, vu l’impact que la panne a eue sur l’ensemble du trafic Internet du Canada, il faudrait aussi, idéalement, que le Centre de la sécurité des télécommunications (« CST« ) enquête, ou que le Conseil de la radiodiffusion et des télécommunications canadiennes (« CRTC« ) se réveille et fasse son travail.

Qui plus est, clairement, on constate un enjeu de redondance des services/systèmes secondaires, un enjeu de continuité des affaires et, surtout, de communication. Énormément de services essentiels et gouvernementaux sont soudainement devenus indisponibles suite à la panne de Rogers (CRTC, Agence frontalière, systèmes d’institutions financières, etc). Bref, le Canada n’était pas fonctionnel.

Tout au long de la crise, Rogers n’a PAS communiqué. Encore à ce jour, on ne sait toujours pas officiellement ce qui ce passe, même si l’entreprise est clairement au courant. Cela n’est PAS acceptable et ne suit en aucun cas les meilleures pratiques en gestion de crise informatique. Lorsqu’une panne technologique se passe, il faut communiquer souvent et honnêtement. Ce n’est absolument pas ce qui a été fait dans le cas actuel.

En conclusion : ceci est une catastrophe

Il y a plusieurs leçon à tirer de ce qui c’est passé. Probablement qu’il y aura des poursuites également. Nous espérons que cela amènera des changements. Mais, clairement, le Canada n’est pas prêt à faire face à une crise technologique majeure. Encore une fois, les citoyens sont laissés à eux-mêmes.

Si cela est relié à une bête erreur humaine, nous avons probablement eu de la chance. Si cela avait été une réelle attaque, cela n’aurait pas été joli.

FacebooktwitterredditpinterestlinkedintumblrmailFacebooktwitterredditpinterestlinkedintumblrmail