Zombies BGP : Pourquoi les routes disparues paralysent le réseau

Dans le système BGP (Border Gateway Protocol), qui fait office de guide pour l'Internet, l'un des moments les plus déconcertants est celui où une route supprimée survit tel un fantôme et intercepte le trafic. Ce phénomène, où des informations restent présentes comme routes actives dans certains routeurs mondiaux alors qu'un ingénieur a explicitement retiré un préfixe IP spécifique, est ce que nous appelons un zombie BGP.

Il ne s'agit pas d'une simple erreur de données. Lors d'une migration de centre de données ou d'une maintenance, le trafic orienté vers une route zombie ne trouve pas sa destination et finit par se dissiper dans le vide ou s'enfermer dans une boucle infinie. En 2026, alors que les environnements cloud sont devenus complexes, la capacité à contrôler ces routes fantômes n'est plus une option mais une compétence essentielle pour tout ingénieur visant une disponibilité de 99,9 %.

Trois causes de persistance des données

Dans une situation normale, un message de retrait envoyé par l'AS (Autonomous System) d'origine devrait instantanément mettre à jour la base d'informations de routage des routeurs du monde entier. Cependant, si cette chaîne est brisée à un point précis, un zombie apparaît.

Bugs logiciels et blocages TCP : Lors du traitement d'un volume massif d'informations de routage, des erreurs de gestion de mémoire ou l'incapacité du processus BGP à accepter les données de la session TCP peuvent entraîner l'ignorance des messages de retrait. La session est maintenue, mais un état d'incohérence s'installe où la route réelle n'est pas mise à jour.
Exploration de routes et temporisateur MRAI : Lorsqu'une route spécifique disparaît, le routeur peut annoncer temporairement une route fantôme invalide en cherchant un chemin alternatif. À ce stade, le temporisateur MRAI (Minimum Route Advertisement Interval), conçu pour éviter l'instabilité du réseau, retarde la mise à jour et peut prolonger la survie du zombie de plus de 30 minutes.
Erreurs de synchronisation des réflecteurs de routes : Si un réflecteur de routes utilisé dans les grands réseaux ne parvient pas à propager correctement le message de retrait à ses clients, l'ensemble de l'AS est contaminé par la route zombie.

Un trou noir qui détruit l'expérience utilisateur

Les informations obsolètes générées par les routes zombies portent un coup fatal à l'expérience utilisateur. En effet, les routeurs suivent toujours la règle de la correspondance la plus longue (Longest Match Rule), qui privilégie les chemins les plus spécifiques.

Par exemple, si l'AS1 supprime une route mais qu'une route zombie subsiste chez un fournisseur en amont, le trafic ne parviendra pas à destination et sera rejeté après avoir fait des allers-retours dans le réseau. L'utilisateur subit des interruptions de chargement de pages Web ou des erreurs de communication d'applications, ce qui se traduit directement par une baisse de la confiance envers le service.

En particulier, l'IPv4 présente une forte probabilité de survie prolongée des zombies en raison de la taille immense de sa table. L'IPv6, dont le trafic a récemment explosé, voit également l'impact de ces pannes s'intensifier, ce qui nécessite une attention particulière.

Stratégie d'annonce en 2 étapes pour garantir la disponibilité

Pour minimiser les risques, les entreprises d'infrastructure mondiales utilisent la méthode "Annoncer avant de retirer".

Annonce préalable de la nouvelle route : Avant de supprimer la route existante, le préfixe cible est d'abord annoncé depuis le nouvel emplacement pour que les tables de routage mondiales prennent connaissance du nouveau chemin.
Retrait sécurisé : Après avoir confirmé que la route globale est suffisamment stabilisée, on retire la route obsolète quelques minutes plus tard.

Cette stratégie garantit qu'au moins une route valide est toujours maintenue, même si un routeur spécifique manque le message de retrait. C'est une méthode radicale pour réduire la probabilité que le trafic choisisse une route zombie inexistante.

Optimisation des paramètres pour une disponibilité de 99,9 %

Pour détecter rapidement les défaillances physiques, les temporisateurs BGP par défaut doivent être ajustés en fonction de l'environnement. L'introduction du BFD (Bidirectional Forwarding Detection), un mécanisme de détection matériel, permet une détection de panne ultra-rapide en moins d'une seconde.

Type de temporisateur	Valeur par défaut	Valeur optimisée recommandée	Effet attendu
Keepalive	60 s	7 ~ 10 s	Augmentation de la fréquence de vérification du voisin
Hold-time	180 s	21 ~ 30 s	Réduction du temps de déclaration de panne et de réinitialisation
MRAI (eBGP)	30 s	0 ~ 5 s	Accélération de la vitesse de convergence des routes

Assurer la visibilité pour une infrastructure résiliente

Les zombies BGP proviennent des limites structurelles d'un protocole basé sur la confiance. Pour s'en défendre, il ne suffit pas de modifier les paramètres ; il faut obtenir une visibilité sur l'Internet mondial.

Utilisez le protocole BMP (BGP Monitoring Protocol) pour surveiller l'intégrité de vos tables de routage en temps réel. Il est nécessaire de surveiller en permanence la manière dont les routes de votre réseau sont perçues de l'extérieur via des outils comme RIPE RIS ou Cloudflare Radar. Seule la combinaison d'une optimisation avancée des temporisateurs et de standards de sécurité comme le RPKI permettra de protéger vos services contre les routes zombies qui errent comme des fantômes.

Zombies BGP : Pourquoi les routes disparues paralysent le réseau

Trois causes de persistance des données

Bugs logiciels et blocages TCP : Lors du traitement d'un volume massif d'informations de routage, des erreurs de gestion de mémoire ou l'incapacité du processus BGP à accepter les données de la session TCP peuvent entraîner l'ignorance des messages de retrait. La session est maintenue, mais un état d'incohérence s'installe où la route réelle n'est pas mise à jour.
Exploration de routes et temporisateur MRAI : Lorsqu'une route spécifique disparaît, le routeur peut annoncer temporairement une route fantôme invalide en cherchant un chemin alternatif. À ce stade, le temporisateur MRAI (Minimum Route Advertisement Interval), conçu pour éviter l'instabilité du réseau, retarde la mise à jour et peut prolonger la survie du zombie de plus de 30 minutes.
Erreurs de synchronisation des réflecteurs de routes : Si un réflecteur de routes utilisé dans les grands réseaux ne parvient pas à propager correctement le message de retrait à ses clients, l'ensemble de l'AS est contaminé par la route zombie.

Un trou noir qui détruit l'expérience utilisateur

Stratégie d'annonce en 2 étapes pour garantir la disponibilité

Pour minimiser les risques, les entreprises d'infrastructure mondiales utilisent la méthode "Annoncer avant de retirer".

Annonce préalable de la nouvelle route : Avant de supprimer la route existante, le préfixe cible est d'abord annoncé depuis le nouvel emplacement pour que les tables de routage mondiales prennent connaissance du nouveau chemin.
Retrait sécurisé : Après avoir confirmé que la route globale est suffisamment stabilisée, on retire la route obsolète quelques minutes plus tard.

Optimisation des paramètres pour une disponibilité de 99,9 %

Type de temporisateur	Valeur par défaut	Valeur optimisée recommandée	Effet attendu
Keepalive	60 s	7 ~ 10 s	Augmentation de la fréquence de vérification du voisin
Hold-time	180 s	21 ~ 30 s	Réduction du temps de déclaration de panne et de réinitialisation
MRAI (eBGP)	30 s	0 ~ 5 s	Accélération de la vitesse de convergence des routes

Zombies BGP : Pourquoi les routes disparues paralysent le réseau

Related Video

L'Internet est rempli de zombies et personne n'en parle

Zombies BGP : Pourquoi les routes disparues paralysent le réseau

Trois causes de persistance des données

Un trou noir qui détruit l'expérience utilisateur

Stratégie d'annonce en 2 étapes pour garantir la disponibilité

Optimisation des paramètres pour une disponibilité de 99,9 %

Assurer la visibilité pour une infrastructure résiliente

Comments (0)

Zombies BGP : Pourquoi les routes disparues paralysent le réseau

Trois causes de persistance des données

Un trou noir qui détruit l'expérience utilisateur

Stratégie d'annonce en 2 étapes pour garantir la disponibilité

Optimisation des paramètres pour une disponibilité de 99,9 %

Assurer la visibilité pour une infrastructure résiliente