Log in to leave a comment
No posts yet
Dans le système BGP (Border Gateway Protocol), qui fait office de guide pour l'Internet, l'un des moments les plus déconcertants est celui où une route supprimée survit tel un fantôme et intercepte le trafic. Ce phénomène, où des informations restent présentes comme routes actives dans certains routeurs mondiaux alors qu'un ingénieur a explicitement retiré un préfixe IP spécifique, est ce que nous appelons un zombie BGP.
Il ne s'agit pas d'une simple erreur de données. Lors d'une migration de centre de données ou d'une maintenance, le trafic orienté vers une route zombie ne trouve pas sa destination et finit par se dissiper dans le vide ou s'enfermer dans une boucle infinie. En 2026, alors que les environnements cloud sont devenus complexes, la capacité à contrôler ces routes fantômes n'est plus une option mais une compétence essentielle pour tout ingénieur visant une disponibilité de 99,9 %.
Dans une situation normale, un message de retrait envoyé par l'AS (Autonomous System) d'origine devrait instantanément mettre à jour la base d'informations de routage des routeurs du monde entier. Cependant, si cette chaîne est brisée à un point précis, un zombie apparaît.
Les informations obsolètes générées par les routes zombies portent un coup fatal à l'expérience utilisateur. En effet, les routeurs suivent toujours la règle de la correspondance la plus longue (Longest Match Rule), qui privilégie les chemins les plus spécifiques.
Par exemple, si l'AS1 supprime une route mais qu'une route zombie subsiste chez un fournisseur en amont, le trafic ne parviendra pas à destination et sera rejeté après avoir fait des allers-retours dans le réseau. L'utilisateur subit des interruptions de chargement de pages Web ou des erreurs de communication d'applications, ce qui se traduit directement par une baisse de la confiance envers le service.
En particulier, l'IPv4 présente une forte probabilité de survie prolongée des zombies en raison de la taille immense de sa table. L'IPv6, dont le trafic a récemment explosé, voit également l'impact de ces pannes s'intensifier, ce qui nécessite une attention particulière.
Pour minimiser les risques, les entreprises d'infrastructure mondiales utilisent la méthode "Annoncer avant de retirer".
Cette stratégie garantit qu'au moins une route valide est toujours maintenue, même si un routeur spécifique manque le message de retrait. C'est une méthode radicale pour réduire la probabilité que le trafic choisisse une route zombie inexistante.
Pour détecter rapidement les défaillances physiques, les temporisateurs BGP par défaut doivent être ajustés en fonction de l'environnement. L'introduction du BFD (Bidirectional Forwarding Detection), un mécanisme de détection matériel, permet une détection de panne ultra-rapide en moins d'une seconde.
| Type de temporisateur | Valeur par défaut | Valeur optimisée recommandée | Effet attendu |
|---|---|---|---|
| Keepalive | 60 s | 7 ~ 10 s | Augmentation de la fréquence de vérification du voisin |
| Hold-time | 180 s | 21 ~ 30 s | Réduction du temps de déclaration de panne et de réinitialisation |
| MRAI (eBGP) | 30 s | 0 ~ 5 s | Accélération de la vitesse de convergence des routes |
Les zombies BGP proviennent des limites structurelles d'un protocole basé sur la confiance. Pour s'en défendre, il ne suffit pas de modifier les paramètres ; il faut obtenir une visibilité sur l'Internet mondial.
Utilisez le protocole BMP (BGP Monitoring Protocol) pour surveiller l'intégrité de vos tables de routage en temps réel. Il est nécessaire de surveiller en permanence la manière dont les routes de votre réseau sont perçues de l'extérieur via des outils comme RIPE RIS ou Cloudflare Radar. Seule la combinaison d'une optimisation avancée des temporisateurs et de standards de sécurité comme le RPKI permettra de protéger vos services contre les routes zombies qui errent comme des fantômes.