BGP 僵尸：消失的路由为何会导致网络瘫痪

在扮演互联网路标角色的 BGP (Border Gateway Protocol) 系统中，最令人困惑的时刻莫过于已删除的路由像幽灵一样存续并拦截流量。即便工程师明确撤回了特定的 IP 前缀，该信息在全网部分路由器中仍显示为激活路由，这种现象我们称之为 BGP 僵尸 (BGP Zombies)。

这不仅仅是简单的输出错误。在数据中心迁移或维护期间，流入僵尸路由的流量会因找不到目的地而在空中消散或陷入无限循环。在云环境日益复杂的 2026 年，控制这些幽灵路由的能力已成为追求 99.9% 可用性的工程师的必修课，而非选项。

导致数据固化的三个原因

在正常情况下，源 AS (Autonomous System) 发送的撤回消息应立即更新全球路由器的路由信息库 (RIB)。但如果这一链条在特定节点断裂，就会产生僵尸。

软件 Bug 与 TCP 阻塞： 处理大规模路由信息时，如果发生内存管理错误或 BGP 进程无法接收 TCP 会话数据，撤回消息就会被忽略。这会导致会话维持但实际路由未更新的不一致状态。
路由探索与 MRAI 定时器： 当特定路由消失时，路由器在寻找备用路径的过程中可能会临时发布无效的“幽灵路由”。此时，为了防止网络不稳而设置的 MRAI 定时器会延迟更新，有时会将僵尸的存活时间延长 30 分钟以上。
路由反射器同步错误： 大规模网络中使用的路由反射器 (Route Reflector) 若未能将撤回消息正确传播给客户端，整个 AS 都会被僵尸路由感染。

破坏用户体验的黑洞

僵尸路由产生的过期信息会对用户体验造成致命打击。这是因为路由器始终遵循“最长匹配原则”，优先选择更具体的路由。

例如，若 AS1 删除了路由，但上游供应商处仍留有僵尸路由，流量将无法到达目的地，而在网络间往返后被丢弃。用户会经历网页加载中断或 App 通信错误，这直接导致服务信赖度下降。

特别是 IPv4 的路由表规模巨大，僵尸长期存活的概率较高。而近期流量激增的 IPv6 故障影响力也在扩大，需引起警惕。

确保可用性的两阶段发布策略

全球基础设施企业为最小化风险，通常采用先发布后撤回的方式。

先行发布新路由： 在删除旧路由前，先在新的位置发布目标前缀，让全球路由表感知到新路径。
安全撤回： 确认全球路由充分稳定几分钟后，再撤回原有的冗余路由。

该策略确保即使特定路由器漏掉了撤回消息，也始终至少维持一条有效路径，从根本上降低了流量选中不存在的僵尸路由的概率。

99.9% 可用性的优化设置

为了迅速感应物理故障，必须根据环境调整默认的 BGP 定时器。引入基于硬件的探测机制 BFD (Bidirectional Forwarding Detection) 可实现小于 1 秒的超高速故障感应。

定时器类型	默认值	推荐优化值	预期效果
Keepalive	60秒	7 ~ 10秒	增加邻居状态确认频率
Hold-time	180秒	21 ~ 30秒	缩短故障声明及会话初始化时间
MRAI (eBGP)	30秒	0 ~ 5秒	加速路由收敛速度

为弹性基础设施获取可见性

BGP 僵尸产生于基于信任的协议所固有的结构性限制。要防范这一现象，不能仅止于修改配置，还必须获取全球互联网视角的可见性。

请利用 BMP (BGP Monitoring Protocol) 实时监控路由表的完整性。通过 RIPE RIS 或 Cloudflare Radar 等工具，随时监测自家网络路径在外部的表现。唯有将高度优化的定时器与 RPKI 等安全标准结合，才是保护服务免受幽灵般僵尸路由侵害的唯一途径。

BGP 僵尸：消失的路由为何会导致网络瘫痪

导致数据固化的三个原因

在正常情况下，源 AS (Autonomous System) 发送的撤回消息应立即更新全球路由器的路由信息库 (RIB)。但如果这一链条在特定节点断裂，就会产生僵尸。

软件 Bug 与 TCP 阻塞： 处理大规模路由信息时，如果发生内存管理错误或 BGP 进程无法接收 TCP 会话数据，撤回消息就会被忽略。这会导致会话维持但实际路由未更新的不一致状态。
路由探索与 MRAI 定时器： 当特定路由消失时，路由器在寻找备用路径的过程中可能会临时发布无效的“幽灵路由”。此时，为了防止网络不稳而设置的 MRAI 定时器会延迟更新，有时会将僵尸的存活时间延长 30 分钟以上。
路由反射器同步错误： 大规模网络中使用的路由反射器 (Route Reflector) 若未能将撤回消息正确传播给客户端，整个 AS 都会被僵尸路由感染。

破坏用户体验的黑洞

僵尸路由产生的过期信息会对用户体验造成致命打击。这是因为路由器始终遵循“最长匹配原则”，优先选择更具体的路由。

特别是 IPv4 的路由表规模巨大，僵尸长期存活的概率较高。而近期流量激增的 IPv6 故障影响力也在扩大，需引起警惕。

确保可用性的两阶段发布策略

全球基础设施企业为最小化风险，通常采用先发布后撤回的方式。

先行发布新路由： 在删除旧路由前，先在新的位置发布目标前缀，让全球路由表感知到新路径。
安全撤回： 确认全球路由充分稳定几分钟后，再撤回原有的冗余路由。

该策略确保即使特定路由器漏掉了撤回消息，也始终至少维持一条有效路径，从根本上降低了流量选中不存在的僵尸路由的概率。

99.9% 可用性的优化设置

定时器类型	默认值	推荐优化值	预期效果
Keepalive	60秒	7 ~ 10秒	增加邻居状态确认频率
Hold-time	180秒	21 ~ 30秒	缩短故障声明及会话初始化时间
MRAI (eBGP)	30秒	0 ~ 5秒	加速路由收敛速度

为弹性基础设施获取可见性

BGP 僵尸产生于基于信任的协议所固有的结构性限制。要防范这一现象，不能仅止于修改配置，还必须获取全球互联网视角的可见性。

BGP 僵尸：消失的路由为何会导致网络瘫痪

Related Video

互联网已充斥着“僵尸”，却无人提起

BGP 僵尸：消失的路由为何会导致网络瘫痪

导致数据固化的三个原因

破坏用户体验的黑洞

确保可用性的两阶段发布策略

99.9% 可用性的优化设置

为弹性基础设施获取可见性

Comments (0)

BGP 僵尸：消失的路由为何会导致网络瘫痪

导致数据固化的三个原因

破坏用户体验的黑洞

确保可用性的两阶段发布策略

99.9% 可用性的优化设置

为弹性基础设施获取可见性