Internet está lleno de zombis y nadie está hablando de ello

BBetter Stack
Internet TechnologyComputing/Software

Transcript

00:00:00¿Sabías que internet está infectado de zombis? No, no de esa clase de zombis.
00:00:05De los que hablo se llaman zombis BGP. BGP son las siglas de Border Gateway Protocol
00:00:12y es el sistema que usan las grandes redes para anunciar a qué direcciones IP pueden entregar tráfico.
00:00:18Internet está conectado por este enorme mapa global que indica a las redes cómo llegar unas a otras
00:00:24y todo esto se gestiona a través del sistema BGP. Por lo general,
00:00:29este sistema funciona sin problemas, pero a veces aparecen zombis inesperados.
00:00:35¿Pero por qué ocurre eso? Bueno, eso es lo que vamos a descubrir en el video de hoy.
00:00:39En el sistema BGP, cuando una red quiere que el tráfico llegue a una nueva ubicación,
00:00:49anuncia una ruta. Cuando quiere que el tráfico deje de pasar por una ubicación antigua,
00:00:54retira esa ruta. Esto ocurre constantemente. Las redes mueven el tráfico entre centros de datos,
00:01:00trasladan clientes a nuevos nodos o desconectan servidores para mantenimiento.
00:01:04Retirar una ruta es simplemente la forma de decirle al resto del mundo que ese camino ya no es válido.
00:01:09Pero a veces sucede algo extraño. Se retira una ruta,
00:01:13y aun así algunas redes siguen creyendo que todavía existe. Continúan enviando tráfico por una ruta que
00:01:20debería haber desaparecido. Esto es lo que se llama un zombi BGP. Es una ruta obsoleta que se niega a desaparecer
00:01:26de la tabla de enrutamiento global, aunque la red que la creó ya la haya eliminado.
00:01:32Entonces, ¿qué pasa con el tráfico mientras este zombi sigue vivo? Pues que no llega a su destino.
00:01:38Puede buclear entre routers un momento antes de descartarse. También puede dar un largo rodeo
00:01:43por varias redes hasta llegar a un callejón sin salida. O puede caer en una red que intente
00:01:49reenviarlo pero que no consiga entregarlo en ningún sitio útil. Desde la perspectiva del usuario,
00:01:55esto se traduce en una página que no carga o da error de tiempo de espera, o una app que no conecta.
00:02:01A veces es casi imperceptible, pero en otras ocasiones la lentitud es muy evidente.
00:02:06La siguiente pregunta lógica es por qué los routers no actualizan el mapa global de inmediato.
00:02:11La respuesta reside en cómo procesa el BGP los cambios. Cuando desaparece una ruta específica,
00:02:17los routers buscan una alternativa menos específica. Esa búsqueda lleva tiempo. En ese intervalo,
00:02:23algunos routers no logran borrar la entrada antigua y se quedan con información obsoleta. Cloudflare
00:02:29observó que estos zombis duraban entre 6 y 11 minutos en redes grandes.
00:02:34Los zombis de IPv4 tendían a sobrevivir incluso más que los de IPv6. Pero, con el tiempo,
00:02:40el sistema se corrige solo porque cada ruta en BGP tiene un temporizador. Si un router no
00:02:46recibe actualizaciones recientes en un tiempo, elimina la ruta automáticamente. Incluso si un router
00:02:52pasa por alto la retirada inicial, el intercambio constante de datos BGP con sus vecinos acabará
00:02:57informándole de que la ruta ya no existe. Cuando suficientes routers coinciden en el nuevo estado,
00:03:03el zombi desaparece. Cloudflare descubrió este comportamiento trabajando con clientes de BYOIP
00:03:09o “Trae tu propia IP”. En estos casos, Cloudflare anuncia temporalmente el espacio de IP de un cliente
00:03:15y luego lo retira tras el traspaso. Se supone que la retirada debería ser limpia,
00:03:21pero vieron que a veces algunos proveedores seguían usando la ruta antigua mucho después de eliminada.
00:03:27Ese desfase hacía que el tráfico tomara rutas inesperadas e ineficientes hacia la red de Cloudflare.
00:03:33Para solucionar el problema, Cloudflare introdujo un método más seguro. En lugar de retirar
00:03:38la ruta antigua de golpe, primero anuncian la misma ruta desde una ubicación estable. Eso obliga
00:03:45a los routers de todo el mundo a cambiar limpiamente a la nueva versión. Solo entonces retiran
00:03:50el anuncio antiguo. Esto evita el fallo en cascada que crea los zombis. Además, Cloudflare
00:03:56ajustó sus sistemas internos para que las transiciones sean más fluidas en el futuro. Si quieres
00:04:02leer más sobre el tema, Cloudflare publicó una entrada de blog muy detallada explicando el problema.
00:04:07En conclusión, es un recordatorio de que incluso las partes más básicas de internet pueden fallar
00:04:13inesperadamente bajo ciertas condiciones. Aun así, la mayoría de las veces estos problemas se resuelven
00:04:19antes de que los usuarios noten nada. Pero a veces aparecen zombis. Internet se mantiene unido por millones
00:04:25de decisiones de enrutamiento cada segundo. Y sorpresas como los zombis BGP demuestran cuánta
00:04:31coordinación hace falta para que todo funcione bien. Eso es básicamente todo. Ahora
00:04:37ya sabes qué son los zombis BGP. La próxima vez que algo tarde en cargar o falle, puede que
00:04:43te hayas topado con un zombi en internet. Si te gustan estos análisis técnicos, no olvides
00:04:48darle al botón de like debajo del video. Y asegúrate de suscribirte a nuestro canal. Soy
00:04:53Andris de Better Stack y nos vemos en los próximos videos.

Key Takeaway

Los zombis BGP son fallos de enrutamiento donde rutas eliminadas persisten en la red global, causando interrupciones que requieren estrategias de anuncio preventivo para ser solucionadas.

Highlights

Definición de los zombis BGP como rutas obsoletas que persisten en internet después de ser retiradas.

Impacto negativo en la experiencia del usuario

Timeline

Introducción al concepto de zombis BGP

El video comienza introduciendo el término "zombi BGP" para describir un fenómeno técnico en la infraestructura de internet. Se explica que el Border Gateway Protocol (BGP) es el sistema esencial que las grandes redes utilizan para comunicar direcciones IP y rutas de tráfico. El narrador utiliza la metáfora de un mapa global para ilustrar cómo las redes se encuentran entre sí. Esta sección establece la importancia del sistema BGP para el funcionamiento fluido de la web. Se plantea la interrogante de por qué aparecen estos errores inesperados en un sistema tan crítico.

Mecánica del anuncio y retirada de rutas

En este segmento se detalla el proceso estándar de gestión de tráfico donde las redes anuncian o retiran rutas constantemente. Este dinamismo es necesario para tareas como el mantenimiento de servidores o el traslado de clientes a nuevos nodos. El problema surge cuando, tras retirar una ruta oficial, algunos routers en el mundo actúan como si todavía fuera válida. Estos "zombis" son técnicamente entradas obsoletas que se niegan a desaparecer de la tabla de enrutamiento global. La persistencia de esta información errónea es lo que define el núcleo del problema técnico presentado.

Consecuencias para el usuario y causas técnicas

El tráfico dirigido a una ruta zombi suele terminar en bucles infinitos o callejones sin salida, impidiendo que llegue a su destino. Para el usuario final, esto se manifiesta como páginas que no cargan, aplicaciones que fallan o una lentitud extrema. La causa técnica reside en el tiempo que tardan los routers en procesar cambios y buscar alternativas menos específicas. Investigaciones de Cloudflare indican que estos problemas suelen durar entre 6 y 11 minutos en redes de gran escala. Además, se menciona que los zombis en el protocolo IPv4 suelen sobrevivir más tiempo que los de IPv6.

Resolución automática y el caso de Cloudflare

Afortunadamente, el sistema BGP tiene mecanismos de autocorrección basados en temporizadores que eliminan rutas inactivas tras un tiempo determinado. El intercambio constante de datos entre routers vecinos ayuda a propagar la información correcta y eliminar al zombi finalmente. Cloudflare descubrió la gravedad de esto al trabajar con el servicio "Trae tu propia IP" (BYOIP). Observaron que la retirada de anuncios de IP de clientes no siempre era limpia, causando rutas ineficientes. Este desfase técnico motivó a la empresa a buscar una solución más robusta y menos dependiente de la limpieza automática.

Soluciones preventivas y conclusiones finales

Para mitigar los zombis, Cloudflare ahora anuncia la ruta desde una ubicación estable antes de retirar la versión antigua, forzando una transición limpia. Este método evita el fallo en cascada y asegura que los routers actualicen sus mapas sin generar entradas fantasmas. El video concluye recordando que la estabilidad de internet depende de millones de decisiones de enrutamiento coordinadas por segundo. Aunque la mayoría de los fallos se resuelven de forma invisible, los zombis BGP son un recordatorio de la fragilidad del sistema. Finalmente, se invita al espectador a profundizar en el blog técnico de Cloudflare para obtener más detalles.

Community Posts

View all posts