Das Internet ist voller Zombies – und niemand spricht darüber

BBetter Stack
AI/미래기술컴퓨터/소프트웨어

Transcript

00:00:00Wussten Sie schon, dass das Internet von Zombies befallen ist? Nein, nicht von dieser Art Zombies.
00:00:05Die, von denen ich spreche, nennt man BGP-Zombies. BGP steht für Border Gateway Protocol,
00:00:12und es ist das Verfahren, mit dem große Netzwerke mitteilen, für welche IP-Adressen sie Traffic zustellen können.
00:00:18Das Internet wird durch diese riesige globale Karte verbunden, die den Netzwerken sagt, wie sie einander erreichen,
00:00:24und das alles wird über das BGP-System verwaltet. Meistens
00:00:29läuft dieses System reibungslos, aber manchmal tauchen unerwartete Zombies im System auf.
00:00:35Aber warum passiert das? Nun, genau das werden wir im heutigen Video herausfinden.
00:00:39Im BGP-System kündigt ein Netzwerk eine Route an, wenn Traffic einen neuen Standort erreichen soll.
00:00:49Wenn der Traffic nicht mehr über einen alten Standort laufen soll, wird diese Route zurückgezogen.
00:00:54Das passiert ständig. Netzwerke verlagern Traffic zwischen Rechenzentren,
00:01:00leiten Kunden auf neue Edges um oder nehmen Server für Wartungsarbeiten offline.
00:01:04Das Zurückziehen einer Route ist schlichtweg die Mitteilung an den Rest der Welt, dass der Pfad nicht mehr gültig ist.
00:01:09Doch manchmal geschieht etwas Seltsames. Eine Route wird zurückgezogen,
00:01:13aber einige Netzwerke glauben weiterhin, dass sie noch existiert. Sie schicken weiter Traffic über einen Pfad,
00:01:20der eigentlich weg sein sollte. Das nennt man einen BGP-Zombie: Eine veraltete Route, die nicht
00:01:26aus der globalen Routing-Tabelle verschwindet, obwohl das ursprüngliche Netzwerk sie bereits gelöscht hat.
00:01:32Was passiert also mit dem Traffic, während dieser Zombie existiert? Er erreicht sein Ziel nicht. Er
00:01:38könnte kurzzeitig zwischen Routern hin- und herpendeln, bevor er verworfen wird. Oder er macht einen weiten Umweg
00:01:43über mehrere Netzwerke, bis er in einer Sackgasse landet. Vielleicht landet er auch in einem Netzwerk, das
00:01:49versucht ihn weiterzuleiten, ihn aber nirgendwo sinnvoll zustellen kann. Aus Nutzersicht
00:01:55äußert sich das dadurch, dass eine Seite hängt, ein Timeout auftritt oder eine App kurzzeitig keine Verbindung aufbaut.
00:02:01Manchmal merkt man es kaum, aber in anderen Fällen ist die Verzögerung sehr deutlich spürbar.
00:02:06Die nächste logische Frage ist, warum Router die globale Karte nicht sofort aktualisieren.
00:02:11Die Antwort liegt darin, wie BGP Änderungen verarbeitet. Wenn eine spezifischere Route verschwindet,
00:02:17suchen Router nach einer weniger spezifischen Alternative. Diese Suche braucht Zeit. In diesem Zeitfenster
00:02:23versäumen es manche Router, den alten Eintrag zu löschen. Sie bleiben auf veralteten Informationen sitzen. Cloudflare
00:02:29beobachtete, dass diese Zombies in großen Netzwerken etwa 6 bis 11 Minuten überlebten.
00:02:34IPv4-Zombies hielten sich tendenziell sogar länger als IPv6-Zombies. Aber letztendlich
00:02:40korrigiert sich das System selbst, da jede Route in BGP einen Timer hat. Wenn ein Router
00:02:46eine Zeit lang keine neuen Updates erhält, löscht er die Route automatisch. Selbst wenn ein Router
00:02:52das Zurückziehen beim ersten Mal verpasst, wird ihn das ständige BGP-Hintergrundrauschen der Nachbarn
00:02:57irgendwann darüber informieren, dass die Route weg ist. Sobald genug benachbarte Router sich einig sind, verschwindet der Zombie.
00:03:03Cloudflare entdeckte dieses Verhalten bei der Arbeit mit BYOIP-Kunden („Bring Your Own IP“).
00:03:09In diesen Fällen kündigt Cloudflare vorübergehend den IP-Bereich eines Kunden an und zieht ihn nach der Übergabe wieder zurück.
00:03:15Dieser Vorgang sollte eigentlich sauber ablaufen, aber stattdessen stellten sie fest, dass einige Anbieter
00:03:21die alte Route noch lange nach deren Löschung weiter nutzten. Diese Diskrepanz führte dazu,
00:03:27dass der Traffic unerwartete und ineffiziente Wege in das Netzwerk von Cloudflare nahm. Um das Problem zu lösen,
00:03:33führte Cloudflare eine sicherere Methode ein. Anstatt die alte Route sofort komplett zurückzuziehen,
00:03:38kündigen sie dieselbe Route zuerst von einem stabilen Standort aus an. Das zwingt die Router weltweit dazu,
00:03:45sauber auf die neue Version umzuschalten. Erst danach ziehen sie die alte Ankündigung zurück.
00:03:50Dies verhindert die überstürzte Suche nach Alternativen, die Zombies erst entstehen lässt. Cloudflare hat zudem
00:03:56seine internen Systeme optimiert, damit diese Übergänge künftig noch reibungsloser verlaufen. Wenn Sie
00:04:02mehr darüber lesen möchten: Cloudflare hat einen sehr detaillierten Blogpost zu diesem Thema veröffentlicht.
00:04:07Zusammenfassend lässt dies uns daran erinnern, dass selbst die grundlegendsten Teile des Internets unter bestimmten
00:04:13Bedingungen unerwartet reagieren können. Meistens werden diese Probleme gelöst, bevor
00:04:19Nutzer überhaupt etwas merken. Aber manchmal tauchen eben Zombies auf. Das Internet wird durch Millionen von
00:04:25Routing-Entscheidungen pro Sekunde zusammengehalten. Überraschungen wie BGP-Zombies zeigen,
00:04:31wie viel Koordination nötig ist, damit alles läuft. Das war's im Wesentlichen. Jetzt
00:04:37wissen Sie, was BGP-Zombies sind. Wenn das nächste Mal etwas hakt oder nicht lädt, sind Sie vielleicht
00:04:43gerade einem Internet-Zombie begegnet. Wenn Ihnen solche technischen Analysen gefallen, lassen Sie gerne
00:04:48ein Like unter dem Video da. Und vergessen Sie nicht, unseren Kanal zu abonnieren. Ich bin Andris von Better Stack
00:04:53und wir sehen uns in den nächsten Videos.

Key Takeaway

BGP-Zombies sind persistente, veraltete Routing-Informationen, die die Internetstabilität beeinträchtigen, aber durch optimierte Ankündigungsstrategien und systemeigene Timer kontrolliert werden können.

Highlights

Das Border Gateway Protocol (BGP) fungiert als globale Karte des Internets für den Datenaustausch.

BGP-Zombies sind veraltete Routing-Einträge, die trotz Rückzug der Route in Tabellen bestehen bleiben.

Diese Phänomene führen zu Paketverlusten, Timeouts und ineffizienten Datenumwegen.

Cloudflare identifizierte eine Lebensdauer von 6 bis 11 Minuten für solche Routing-Leichen.

IPv4-Zombies weisen eine längere Beständigkeit auf als ihre IPv6-Gegenstücke.

Eine Lösung besteht darin, neue Routen stabil anzukündigen, bevor alte Pfade gelöscht werden.

Timeline

Einführung in BGP und das Phänomen der Zombies

Der Sprecher führt das Konzept der BGP-Zombies ein und erklärt die grundlegende Funktion des Border Gateway Protocols. BGP dient als essentielles Verfahren, mit dem große Netzwerke ihre Erreichbarkeit für IP-Adressen global kommunizieren. Diese Struktur wird als eine Art riesige Weltkarte des digitalen Verkehrs beschrieben, die normalerweise reibungslos funktioniert. Es wird die zentrale Frage aufgeworfen, warum trotz dieses Systems unerwartete Geister-Routen im Netzwerk auftauchen. Dieser Einstieg verdeutlicht, dass das Internet auf einer komplexen, koordinierten Kommunikation zwischen Routern basiert.

Funktionsweise von Routen und Entstehung von Zombies

In diesem Abschnitt wird der Prozess des Ankündigens und Zurückziehens von Routen im Detail erläutert. Netzwerke verschieben ständig Traffic zwischen Rechenzentren oder nehmen Server für Wartungsarbeiten offline, was routinemäßige BGP-Updates erfordert. Ein BGP-Zombie entsteht genau dann, wenn eine Route offiziell zurückgezogen wird, aber in einigen Netzwerkteilen fälschlicherweise als gültig verbleibt. Der Sprecher definiert den Zombie als eine veraltete Information, die nicht aus der globalen Routing-Tabelle verschwindet. Dies ist kritisch, da Router so weiterhin Daten an Ziele senden, die technisch nicht mehr existieren.

Auswirkungen auf den Datenverkehr und die Nutzererfahrung

Hier werden die negativen Konsequenzen für den Endnutzer und die Datenintegrität analysiert. Während ein Zombie existiert, erreicht der Traffic sein eigentliches Ziel nicht und wird oft zwischen Routern hin- und hergeschickt, bis er verworfen wird. Nutzer erleben dies in Form von hängenden Webseiten, Verbindungsabbrüchen oder spürbaren Verzögerungen in Applikationen. Der Sprecher betont, dass Datenpakete oft in Sackgassen landen oder ineffiziente Umwege über mehrere Netzwerke nehmen müssen. Diese Störungen zeigen, wie fragil die Nutzererfahrung bei Routing-Fehlern sein kann.

Analyse der Ursachen und Selbstreinigungsmechanismen

Der Abschnitt untersucht, warum Router ihre Tabellen nicht sofort aktualisieren und welche Rolle Suchprozesse dabei spielen. Wenn eine spezifische Route wegfällt, suchen Router zeitaufwendig nach weniger spezifischen Alternativen, wobei alte Einträge oft übersehen werden. Cloudflare liefert hierzu konkrete Statistiken: Zombies überleben in großen Netzwerken etwa 6 bis 11 Minuten, wobei IPv4-Adressen länger betroffen sind. Glücklicherweise verfügt das System über integrierte Timer und ein Hintergrundrauschen durch Nachbar-Updates, die den Zombie letztlich eliminieren. Diese Selbstreinigung stellt sicher, dass das Internet trotz lokaler Fehler stabil bleibt.

Cloudflares Fallstudie und technische Lösungsansätze

Abschließend wird erläutert, wie Cloudflare das Problem bei BYOIP-Kunden entdeckte und proaktiv gelöst hat. Anstatt Routen einfach sofort zu löschen, nutzt Cloudflare nun eine Methode, bei der die Route zuerst von einem stabilen neuen Standort angekündigt wird. Dies zwingt die globalen Router zu einem sauberen Umschaltprozess und verhindert die Entstehung der schädlichen Suchphasen für Alternativen. Der Sprecher weist auf weiterführende Ressourcen im Cloudflare-Blog hin und resümiert die Wichtigkeit der globalen Koordination. Das Video endet mit dem Hinweis, dass solche technischen Anomalien die Komplexität hinter jeder Sekunde Internetnutzung verdeutlichen.

Community Posts

View all posts