read.fallenpal归档
精翻 · 文章

停电与断流:当电网失足时,互联网枢纽会发生什么

原作者 Tanya Shreedhar原文 2026-04-02Carla / Hermes 译
Blackouts and Byteouts: What happens to Internet hubs when the grid stumbles?

电力网络与互联网基础设施的耦合,已经从一个抽象命题变成可测量的韧性问题。最新研究显示,许多 IXP 与数据设施在空间上高度共置,只要少数关键变电站出故障,就可能同时打掉多个互联网交换点,并把流量重路由压力扩散到更大范围。

作者:Tanya Shreedhar
原文发布时间:2026-04-02
查看原文
Blackouts and Byteouts 封面图

理解我们的互联网运行有多大一部分会受到配电网络故障影响,是衡量互联网韧性的关键前提。

最新研究显示,许多 IXP 以及它们服务的网络,实际上共置在同一批物理建筑里。这意味着,只要少数关键电力节点出故障,就可能一次性打掉多个 IXP。

而识别哪些设施暴露在风险里,只是问题的一半。另一半是:当这些设施掉线后,流量会往哪里走?

去年,西班牙部分地区发生了一次大范围停电,持续数小时,并且连锁波及葡萄牙和法国南部。受影响地区,甚至一些周边区域,都有人报告说自己同时失去了网络连接和基础服务:手机信号断了好几个小时,没有 Internet,连取现金都变得困难。这次停电还伴随着 Internet traffic 的明显下滑、更高的 latency,以及通信类应用的过载。

几天之后,另一个完全不同方向的提醒又出现了:米兰互联网交换中心 MiX 发生故障,导致多个服务的可达性受损,而影响远远超出了单栋建筑。这是一次非常公开的示范,再次说明网络工程师早就知道的一件事:有些设施对整体连通性的意义,远远高于其他设施。

这类事件并不罕见。随着世界越来越数字化,问题早就不是电力系统和互联网基础设施之间是否耦合。真正的问题是:我们是否知道耦合最紧的地方在哪里,以及我们究竟可以对此做什么。

“互联网”究竟在什么地方真正发生

很多人会把互联网想象成街道下面的电缆,以及空气中的无线信号。这当然没错,但它只说对了一部分。

我们每天在线生活中的很大一块,依赖的是非常具体的物理设施:

这些都不是抽象设施。它们是真正的 physical sites,有电力输入、冷却系统、备用发电机,而且通常都依赖附近的电网资产。

作为 2025 Pulse Research Fellowship 的一部分,我和同事想回答一个问题:像 data centers 和 IXPs 这样的关键互联网基础设施,与附近 power substations 的依赖关系到底是什么样?只有搞清楚这一点,才能知道我们的 Internet operations 中,有多少暴露在配电网络故障之下——无论是在国家 / 区域尺度,还是在城市 / 本地尺度。

把关键基础设施设施映射到电网

目前并没有一个公开、标准化的数据集,会直接告诉你“这个设施由哪座具体变电站供电”。即便是 power stations 的位置数据,本身也分散在不同国家、不同格式和不同精度层级里。公开数据当然存在,但噪声很多。

我们采用 proximity-based assignment,把 IXP facilities 和 data centers 的位置,映射到它们最近的高压变电站上。这里并不是声称我们知道精确的供电合同关系——这些信息本来就不公开。我们采取的是风险视角:如果某座变电站出故障,那么它附近哪些设施有较高概率会受到影响?

下图展示了距离与影响之间的关系,这里的“影响”用一个设施承载的 IXP 数量来表示。

图 1:承载 IXP 的设施,其距离与影响关系散点图

图 1:承载 IXP 的设施中,距离与影响的关系,图中额外标出了排名前 5 的关键设施。

更大的设施,一旦其上游供电变电站故障,就会对受影响的 IXPs、ASes 和 traffic 造成更大冲击。图里还特别标出了按 IXP 数量与距离综合衡量的前 5 个关键设施。它说明了一件很重要的事:高影响设施并不一定在布局时真正把电网风险考虑进去,而这件事在新设施规划时本来就应该被认真纳入。

如果阿姆斯特丹一带发生电力事件——而那里又恰好聚集了大量设施——那么多个高影响 IXP 可能会同时失效,因为地理集中和距离相关风险会叠加在一起。

级联故障风险是真实存在的,而且会被共置进一步放大

为了建模韧性,我们构建了一个 bipartite graph,把每个 IXP facility 连接到它最近的 k 个 substations,这里取 k = 3。

在这个模型里,只有当一个 facility 连接的所有变电站都失去时,它才会被视为 failed。这个假设其实已经相当宽松,因为它等于假设:只要附近有多个可用变电站,设施就具备一定冗余。

即便是在这个相对宽松的前提下,结果依旧相当严峻。许多 IXP 以及它们服务的网络,都共置在同一批物理建筑里。这意味着,只要少数关键 power nodes 被打掉,就可能一次性拖垮多个 IXP。

按照上述框架去做 substation failure simulation,我们发现:在大约 20% 的变电站失效比例下,大约 70% 的 IXP 都可能失效。

造成这种脆弱性的核心原因,正是这些数字设施的高度共置。

这也意味着,一座城市在纸面上看起来也许“连接得很好”——设施很多——可它依然可能缺乏韧性,因为这些设施很可能共享同一层底部电力依赖,并暴露在高度相似的风险里,例如停电,或者洪水这类自然灾害。

图 2:随着变电站失效比例上升,设施失效率如何变化

图 2:在随机失效与定向失效两种策略下,设施失效率如何随变电站失效率变化。

我们在模拟里使用了三种 failure strategies:

后两种 targeted strategies,可以近似理解成针对关键电网片段的蓄意攻击,或者高度相关的联动故障。结果也很清楚:在同样规模下,定向失效比随机失效破坏性大得多。

当一个主要枢纽失效时,流量会改道到哪里

知道哪些设施更脆弱,只完成了一半工作。另一半问题是:这些设施下线以后,流量会怎么走?

这是理解系统韧性必须回答的问题。为了回答它,我们使用了 PEERING Testbed,模拟阿姆斯特丹场景下由电力中断引发的基础设施失效,并观察其影响。

图 3:PEERING 仿真测试床与改道路径

图 3:PEERING 仿真测试床与流量改道路径。

我们的直觉是:地理仍然很重要。

如果阿姆斯特丹失效,而 PEERING 在德国法兰克福和美国西雅图都还有可用链路,那么流量大概率会优先绕去法兰克福,而不是跑到西雅图的 SIX。我们的实验,就是为了验证这个直觉在现实里是否成立。

我们还对成对、三元组站点做了 failure experiments,借此理解 primary、secondary 和 tertiary 的 rerouting 偏好路径。这样的结果不只是告诉我们流量“可以”往哪里走,也告诉我们当 routing system 真正适应故障时,流量“实际上”会往哪里走。

而一旦把这些 rerouting outcomes 观察清楚,我们就开始能看到跨越国界的 interdependencies。

目前拿到的结果已经足够清楚:互联网基础设施的地理集中,会通过共享电力依赖制造出隐藏的脆弱性;而 major Internet hubs 里常见的共置模式,又会把这种风险进一步放大。

如果你想看更完整的方法和结果,可以看我在 Pulse Internet Measurement Forum Spain 的演讲: Pulse Internet Measurement Forum, Spain

对应的视频也在这里: https://www.youtube.com/watch?v=pHX2EvPwBWA

我在 2025 年担任 Pulse Research Fellow,也曾在荷兰 TU Delft 做博士后研究。我的研究关注 transport protocols、Internet measurements 和 infrastructure resilience。

如果我们真的想认真讨论互联网韧性,那么电网和互联网之间的耦合关系,就必须被当成一层可测量、可建模、可规划的基础事实,而不是事后才被看见的偶发事故背景。

文中观点代表作者本人,不必然代表 Internet Society 的立场。

本页为精翻阅读版。原文版权归原作者所有,中文译文仅用于学习与研究传播。