2024 年 7 月 8 日,加拿大廣播電視和電信委員會(CRTC)發布了 2022 年 7 月 8 日 Rogers 中斷報告。
CRTC 進行的 一項獨立審查將中斷事件歸咎于人為失誤。
審查報告稱,網絡管理和系統“缺陷”加劇了這次中斷。
CRTC 于 2023 年 9 月委托 Xona 對中斷進行審查,審查報告摘要現已在 CRTC 網站上發布。
2022 年 7 月 8 日清晨,加拿大知名電信運營商 Rogers Inc.的互聯網協議(IP)核心網遭遇重大服務中斷,影響了其在加拿大全境的無線和有線服務(簡稱“2022 年 7 月中斷事件”)。
中斷從 2022 年 7 月 8 日美國東部時間 4 點 58 分持續到了 2022 年 7 月 9 日 7 點 00 分,在此期間服務逐漸恢復。
超過 1200 萬客戶失去了無線和有線服務,包括移動用戶、家庭互聯網用戶、企業客戶以及提供關鍵服務(如 Interac 電子轉賬和電子支付服務)的機構客戶。
本報告詳細介紹了獨立評估 Rogers 網絡架構可靠性和彈性的結果, 以及 Rogers 管理網絡變更的流程(變更管理流程)和響應故障等網絡事件的流程(事件管理流程),這些流程與 2022 年 7 月中斷事件密切相關。
在本報告中詳細介紹了中斷前和中斷期間的調查結果,概述了 Rogers 此后為解決其網絡設計和流程中的缺陷而實施的措施。
該報告主要基于全面獨立審查了 Rogers 對多輪問題的回應、 評估期間與 Rogers 技術和管理人員的會面以及 Rogers 在中斷后應監管當局的要求提供的信息。
中斷描述
背景。
首先介紹一下,Rogers 運營的無線網絡和有線網絡共享一個公共 IP 核心網,如圖 1 所示。
Rogers網絡架構的簡化拓撲示意圖:
核心網是電信網絡的一部分,負責聚合和路由 Rogers 網絡內部的內部數據流量以及與互聯網和其他服務提供商之間的外部數據流量。
因此,對 Rogers 來說,無線數據流量和有線數據流量都由同一個 IP 核心網處理。
在 2022 年 7 月 8 日中斷前幾周,Rogers 正在執行一項分七個階段的工作來升級其 IP 核心網。故障就發生在這個升級過程的第六階段。
網絡中斷的根本原因。
2022 年 7 月中斷事件歸因于配置 Rogers IP 網絡中的分布路由器出了錯誤。
Rogers 的員工從分布路由器的配置中刪除了訪問控制列表策略過濾器。
這導致大量 IP 路由信息涌入核心網路由器,從而引發了中斷。
核心網路由器允許 Rogers 的有線和無線用戶訪問語音和數據等服務。
從分布路由器到核心路由器的 IP 路由數據洪流超過了核心路由器處理信息的能力。
從分布路由器配置中刪除策略過濾器后沒幾分鐘,核心路由器就崩潰了。
當核心網路由器崩潰時,用戶流量再也無法路由到相應的目的地。
因此,移動電話、家庭電話、互聯網、商業有線連接和 911 呼叫等服務停止了運作。
缺少路由器過載保護機制。
2022 年 7 月中斷事件暴露了核心網路由器缺少過載保護。
如果核心網路由器配置了過載限制機制,指定路由器可以支持的最大可接受的 IP 路由數據數量,就可以避免這起網絡故障。
然而,Rogers核心網路由器沒有配置這種過載保護機制。因此,從分面目路由器上刪除策略過濾器時,過多的路由數據涌入了核心路由器,從而導致核心路由器崩潰。
變更管理流程存在不足。
配置錯誤導致從分面目路由器配置中刪除了策略過濾器,這是 Rogers 的員工對變更管理疏忽的結果。
Rogers 的員工刪除了防止 IP 路由泛濫的策略過濾器,以期清理分布路由器的配置文件。變更管理流程(包括變更參數的審計)并沒有標出錯誤的配置變更。
如上所述,這次配置變更出現在幾周前開始的七階段網絡升級過程的第六階段。
在這個第六階段配置更新之前,此前的配置更新已成功完成,沒有任何問題。
Rogers 最初將這七階段過程的風險評估為“高風險”。
然而,由于前幾個階段的變更已成功完成,風險評估算法將配置變更第六階段的風險級別降至“低風險”,包括導致 2022 年 7 月中斷的變更。
低風險評估使得 Rogers 的員工不需要進行額外的審查、通過更高級別的批準,并對該配置變更進行實驗室測試。
將改變路由策略中訪問控制列表過濾器的風險評估降級為“低風險”違反了行業規范,原本需要對此類配置變更進行嚴格審查,包括在部署到生產級網絡之前進行實驗室測試。
Rogers 網絡架構的可靠性
Rogers 網絡是全國性 Tier 1 網絡,其架構是為確保可靠性而設計的,這是此類 Tier 1 服務提供商網絡應當具備的典型架構。
2022 年 7 月中斷并不歸因于 Rogers 核心網架構的設計缺陷。
然而,由于無線網絡和有線網絡共享一個共同的 IP 核心網,故障范圍極大,導致了所有服務災難性丟失。
這種網絡架構對于許多服務提供商來說很常見,也是有線電信網絡和無線電信網絡趨向融合的一個例子。
這是包括 Rogers 在內的服務提供商力求兼顧成本與性能的設計選擇。
影響網絡恢復的幾個因素
網絡管理基礎設施。
管理網絡便于員工訪問網絡中的關鍵基礎設施站點或設備,以便故障排除和維修。
在 2022 年 7 月發生中斷時,Rogers 的管理網絡依賴 Rogers 的 IP 核心網。
當 IP 核心網在故障期間無法正常運行時,Rogers 的遠程員工無法訪問管理網絡。
此外,Rogers 沒有為其網絡運營中心和其他關鍵的遠程基礎設施站點提供從替代服務提供商進行冗余連接以便網絡管理的服務。這限制了 2022 年 7 月中斷期間對關鍵網絡設備的訪問,以便故障排除和根本原因分析。
Rogers 不得不派員工到遠程站點實際訪問受影響的路由器,這延誤了網絡恢復工作。
網絡彈性要求電信網絡運營商可以通過替代的途徑安全地訪問不依賴數據網絡的關鍵遠程網絡元件。
Rogers 的遠程工作人員無法訪問管理網絡,又無法從替代服務提供商安全地連接至網絡運營中心和其他關鍵遠程站點,共同導致了 2022 年 7 月中斷時間延長。
Rogers 員工之間溝通有限。Rogers 的員工依靠公司自己的移動和互聯網服務來相互溝通。當無線網絡和有線網絡都出現故障時,Rogers 的員工(尤其是關鍵的事件管理人員)在故障發生最初幾個小時內無法有效溝通。
Rogers 不得不將來自其他移動網絡運營商的用戶身份模塊(SIM)卡發送到遠程站點,以使員工能夠通過無線連接相互溝通。
缺乏到位的替代溝通手段導致 Rogers 對 2022 年 7 月中斷事件響應緩慢。
未能及時獲取關鍵信息進行網絡恢復。
缺少信息阻礙了 Rogers 的事件管理流程。
Rogers 的員工最初無法訪問故障路由器的錯誤日志,在中斷發生后的大約 14 個小時內無法確定根本原因。
此外,Rogers 在中斷當天的維護窗口期間完成了多次配置變更。這對中斷恢復工作產生了不利影響,很難決定回滾哪個網絡變更工單。
這兩個因素導致在 2022 年 7 月中斷的最初幾個小時內誤診了網絡故障的根本原因。
然而,一旦查明了根本原因,網絡恢復活動就有條不紊地開始,服務也逐漸恢復。
改進
解決故障的根本原因和管理網絡架構方面的不足。
在 2022 年 7 月中斷后的幾個月里,Rogers 采取了一系列措施和舉措來解決中斷暴露的嚴重缺陷。
最重要的是,Rogers 在其核心網路由器的配置中實施了安全措施,以防止 IP 路由數據洪流,從而防止將來發生類似的中斷。
Rogers 還實施了一個獨立的物理和邏輯管理網絡,以訪問網絡元件以便故障排除和根本原因分析。
此外,Rogers 部署了從第三方服務提供商到其網絡運營中心和其他關鍵遠程基礎設施站點的備用連接,并添置了有助于驗證路由器配置變更的工具。
無線網絡和有線網絡使用單獨的 IP 核心網。
在中斷之后,Rogers 宣布決定將其無線網絡和有線網絡的 IP 核心網分開。這個決定需要為無線網絡部署新的 IP核心網,而現有的 IP 核心網將繼續服務有線網絡。因此,如果一個 IP 核心網受到故障的影響,另一個 IP核心網不受影響,并繼續運行。
Rogers 還沒有最終確定 IP 核心網分離的實施,這仍是一項進行中的工作。
一旦實施,無線網絡和有線網絡的單獨 IP 核心網有助于將故障遏制在各自的訪問網絡,從而避免 2022 年 7 月中斷事件所遭遇的此類災難性網絡中斷: 由于公共核心 IP 網絡的中斷,無線服務和有線服務都無法使用。 IP核心網分離將提高 Rogers 無線網絡和有線網絡的整體彈性。
改進變更管理流程。
在 2022 年 7 月中斷后,Rogers 對其變更管理流程進行了幾處改進。
這些改進包括:一種新的風險評估算法;改變組織以加強網絡運營團隊和工程團隊的協作;加強引入新設備和新技術的流程;改進實施網絡變更(比如引入自動化以簡化變更管理流程);以及對計劃的網絡配置變更增加實驗室測試。
改進事件管理流程。在 2022 年 7 月中斷之后,Rogers 對其事件管理流程進行了改進,包括:加強事件管理指南,以涵蓋各種中斷場景;明確領導角色,簡化事件響應;實施中斷期間確定報警優先級的解決方案;改進新變更不成功時自動回滾到以前的配置;以及實施額外的措施來改進通信協議。Rogers還為所有事件響應和危機管理團隊成員配備了來自第三方服務提供商的備用通信,以便在中斷期間保持溝通能力。
評估和建議
總體評估是,Rogers 在 2022 年 7 月中斷后采取的一系列措施令人滿意,除了解決 2022 年 7 月中斷的根本原因外,還有助于提高 Rogers 網絡的彈性和可靠性。
認真實施改進的變更管理流程將是避免將來發生類似故障的最有效方法。改進事件響應流程將改善 Rogers 響應,以便在發生網絡中斷時更快速地恢復服務。我們有幾個建議,Rogers 可以采取額外的措施,以進一步提高網絡彈性。這些建議如下:
1、測試與其他移動網絡運營商之間的緊急漫游,以覆蓋更全面的測試場景。Rogers 已簽署了電信可靠性諒解備忘錄,包括與其他移動網絡運營商之間的緊急漫游,從而使 Rogers的客戶能夠在重大中斷期間訪問緊急服務(比如911電話)。這項額外的測試將確保在不同的網絡中斷場景下緊急漫游切實可行;具體來說,是指 2022 年 7 月中斷期間觀察到的場景(無線網絡正常,核心網宕機)。
2、為將來的嚴重中斷制定詳細的根本原因分析。這將有利于評估中斷及其影響的流程,以及確定適當的緩解措施。
3、確保測試配置變更的廣泛覆蓋和嚴謹性。這將有助于避免導致潛在中斷的錯誤。Rogers將需要利用新的測試工具對復制生產級網絡的測試場景進行建模,并適應網絡技術的演變。
4、擴大事件管理演練的范圍。這將加強員工和網絡的應急準備,并主動發現薄弱環節。
5、從自身和其他服務提供商的網絡中斷中汲取教訓,以實施預防措施、盡量減小網絡中斷的影響并提高服務質量。
6、告知客戶在中斷期間如何獲取911服務。
7、與更廣泛的互聯網社區交流故障的根本原因和緩解策略,以幫助其他電信網絡運營商防止類似的網絡故障。
針對電信網絡運營商的建議
從 2022 年 7 月中斷事件汲取的重要教訓總結如下:
1、在 IP 核心網和分布網絡中實施路由器過載保護。
2、物理上和邏輯上實現網絡管理層與數據網絡分離。
3、為網絡運營中心和其他重要的遠程站點提供第三方電信網絡運營商提供的安全備用連接。
4、確保網絡配置變更的審計流程有效,并牽涉組織內的不同團隊,比如工程、運營和項目管理團隊。如果配置變更涉及關鍵基礎設(比如IP核心網),還建議牽涉設備供應商。
5、對計劃的配置變更進行實驗室測試,確保實驗室設備和測試場景準確反映生產級網絡。
6、認真管理單個維護窗口中完成的配置變更數量,并利用工具和流程自動回滾配置參數。
7、實施警報優先級自動確定解決方案,以遏制各種變更的不必要警報,以便員工專注于重要警報。
8、為關鍵員工提供輔助的溝通手段,比如第三方網絡運營商的 SIM 卡。
9、模擬和演練網絡故障和中斷場景,以發現網絡架構和事件管理流程方面的缺陷。
不斷演變的電信網絡趨勢。不斷演變的電信網絡趨勢影響著網絡的可靠性和彈性,這包括以下幾個趨勢:電信公共云平臺、網絡軟件化及虛擬化、人工智能在網絡自動化中的使用日益廣泛、后量子網絡安全準備就緒以及地面網絡和非地面網絡融合。加拿大電信服務提供商們正在將其中一些趨勢納入其網絡演變中。我們著重列出了幾個技術和流程建議,它們在面對這種不斷演變的網絡趨勢時有望加強網絡彈性。這些建議包括如下:
1、技術建議:
A. 利用新興的非地球靜止軌道衛星群(比如低地軌道衛星群)為遠程站點提供備用連接,并考慮為緊急 911 呼叫使用新興的直連手機衛星群。
B. 跟蹤并準備實施第三代合作伙伴項目(3GPP)標準制定機構目前正在規劃的災難漫游標準。
C. 考慮使用 OTT 消息傳遞應用程序作為替代通信方法,包括緊急服務。這在某些關鍵系統(比如IP多媒體系統)出現故障時非常有用。
D. 利用基于軟件的動態 SIM 技術,它提供了各種級別的可編程性,以便發生重大故障時為替代提供商提供新的漫游模式。
E. 考慮利用應急頻譜和容量共享技術,以減輕網絡故障的影響。這些技術可以臨時動態地增加網絡容量,以適應漫游用戶。
F. 考慮與內容交付網絡和 OTT 應用提供商合作,以定義緊急情況下特定的交互模式。比如說,動態流量管理允許內容提供商根據電信運營商的反饋調整其行為。
G. 考慮為關鍵基礎設施服務提供商提供冗余連接服務的輔助選項。
2、流程建議:
A. 實施事件響應培訓和演練,以發現架構、運營和業務流程方面對中斷恢復工作產生不利影響的薄弱環節。
B. 實施事件管理響應關鍵績效指標,以衡量事件響應工作,并提高成效。
C. 為人員指定明確的角色和職責,以更好地應對網絡中斷。
D. 考慮計算網絡中斷的成本影響,通過資源分配決策和與利益相關者的溝通來幫助減輕事件的后果,以維護品牌形象和財務穩定。
E. 在中斷期間,建議服務提供商提醒和告知公眾如何訪問緊急呼叫和公共警報服務。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。