問題情境
阿里雲CDN產品在全球擁有3200+節點,覆蓋70多個國家和地區,為了確保這數量龐大的CDN節點能夠正常運行,以及提供更好的加速服務,阿里雲CDN的工程師團隊需要不定期對部分CDN節點進行營運操作,例如:硬體裝置升級、軟體版本更新、網路割接、線路切換等,營運操作期間通常會下線節點。雖然阿里雲CDN會採取多種措施來降低節點下線對使用者的影響,但是由於本地電訊廠商以及用戶端均存在DNS緩衝,因而部分用戶端可能仍然會訪問到已下線節點,導致訪問失敗的現象。
問題影響與阿里雲的最佳化措施
阿里雲CDN產品在全球擁有3200+節點,日常的節點營運操作是一種正常的維護升級行為,為了儘可能減少節點營運操作對用戶端正常訪問的影響,阿里雲CDN的工程師做了許多的最佳化措施,包括但不限於以下這些:
節點營運並發數量:同一時間進行營運操作的節點數量會控制在一個非常小的量級,以儘可能縮小下線節點潛在的客戶影響面。
節點營運時間:節點營運操作通常會避開業務高峰時間段(業務高峰時間段通常在夜間19:00~23:00),大多數的營運操作是在淩晨業務低穀時間段進行。
節點流量調度:阿里雲CDN節點的營運操作有一套規範的處理流程,對於需要營運的節點,阿里雲CDN的調度系統會在下線節點之前把流量調度到周邊正常啟動並執行節點上。
異常情況監測:阿里雲CDN節點也可能會因為一些少量的異常情況(例如:電訊廠商線路故障、資料中心機房故障等)而出現計劃外的下線。對於這一類問題,阿里雲CDN產品的調度系統提供了對所有節點的探測監控,一旦發現節點異常下線,會即時把對應節點上的流量調度到周邊正常啟動並執行節點上。
使用者側最佳化措施
雖然阿里雲CDN採取了多種措施來降低節點下線對使用者的影響,但是由於本地電訊廠商以及用戶端均存在DNS緩衝,因而部分用戶端可能仍然會訪問到已下線節點,導致訪問失敗的現象,針對這一問題,使用者側可以採取以下最佳化措施來進一步降低影響:
最佳化方式 | 詳細說明 |
清理本地電訊廠商DNS緩衝 | 阿里雲解析DNS產品聯合中國電信推出了“中國電信DNS緩衝重新整理”服務,該服務可以在電信電訊廠商DNS端即時的清除本機快取資訊,並擷取最新的解析結果,從而實現電信電訊廠商側的解析快速生效,具體請參見中國電信DNS緩衝重新整理。 |
清理用戶端DNS緩衝 |
|
使用HTTPDNS技術 | 您需要在用戶端上整合HTTPDNS技術,採用HTTPDNS這項技術可以使用戶端繞開電訊廠商的本地DNS,直接採用HTTP協議去訪問阿里雲CDN的調度系統,請求待訪問網域名稱的最優接入節點,這樣可以規避電訊廠商本地DNS緩衝所帶來的節點切換時延問題。 |