IT 實力較量：決戰超級數據中心之巔

作者 | 馬超

責編 | 伍杏玲

出品 | CSDN（ID:CSDNnews）

今年的新冠疫情讓不少人認識到雲計算的戰略意義：今年5月，IBM 新 CEO 克里希納在上任伊始就表示，IBM將專注於AI和混合雲，將它們視為未來的關鍵技術。谷歌雲計算部門負責人托馬斯·庫里安表示將全力追趕雲計算領頭羊亞馬遜和微軟。

在我國，隨著新基建政策的下發，國內各科技巨頭開始強勢布局：阿里雲宣布3年 2000 億入局，騰訊清遠數據中心開服。今天，阿里雲宣布位於南通、杭州和烏蘭察布的三座超級數據中心正式落成，陸續開服。

相比於傳統的數據中心，超級數據中心是面向未來設計打造的，比拼的是技術能力。因此我們經常聽到有關數據中心的黑科技，比如微軟和臉書的海底數據中心，華為和AWS推出基於ARM的伺服器，阿里雲本次發布的超級數據中心更是應用達摩院、平頭哥等最新研究成果，在各方面都有技術升級。

下面筆者帶大家揭開超級數據中心神秘的面紗。

揭秘超級數據中心背後的黑科技

雲計算邊際成本隨著規模增大而快速降低的效應愈發明顯，比如一個數據中心的土地、電力、製冷等是成本的大頭，增加一台伺服器或者計算節點新增投入的邊際成本很低，超級數據中心恰恰是這種規模集約化運營模式的終極產物，堪稱是算力之源，服務底座。

與傳統數據中心不同，超級數據中心想通過規模提高效益，必須要解決大規模供電、高帶寬數據傳輸以及高效率製冷這三大難題，以往這些技術的透明度不太高，各廠商往往都對這些黑科技諱莫如深。

阿里雲本次揭開了這些黑科技的面紗，著實讓筆者對於超級數據中心的認識更進了一步。

巴拿馬電源：一般的數據中心尤其是超級數據中心，其供電一般是通過高壓電進行配送的，如何將10kV的AC供電轉為240V的DC供電，並且控制相應損耗一直都是擺在數據中心強電工程師面前的難題。

阿里重新定義10kV---240V供電鏈路，對磁路和電路進行聯合設計，提出最高2.5MW、一體化、模塊化、高效、高可靠直流不間斷電源，省去傳統低壓配電環節，採用第三代半導體技術大幅度優化電源內部結構，實現了高可靠和低成本的目標。

只需一台巴拿馬電源，可以從中壓10kV AC直轉240V DC（或336V DC），讓供電傳輸一步到位，更加高效而可靠。正如1914年開鑿完成的巴拿馬運河極大地縮短了太平洋和大西洋之間的航程，巴拿巴電源大幅降低了供電系統的轉換損耗。

400G光模塊：內部網絡高速穩定的數據傳輸，是業界對於新一代數據中心的基本要求，這依賴於光模塊的技術水準。

去年末阿里推出了基於矽光技術的400G DR4光模塊，其帶寬密度提高4倍，網速提升4倍，設備體積與成本基本沒有增加，目前400G光模塊已在阿里的各大超級數據中心全面投入使用。

液冷伺服器集群：說實話液冷技術的確令筆者非常震撼，阿里將這種液冷技術命名為「麒麟」，這是一種將伺服器被浸泡在特殊的絕緣冷卻液里的製冷方案，由於運算產生熱量可被直接吸收進入外循環冷卻，全程用於散熱的能耗幾乎為零，因此這種形式的熱傳導效率比傳統的風冷要高百倍，節能效果超過70%。

「麒麟」系統真正推廣開卻不容易，如果全部使用液冷，那麼伺服器硬體故障該如何快速維修，如何快速布線等等，這都是革命性變化，目前全球範圍內僅有阿里的一個數據中心大規模採用了「麒麟」技術。

未來3到5年，阿里計劃將所有數據中心全面使用液冷。想想看，如果全國的數據中心都採用液冷技術，一年可節省上千億度電，逐步實現低碳數據中心的目標。

分散布署的邏輯：不把雞蛋放在一個籃子裡

雲計算市場最大的特點是勝者通吃，誰占據市場第一的位置，誰降低成本，以更低的價格形成擠出效應。因此各大科技巨頭都有強烈的規模化、集中化的訴求。

各巨頭的數據中心選址卻並不集中，比如阿里本次的數據中心布署在了南通、杭州和烏蘭察布三地，每個地域都採用了3AZ設計。筆者認為這種情況的出現關鍵在於「不能把雞蛋放在同一個籃子裡」。這種數據中心布署，一般要滿足以下原則。

就近原則：分別接近京津冀、長三角、珠三角經濟帶

3AZ設計：每個數據中心都採用3AZ設計，一份數據會在一個數據中心的三個AZ里做備份，防止數據丟失。

全球性廣泛布署數據中心有一些就近服務規劃方面的優勢，是集中布署的數據中心所不具備的。

今年年初，聯合國在紐約總部宣布騰訊成為全球合作夥伴，為聯合國成立75周年提供全面技術方案，其中騰訊會議、企業微信和騰訊同傳為這場有史以來最大規模的全球對話提供遠程會議服務，支持疫情期間的在線會議活動。

騰訊能脫穎而出，正因為騰訊會議依託騰訊全球的數據中心，實現了在複雜網絡環境的高抗性自適應。同時騰訊會議的調度系統綜合考慮用戶所在位置、運營商、網絡和鏈路質量情況，動態選擇最佳接入點，有效地保障「最後一公里」的接入質量。從而支撐全球不同國家不同地點的同時接入服務，這是集中布署的數據中心所不能具備的優點。

異地數據中心：災備體系之根

前不久，微盟因人為惡意刪庫，使得其業務自發生中斷，直到一周多以後才全面找回數據。縱然業界普遍一般公司有5%左右的機率發生重大信息系統災難，一旦故障發生，企業損失巨大。異地數據中心的災備體系建設可以將這類事故的影響降到最低。

在講災備體系之前，我們先來明確評價業務連續性的兩個重要指標：

RTO（Recovery Time Objective）:RTO是指災難發生後，從IT系統崩潰導致業務停頓開始，到IT系統完全恢復，業務恢復運營為止的這段時間長度。RTO用於衡量業務從停頓到恢復的所需時間。

RPO（Recovery Point Objective）：IT系統崩潰後，可以恢復到某個歷史時間點，從歷史時間點到災難發生的時間點的這段時間長度就稱為RPO。RPO用於衡量業務恢復所允許丟失的數據量。

簡單來講RTO是災難發生後業務中斷的時間，RPO是災難發生後數據丟失的數量。

一般來說目前比較流行的災備體系是至少建設三個數據中心：

主中心：正常情況下全面提供業務服務。

同城中心：一般使用同步複製的方式來向同城災備中心傳輸數據，保證同城中心數據複本為最新，隨時可以接管業務，以保證RTO的指標。但是同城中心無法應對此類刪庫事件。

異地中心：一般使用延時異步複製（延時時間一般為30分鐘左右）的方式向異地災備中心傳輸數據，其中同步複製的好處是一旦主中心被人工破壞，那麼不會立刻涉及異地中心。以保證RPO的指標。

一句話總結災備體系的最佳實踐就是兩地三中心；同城保證業務連續性，優先負責用戶體驗；異地保證數據連續性，確保企業生存底線。

不少企業尤其是創業型企業在異地中心的建設上投入還不夠，一旦發生刪庫事件就影響是致命的。所以當企業發展到一定規模以後，必須考慮建設跨異地數據中心的災備體系，以此來應對風險。

十年前，IT界普遍流傳著一句話叫做「代碼正在吞沒世界」，現在人們才真正醒悟原來雲計算才是背後的那個大BOSS。如今，隨著雲原生和無伺服器計算模式的普遍應用，雲服務模式正在被重新定義。數據中心作為雲的底座越來越有成為IT行業的C位的趨勢，未來值得期待。