超算簡史與下一代超級計算機

阿里雲官網 發佈 2020-01-09T22:29:50+00:00

OpenHPC致力於為高性能計算構建一個開源框架,適應現在工業和學術研究的需求,創建一個穩定的HPC 測試環境,為 HPC 環境創建一個開源框架,降低成本,開發一個全能的HPC軟體棧適應各種應用,構建一個配置框架,開發者和用戶可以靈活的選擇 HPC 中他們需要的部分。

什麼是超級計算機

上圖為超算界2012年世界冠軍「泰坦」(Titan),它有一萬多個兄弟,每個兄弟都是當時最強的CPU,再配上GPU、高速網絡等高精尖武器,運算速度達到20+ PFLOPS。「泰坦」占地面積與標準籃球場相當,消耗的電力足以供應一個小型城鎮;普通電腦放在背包裡帶走,超級計算機要專門建一棟樓來放置。

「超級計算(Supercomputing)」這一名詞在1929年《紐約世界報》關於「IBM為哥倫比亞大學建造大型報表機(tabulator)的報導」中首次出現。超級計算機是一種由數百、數千甚至更多的處理器(機)組成的,能計算普通PC機和伺服器不能完成的大型、複雜課題的計算機。

超級計算機是計算機中功能最強、運算速度最快、存儲容量最大的一類計算機;多用於國家高科技領域和尖端技術研究,對國家安全,經濟和社會發展具有舉足輕重的意義;也是國家科技發展水平和綜合國力的重要標誌。

超算簡史

1960年代前

60年代及之前,可以看成是超級計算機的蠻荒時代,有IBM、DEC、GE等眾多玩家。

其中IBM的各種牛,各種首創,不一一細表。我認為對廣大程式設計師影響最大的還是FORTRAN的發明,它是影響了計算機歷史,影響了程式語言的發展,並且如今仍在科學計算領域仍然被廣泛使用。剛畢業時,我還在物探局編寫、優化了大量FORTRAN模塊。

還有一個不得不提的是CDC (Control Data Corporation)公司,它不僅有非常產品優秀(如上圖的CDC 6600);而且其擁友一位傑出工程師Seymour Cray。Seymour Cray在CDC工作多年並設計了一系列當時最快的計算機,直到他離開後創立了自己的公司,開創了超級計算機的一代梟雄──Cray。

1970 - 1980年代

Seymour Cray創立自己的公司──Cray Research。憑著他的新設計,Cray Research一度主導了當時的整個超級計算機市場。

上圖為Seymour Cray和他的Cray-1,Cray-1成功使用向量處理器(vector processor),性能是同期其它產品的幾倍。

Cray-2首台4路向量處理器,成為當時峰值最高的超級計算機。

巔峰之後,其後Cray公司急速下滑;經歷了破產、被收購等一系列變故,命運多舛、但仍然頑強的堅持著;直至今日,Cray依然是超級計算機領域的巨頭之一。

向量處理器(vector processor),是一種實現了直接操作一維數組(向量)指令集的中央處理器(CPU)。向量處理器可以在特定工作環境中極大地提升性能,尤其是在數值模擬或者相似領域。向量處理器最早出現於20世紀70年代早期,並在70年代到90年代期間成為超級計算機設計的主導方向,尤其是在多個Cray平台。現在,絕大多數商業化的CPU實現都能夠提供某種形式的向量處理的指令,用來處理多個(向量化的)數據集,也就是所謂的SIMD(單一指令、多重數據);如常見的 SSE, MMX和 AVX等。

1990年代

90年代,是MPP(Massive Parallel Processing)大爆發的時代,處理器個數由原來的個位數爆炸增長到幾千個。

MPP屬於IT巨頭的定製機,每個節點使用定製CPU,運行OS微內核,使用單獨開發的專有網絡連接。具有代表性產品有:Intel ASCI Red,IBM SP2,Cray/SGI Origin 2000。

MPP架構與現在的集群(Cluster)已經非常相似了,最大的差異點是其組件大多是單獨定製開發。MPP架構主導超算領域,同時催生了另外一項沿用至今的技術 -- 消息傳遞接口(Message Passing Interface,縮寫MPI)。MPI是一個並行計算的應用程式接口(API),常用於MPP、集群系統等分布式內存環境程序設計。MPI的特點是高性能,大規模性和可移植性;直至今天仍為高性能計算的最主要模型。之前,本人圍繞這個計算機領域的90後,前後工作了N年。

走進新世紀

進入新世紀後,集群(Cluster)得到蓬勃的發展。集群的節點是一台完整的商業伺服器,運行通用作業系統(感謝Linux,感謝GNU!),互連網絡使用商業標準的IB和乙太網設備連接,存儲為SAN、NAS和並行文件系統。

原有的MPP超級計算機的單獨定製門檻被打破,「堆機器」成了新玩法。國內廠家在這一時期開始嶄露頭角,如聯想的深騰系統、曙光公司的曙光5000A等等。

之後,國防科技大學異軍突起;其設計的「天河一號」是我國首台千萬億次超級計算機。

「天河一號」從2008年開始研製,按兩期工程實施:

一期系統(TH-1):於2009年9月研製成功;裝有3072顆Intel的Xeon E5540 2.53GHz四核處理器和3072顆Xeon E5450 3.0GHz四核處理器,共有24,576個處理器核心。天河一號還裝備2560塊AMD的Radeon HD 4870 X2顯示卡,共有5,120個圖形處理器用於圖形處理器通用編程。該超級計算機系統部署於,設立在天津濱海新區的國家超級計算天津中心作為業務主機。

二期系統(TH-1A):於2010年8月在國家超級計算天津中心升級完成;配備了14,336顆Xeon X5670處理器、7,168塊基於NVIDIA的Tesla M2050計算卡、2,048顆國防科技大學研製的飛騰處理器以及5PB存儲設備。升級後的TH-1A比TH-1理論峰值性能提高了3.89倍,實測性能提高了4.45倍。2010年11月14日,國際TOP500組織在網站上公布了最新全球超級計算機前500強排行榜,我國首台千萬億次超級計算機系統「天河一號」(TH-1A)排名全球第一。

「天河一號」是我國首台採用異構加速卡架構設計的超級計算機,其中第一期系統(TH-1)使用了Intel CPU + AMD GPU卡,第二期系統(TH-1A),GPU卡改為生態更成熟NVIDIA Tesla M2050。本人參與並見證了,東方物探石油勘探地震資料處理應用在天河-1A上運行,是當時最早期的、可支持NVIDIA GPU的超大規模並行應用。鑒於其巨大意義,當時有一篇著名的文章《超級計算機天河一號應用水平進入世界先進行列》。

繼「天河一號」後,由國防科學技術大學研製的超級計算機系統「天河二號」,於2013年6月起至2016年6月之前(六連冠),再次成為世界上最快的超級計算機。

2016年6月20日,由國家並行計算機工程技術研究中心研製、安裝在國家超級計算無錫中心的超級計算機「神威·太湖之光」超級計算機,超越同為中國建造的「天河二號」,成為世界上最快的超級計算機。至此以來,中國長期(2013年6月至今)占領TOP500首位,成為了超算領域的迅速崛起的一顆耀眼新星。

超算的武功排行榜

TOP500項目是針對全球已知最強大的電腦系統做出排名與詳細介紹。此項目始於1993年,每年出版兩次最新的超級計算機排名列表。每年的第一次排名公布總是在六月份的國際超級計算機會議(ISC)上,而第二次排名公布則是在十一月份的超級計算會議(SC)上。

最近一期(2017年11月)TOP500前十名排名:

其中中國2台(前兩名),日本3台,美國4台,歐洲1台。從榜單可以反映出兩個特點:1、中國獨占榜單頭兩位;2、美國第一次丟失了前四位;大名鼎鼎的Titan先後被瑞士的Piz Daint和日本的Gyoukou超越,落到第五的位置。

美國在高性能計算領域具有傳統優勢,是決不會讓這種情況繼續(IBM、Intel、Cray也不會,都是拿大單的機會啊)。為應對日益激烈的競爭壓力,在學術大咖、商界領袖的共同遊說下,美國能源部首先站里出來;在 2014 年啟動的超算計劃 CORAL,投入5.25億美元,要幫助美國在超算領域奪回領頭羊地位。

大洋彼岸的應對

CORAL是個什麼項目呢?我們看看它的全稱就明白了,這是個大塊頭。

CORAL = Collaboration of Oak Ridge, Argonne, and Lawrence Livermore

Oak Ridge,Argonne 和 Lawrence Livermore,他們代表美國能源部下屬的三個國家實驗室:橡樹嶺國家實驗室(Oak Ridge National Laboratory,縮寫為ORNL),阿貢國家實驗室(Argonne National Laboratory,縮寫為 ANL)和勞倫斯利佛摩國家實驗室(Lawrence Livermore National Laboratory,縮寫為 LLNL)。

這三個,應該是大家最熟悉的美國國家實驗室了。橡樹嶺國家實驗室和阿貢國家實驗室都是源於大名鼎鼎的曼哈頓計劃的一部分,之後分離出來成立的最早的大型美國國家實驗室。勞倫斯利佛摩國家實驗室(LLNL)名氣稍差一點,但提到它的大表哥洛斯阿拉莫斯國家實驗室,同為曼哈頓計劃的一部分,知名度絕對高。這哥倆同為美國能源部所屬,是美國兩個為了X武設計而建立的部門。江湖傳聞LLNL是為了制衡洛斯阿拉莫斯國家實驗室一家獨大而專門建立。

Collaboration

解釋完後面三個單詞「Oak Ridge, Argonne, and Lawrence Livermore」,我們再解釋一下「Collaboration」代表著什麼。
Collaboration的具體內容是三個國家實驗室共同招標建造四台超級計算機,供各自科研使用。不差錢的標書發出來後,廠家紛紛響應。但建超算是技術活,不是誰都幹得了的,結果不出意外;計算機巨頭組團拿下了訂單。

朋友圈一:IBM + NVIDIA + Mellanox,負責建造兩台,合同金額 3.25億美元。
朋友圈二:Intel + Cray,負責建造另外兩台,合同金額2億美元。

第一台:Summit

放置在橡樹嶺國家實驗室,替代上文提到、現TOP500排名第五位的Titan超級計算機(Cray造,AMD Opteron + NVIDIA Tesla K20X);朋友圈一合作,採用:IBM Power9 + NVIDIA GPU + Mellanox IB方案,由IBM建造,計劃2018年底交付。

Summit理論峰值150-300 PFLOPS,高於現在第一名的「神威·太湖之光」的125PFLOPS,預計會在18年底重新奪回TOP500第一名的寶座;不過還需要一個前提,「At that point, absent another surprise from China」。

第二台:Sierra

放置在勞倫斯利佛摩國家實驗室(LLNL),替代原有的Sequoia超級計算機(IBM Blue Gene Q);Sierra就是縮小版的Summit,架構、技術完全一致,規模、配置部分縮水,同由IBM建造,計劃2018年交付。

第三台與第四台:Theta & Aurora

這兩台都放置在阿貢國家實驗室,朋友圈二拿下。Intel為主承包商,Cray負責集成和建造; Theta採用Intel Xeon Phi KNL + Aries Interconnect,在2016年底已交付,理論峰值9.6 PFLOPS(實測5.88 PFLOPS),最新一期TOP500排名18;Aurora為大號的Theta,同樣採用Intel Xeon Phi技術,設計峰值180 PFLOPS;由於Intel取消最近一代Xeon Phi產品,機器無法交付;該項目改為2021年,搭建美國首台E FLOPS(1000 PFLOPS)超級計算機。由於Intel Xeon Phi在交付上的風險,同時建兩台超級計算機的好事,最終沒有落到Argonne的身上。

下表為CORAL項目實際建造的3台超級計算機的硬體參數:

朋友圈一:IBM + NVIDIA + Mellanox

Summit & Sierra的體系結構可以看到:CPU + GPU的異構架構已經完全被超算領域認可。

RDMA(Remote Direct Memory Access)以其Zero-copy,bypass-kernel,Network Offload的特性,是超級計算機高速網絡的最佳選擇之一。其中最常見的實現有三種:RDMA over Converged Ethernet (RoCE), InfiniBand和 iWARP。其中InfiniBand在帶寬、時延方面高於其他兩種方式,在用戶定製超算領域占有率最高。RoCE是構建在乙太網(UPD協議)之上的RDMA實現,擁有更廣泛的軟硬體基礎和成本優勢,在數據中心及雲上具有廣泛的應用場景。帶寬上,100Gb已經成為行業主流,超算已經向更高速度衝擊。小號的Sierra雖然採用EDR(100 Gb)技術,但使用雙網卡技術將最大帶寬提升到200 Gb;Summit還沒有交付,個人猜測直接採用200Gb HDR的可能性更高。

在處理器領域,IBM在與Intel的競爭中落了下風,但其以開放的態度,主動示好業內各領域領先企業,希望在超算、AI領域奪回10-20%的市場份額。如為了支持NVIDIA GPU,及更好的開源軟體生態,Power9成為第一代原生支持小端的IBM處理器。同時,Power9 伺服器中首先應用OpenCAPI,不但支持連接NVIDIA GPU (NVLink),也支持Google ASIC、Xilinx FPGA。

CAPI(Coherent Accelerator Processor Interface,統一加速器處理器接口)及其演進版本OpenCAPI(開放式高性能總線標準)集齊計算機領域多家巨頭:IBM、Google、AMD、NVIDIA、Micron、Mellanox等,以開放的姿態得到了業內廣泛的支持。OpenCAPI 標準總線最大的特點就是性能強勁,每個通道的數據都可達25Gbps,遠遠超過PCIe 3.0 的8Gbps,而且也支持多通道綁定。

朋友圈二:Intel + Cray

Intel在伺服器CPU領域,處於完全領導地位,無論在性能、生態各方面遠超對手;但超算領域加速卡方面,面對NVIDIA GPU的強勢,Intel推出了Xeon Phi產品,想憑藉支持原生x86架構,借力生態優勢,再下一城。最近一期(2017年11月)TOP500排行榜中,採用Intel Xeon Phi的超算總共有29台,戰績中規中矩。同期NVIDIA GPU為87台;其餘300多台為純CPU無加速卡,還有極個別採用自研加速卡,如「神威·太湖之光」。

隨著AI的崛起,GPU加速卡技術得到更快速的發展,Intel雖說取得了一些成績,但勢頭上仍被NVIDIA壓制,調整取消了最近一代Xeon Phi產品,聚集力量研製新產品,希望在AI方面取得新的突破。

在高速網絡方面,Intel也是握有多張好牌;Intel在乙太網領域積累深厚,有著名的82599網卡,同時也是RDMA over TCP (iWARP)技術主要推動者;2012年,Intel收購QLogic InfiniBand業務,基於這一技術又推出了Omni-Path Architecture(OPA),繼續對Mellanox發起挑戰,並已斬獲了部分超算客戶。同年,Intel還收購Cray旗下超級計算機互聯技術團隊,這個團隊創造了兩項互聯技術,分別為Aries和Gemini。

在這個Intel主導的朋友圈裡,憑藉其超強硬體技術及廣泛的業務線,在CPU、加速卡及高速網絡全面PK三大計算巨頭,實力令人仰慕。

我的思考

我國雖然多次占據了TOP500的頭兩位,但不能簡單認為超算建設水平已領先其他國家,特別是美國。造成這種局面的一個主要原因是兩國在建設超級計算機思路的不同:

美國是根據計算需求設計系統,需要多少計算能力就把超級計算機計算能力設計成多少;如上文提到的CORAL項目,由三大國家實驗室主導建設,超算放置地和最終的用戶都是各自國家實驗室。

中國是通過立項建設,證明我們有能力、有財力建設世界第一的超級計算機也成為了項目的一大目標。建成後,建設方主要負責超算系統的運維,計算資源部分用以支撐國家重大項目,同時也向社會租售計算資源。

在超算建設方面,中國從技術實力上跟歐洲、日本都在一個水平線上,不超前,也不落後。美國還是一騎絕塵,特別在各個關鍵部件方面、大規模並行應用軟體方面。

在並行軟體方面,我們的差距遠比硬體大,無論是科研領域,還是工業領域。軟體水平的制約,各大超算中心大多存在單個並行作業規模較小,硬體資源閒置率較高。並且,各個中心均隸屬於大學、研究院,市場競爭意識淡漠,服務意識不強。這種現狀,也給了重視客戶體驗、服務質量高的雲平台們在超算領域的更多機會。

CPU + GPU + RDMA的架構,在系統效率、可擴展性上展現出較大優勢;並伴隨著GPU生態完善、AI崛起等有利條件的推動,正在成為企事業單位自建超算平台的主要選擇之一。雲上超算平台緊跟趨勢,藉助阿里雲彈性裸金屬伺服器(神龍)CPU/GPU + RoCE(RDMA over Converged Ethernet)的技術優勢,迅速推出超級計算集群(Super Computing Cluster,縮寫為SCC)產品(https://www.aliyun.com/product/scc )、開拓傳統超算客戶上雲業務。

後記

本文介紹了超算硬體的簡史及新一代的趨勢,在軟體方面Linux基金開源的超算項目 – OpenHPC位於行業主導地位。OpenHPC致力於為高性能計算構建一個開源框架,適應現在工業和學術研究的需求,創建一個穩定的 HPC 測試環境,為 HPC 環境創建一個開源框架,降低成本,開發一個全能的HPC軟體棧適應各種應用,構建一個配置框架,開發者和用戶可以靈活的選擇 HPC 中他們需要的部分。

對應,我們推出了彈性高性能計算(E-HPC,https://www.aliyun.com/product/ehpc )產品,為客戶以快捷的方式在阿里雲上搭建超算平台,並完全兼容OpenHPC軟體棧;同時,我們還可以為客戶提供應用特徵分析工具,提供針對特定應用的雲上實例選型推薦、性能優化服務。

如對阿里雲超算平台感興趣,歡迎閱讀:

阿里雲超算揭秘:虛擬機的心臟,物理機的肌肉

黑科技揭秘:如何通過阿里雲超算,使得汽車仿真效率提升25%

異構計算與高性能計算,是打開未來的兩把鑰匙

本文參考連結
https://en.wikipedia.org/wiki/Supercomputer
https://en.wikipedia.org/wiki/Seymour_Cray
http://www.nscc-tj.gov.cn/claculation.php
http://www.nscc-gz.cn/
https://computation.llnl.gov/partnerships/commencing-work-coral
https://www.top500.org/news/ornl-begins-construction-of-summit-supercomputer/
https://www.olcf.ornl.gov/olcf-resources/compute-systems/summit/
https://hpc.llnl.gov/hardware/platforms/sierra
https://www.alcf.anl.gov/theta
https://www.top500.org/news/retooled-aurora-supercomputer-will-be-americas-first-exascale-system/
http://www.datacenterdynamics.com/content-tracks/servers-storage/aurora-to-become-americas-first-exascale-hpc-system-coming-2021/99035.fullarticle
http://openhpc.community/

作者:蜚廉

關鍵字: