Arm處理器入侵伺服器市場的另一個路徑

半導體行業觀察 發佈 2020-01-07T07:42:50+00:00

來源:內容由半導體行業觀察(icbank)編譯自「nextplatform」,謝謝。至少有兩種(可能還有更多種)途徑可以讓Arm處理器在數據中心中與現有的Intel和AMD X86處理器競爭。

來源:內容由半導體行業觀察(icbank)編譯自「nextplatform」,謝謝。

至少有兩種(可能還有更多種)途徑可以讓Arm處理器在數據中心中與現有的Intel和AMD X86處理器競爭。

第一條途徑,也是迄今為止大多數Arm陣型採用的途徑,那就是基於Arm內核和相鄰技術創建更好的CPU,最終使伺服器的外觀,氣味和品味一直到管理控制器和外圍設備或多或少像過去二十年來在數據中心中普遍使用的X86伺服器。通過這條道路,差異化體現在總吞吐量,價格/性能以及對未來處理器設計的激進節奏上,英特爾近年來無法通過Xeons交付這些產品,而AMD在其前兩代Epyc處理器上做得相當出色。

將Arm伺服器帶入數據中心的另一條路徑(當然也較少走過)是採用低功率的Arm CPU並構建另一種系統,該系統不需要當今數據中心中標準的強大X86處理器,但可以仍然以較低的成本和更高的效率處理大量的分布式計算工作負載。這是一條固有的風險之路,在過去的多年裡也有很多人討論,我們現在也正在思考的關於微伺服器與伺服器權衡。但是在構建了一些試驗性的Arm伺服器以驗證這些想法之後,Bamboo Systems正在從私募股權(而不是學術和政府資金)中籌集第一筆資金,並將嘗試提出基於Arm處理器做低功耗的分布式系統的嘗試。

Bamboo Systems並不是一家新公司,而是一家專注和資金雄厚的公司。該公司的前身是Kaleao,我們在2016年8月就談到了這一點,當時曼徹斯特大學的計算機架構教授,前Arm的技術和系統總監John Goodacre從超擴展程序工作負載到包括HPC工作負載改變了他基於微伺服器的集群設計,開啟了一個稱為EuroServer的項目。

三年多以前,Goodacre堅信開發出許多用於並行化超級計算應用程式的關鍵技術,包括用於跨集群共享工作的消息傳遞接口(MPI)協議和分區全局地址空間(PGAS)內存。尋址方案。這就可以使得無論運行什麼工作負載,無論是在HPC中心還是超大規模生產者中,都必須將其集成到將來的百億億次系統的編程模型中。因為沒有其他方法可以同時承載數百萬個線程。

Goodacre和他的團隊早在2014年就開始了EuroServer項目,該平台的許多構想以及其他一些項目被結合在一起,創建了一個名為KMAX的商業產品。現在,他們正在對自己的Bamboo系統進行更名,並長期致力於成為系統供應商,該系統供應商將在正確的時間出現在正確的位置,因為摩爾定律在接下來的十年中最終失效。

第一個KMAX系統於2017年交付,該公司於2014年4月解密了這些設計,我們在此處詳細介紹。KMAX集群基於三星開發的相對適中的Exynos 7420處理器打造,該晶片三星為其智慧型手機創建的,當中包括了來自Arm的運行於2.1 GHz的四核Cortex-A57處理器以及運行於1.5 GHz的四核Cortex-A53。其中Cortex-A53內核用於系統和管理功能,只有Cortex-A57內核用於計算。Exynos 7420晶片採用三星本身的14納米工藝製造,由它們支持低功耗DDR4主存儲器,並且集成了Mali-T760 MP8 GPU。您可以基於他們一起做很多有趣的工作。

KMAX計算節點擁有四個Exynos 7420處理器,而該架構是Goodacre所謂的「完全融合」,因為該節點具有捆綁在其上的所有計算,存儲和聯網功能,並且重要的是使用FPGA,特別是Xilinx的Zync FPGA。它能夠利用嵌入式網絡支持跨節點的PGAS和MPI內存方案,並從CPU中卸載某些網絡功能。每個刀片(blade)上都有兩個KMAX節點,最多12個刀片可裝入一個3U機箱,該機箱具有128個內核,64 GB內存和2 TB嵌入式快閃記憶體的聚合,可提供80 GB /秒的I / O帶寬,在該機箱上每秒處理大約一千萬次I / O操作。每個刀片都可以附加32 TB的NVM-Express快閃記憶體存儲。

使用高密度KMAX-HD變體(比標準機架要深一點),單個KMAX機箱就可以完成兩打Dell PowerEdge伺服器的超大規模工作(緩存,Web服務等)(可以使用老式的伺服器) ,而功耗為Xeon E5處理器的四分之一,成本僅為三分之一,而空間僅為八分之一。據推測,將於今年推出的下一代Bamboo Systems機器將達到或超過這些分數的倍數。

根據Goodacre的說法,數據中心消耗了當今世界3.5%的能源,並且預計在未來五到十年內,能源消耗量將增長3倍至5倍。雖然在這些預測上有一些非常大的誤差線。但關鍵在於,這是毫無疑問的大量能源,更重要的是,數據中心將在今年取代航空業成為最大的溫室氣體排放來源,到2023年,數據中心的消耗量將是航空業的4倍至5倍。在美國或中國,這可能沒什麼大不了的,但是能源效率一直是歐洲計算的更大動力,這些數字將在歐洲產生更好的共鳴。(這在一定程度上也解釋了為什麼Arm像在嵌入式和手持設備上一樣迅速發展,以及Goodacre為什麼在他所從事的伺服器上做出了開創性的工作。

「伺服器業務是一個超過800億美元的市場,這是一個巨大的市場,」 Bamboo Systems的新任執行長Tony Craythorne提醒The Next Platform。Craythorne最近在數據管理軟體製造商Komprise負責全球銷售,並在Brocade Communications,Hitachi Data Systems和Nexsan負責部分業務。「我們都知道,英特爾處理器占據了伺服器市場的絕大部分。但是在過去的幾年中,有些事情發生了變化。軟體設計已經從非常高效的C和C ++代碼轉變為效率低得多的解釋語言(interpreted languages ),例如Go和Python,以及由容器(containers )和Kubernetes主導的軟體堆棧。同時,人工智慧工作負載(尤其是機器學習)給英特爾架構帶來了極大的壓力,因為它不是為運行那些應用程式而設計的。人們通過處理越來越多的計算來解決這些問題。

我們不知道真實情況,但是,如果Bamboo Systems援引的數字正確,那麼數據中心的能耗增長速度將超過聚合數據中心計算的增長速度。正如Goodacre 和Craythorne所看到的那樣,這是一個機會。更準確地說,這就是機會。

但是Bamboo Systems不能只是在KMAX原型機上打一個新標籤就可以做到。該公司沒有透露何時更新的微伺服器將從三星處理器轉移到一個未指定的,現成的Arm處理器,Goodacre說它「相當快」,然後暗示8核到16核之間的某個東西對於單個作業系統,映像可能是平衡計算容量,內存帶寬以及功耗和散熱的最佳選擇。他補充說,

有些東西與由Amazon Web Services創建的原始16核Graviton處理器類似,但與新的64核Graviton2沒有相似之處。這是他們的目標。Goodacre沒透露它是什麼晶片,而是說它已經在當今市場上出售。

Nvidia的Tegra「 Carmel」 Arm晶片(嵌入在其「 Xavier」 Jetson AGX自動駕駛汽車平台中)最高達到八個內核。Marvell Armada晶片甚至在Armada 8K和Armada XP高端版本中擁有四個核心。而高通Snapdragon 865的上面有八個「KRYO」 585核心。

高通晶片的可能性很高,但是英偉達是一種可能性,特別是對於需要一定數量的GPU內存的工作負載而言。根據計算需求,沒有理由刀片不能同時具有這兩種功能。(如果我們忘記了清單,這並不意味著它是詳盡的清單。)

多年來,我們在The Next Platform上看到了許多有趣的微伺服器風格的處理器和系統來回走動,而現在我們問了過去幾年來的相同問題:為什麼現在不行,為什麼現在仍然可以工作呢?過去呢?

「我認為關鍵是您必須使軟體相同,」 Goodacre解釋說。「人們實際上只將系統視為它們軟體的製程,因此,如果軟體相同,那麼一切都好辦很多。「

Goodacre和Craythorne都明白,企業需要花費一些時間來測試Bamboo系統架構中的想法,並在其堆棧中找到正確的應用程式進行測試,然後投入生產。因此,該公司將專注於機器學習和人工智慧,物聯網和邊緣計算,智能存儲,Web基礎設施,內容交付和數據分析應用程式。

同樣重要的是,將使客戶能夠輕鬆使用平台測試機器,以便他們能夠最終發展為概念驗證並投入生產。Bamboo Systems的目標是長期的,並且與其同名產品一樣,它希望能夠以穩定,有機的步伐紮根並傳播。

該公司對我來說,對於經銷商來說,在該系統中期望獲得的利潤要比X86伺服器市場所能得到的利潤要多得多。我們都知道,過去十年或更長時間裡,誰在X86伺服器利潤中占了最大份額——英特爾。

最後一點:將Arm處理器帶入伺服器的第三種方式是AWS通過其Nitro SmartNIC來完成的,該方式從處理器上分擔了存儲和網絡功能。而且,您可以將SmartNIC與上面提到的或強或弱的Arm處理器結合使用。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第2182期內容,歡迎關注。

關鍵字: