NVIDIA超級大核心曝光:最多可達7552個CUDA

天極網 發佈 2020-03-03T03:45:48+00:00

網友在GeekBench 5測試資料庫里挖出兩個規模龐大的NVIDIA新核心,其中一個有118個計算單元,假如每組延續64個流處理器的配置,總數就是7552個,同時核心頻率為1.11GHz,搭配顯存24GB;另一個是108個計算單元,對應6912個流處理器,核心頻率1.01GHz

時間來到3月份之後,離NVIDIA GTC大會的日子也越來越近,關於新一代安培架構GPU的可靠爆料依然很少,而且產品的核心規格也變的越來越多。

網友在GeekBench 5測試資料庫里挖出兩個規模龐大的NVIDIA新核心,其中一個有118個計算單元(NVIDIA的叫法是SM流式多處理器),假如每組延續64個流處理器(CUDA核心)的配置,總數就是7552個,同時核心頻率為1.11GHz,搭配顯存24GB(檢測值23.8GB);另一個是108個計算單元,對應6912個流處理器,核心頻率1.01GHz,搭配顯存48GB(檢測值46.8GB)。

這兩款新品很可能是NVIDIA下一代安培核心,甚至有可能是更下一代的「Hopper」(赫柏)。因為NVIDIA做過雙架構核心並行的事兒,比如Tesla V100系列是僅面向專業市場開發的Volta(伏特)核心,而Turing(圖靈)架構則面向消費級市場。由於目前無法確認這兩個核是不是屬於計算專業卡Tesla、圖形專業卡Quadro、半專業卡Titan、遊戲卡GeForce中的哪個序列,但按照以往的發布規律來說,最先上馬的將會是Tesla,比如Tesla A100。

不過也不能就此排除GeForce的可能,如果118個單元、7552個流處理器的大核心是RTX 3080 Ti,那麼規模要比現在68個單元、4352個流處理器的RTX 2080 Ti增加了74%。而且這可能不是完整版核心,128個單元才是最合理的全部實力,那樣就是8192個流處理器,相比於RTX 2080 Ti多88%,即便相比72個單元4608個流處理器、完整TU102核心的Titan RTX也大78%。24GB顯存如果是遊戲卡的GDDR6,對比RTX 2080 Ti可就翻一番多,如果是專業卡的HBM2,對比現在Tesla V100 16/32GB也只算是個低配版。

108個單元、6912個流處理器的核心則肯定不是RTX 3080,一來這樣會比RTX 2080的規模增大135%,非常離譜,二來顯存容量高達48GB,絕無可能用於遊戲卡,只能是Tesla乃至是Quadro專業卡。

至於1.01GHz、1.11GHz的低頻率,這很容易理解,都是早期的工程樣品而已,分別出現在去年10月底和11月底。核心規模猛增的同時,即便在如此低頻率下的性能也相當兇猛,118單元、108單元的OpenCL計算跑分分別為184096、141654,作為參考Tesla V100 154606、Quadro GV100 142837、Titan RTX 132804。如果來到正式版,其頻率最高可達2GHz的話,OpenCL的跑分還將實現最少70%的提升。

GeekBench 5曝光這兩款產品很可能是針對專業市場的Tesla系列,無論是顯存容量、CUDA核心數量都是如此。消費級產品的核心規格應該還會控制5120個CUDA之內,顯存容量也會控制在16GB之內。

NVIDIA AMPERE

不過以上的猜測都是基於每組SM單元擁有64個CUDA核心,如果規格下降至32個CUDA每組SM的話,那麼面向消費級市場的可能性就能夠被敲定。

按照32個CUDA核心為一組SM單元的話,118組將會擁有3776個CUDA核心,雖然頻率較低,但是7nm工藝能夠帶來更強的頻率提升,達到2GHz也並非不可能,只是熱設計功耗需要控制在200W之內。至於顯存,RTX 2080 Ti已經達到11GB,那麼3776個CUDA的RTX 3080 Ti可能提高至12GB或者16GB,並搭配376bit或512bit位寬的GDDR6顯存。

至於108組SM單元的安培,其CUDA將降低至3456個,顯存將可能是320bit的GDDR6,容量達到10GB。實際上,早先的爆料之中就已經透露了10GB、20GB顯存產品的可能。但筆者認為10GB是最理想的狀態,畢竟10GB已經能夠滿足3456個CUDA核心使用。

按照32個CUDA為一組SM單元計算的話,3776個CUDA核心和7nm帶來的雙重加持,都能夠讓安培的性能輕鬆超越圖靈。此前的爆料稱安培架構對比圖靈,其核心性能大約提升70%左右,也符合GeekBench 5的曝光。但是一切道德細節,還需要等到3月底的GTX大會,NVIDIA屆時將會為我們揭曉真正的答案。

關鍵字: