NVIDIA超級大核心曝光：最多可達7552個CUDA

由天極網發佈 2020-03-03T03:45:48+00:00

網友在GeekBench 5測試資料庫里挖出兩個規模龐大的NVIDIA新核心，其中一個有118個計算單元，假如每組延續64個流處理器的配置，總數就是7552個，同時核心頻率為1.11GHz，搭配顯存24GB;另一個是108個計算單元，對應6912個流處理器，核心頻率1.01GHz

時間來到3月份之後，離NVIDIA GTC大會的日子也越來越近，關於新一代安培架構GPU的可靠爆料依然很少，而且產品的核心規格也變的越來越多。

網友在GeekBench 5測試資料庫里挖出兩個規模龐大的NVIDIA新核心，其中一個有118個計算單元(NVIDIA的叫法是SM流式多處理器)，假如每組延續64個流處理器(CUDA核心)的配置，總數就是7552個，同時核心頻率為1.11GHz，搭配顯存24GB(檢測值23.8GB);另一個是108個計算單元，對應6912個流處理器，核心頻率1.01GHz，搭配顯存48GB(檢測值46.8GB)。

這兩款新品很可能是NVIDIA下一代安培核心，甚至有可能是更下一代的「Hopper」(赫柏)。因為NVIDIA做過雙架構核心並行的事兒，比如Tesla V100系列是僅面向專業市場開發的Volta(伏特)核心，而Turing(圖靈)架構則面向消費級市場。由於目前無法確認這兩個核是不是屬於計算專業卡Tesla、圖形專業卡Quadro、半專業卡Titan、遊戲卡GeForce中的哪個序列，但按照以往的發布規律來說，最先上馬的將會是Tesla，比如Tesla A100。

不過也不能就此排除GeForce的可能，如果118個單元、7552個流處理器的大核心是RTX 3080 Ti，那麼規模要比現在68個單元、4352個流處理器的RTX 2080 Ti增加了74%。而且這可能不是完整版核心，128個單元才是最合理的全部實力，那樣就是8192個流處理器，相比於RTX 2080 Ti多88%，即便相比72個單元4608個流處理器、完整TU102核心的Titan RTX也大78%。24GB顯存如果是遊戲卡的GDDR6，對比RTX 2080 Ti可就翻一番多，如果是專業卡的HBM2，對比現在Tesla V100 16/32GB也只算是個低配版。

108個單元、6912個流處理器的核心則肯定不是RTX 3080，一來這樣會比RTX 2080的規模增大135%，非常離譜，二來顯存容量高達48GB，絕無可能用於遊戲卡，只能是Tesla乃至是Quadro專業卡。

至於1.01GHz、1.11GHz的低頻率，這很容易理解，都是早期的工程樣品而已，分別出現在去年10月底和11月底。核心規模猛增的同時，即便在如此低頻率下的性能也相當兇猛，118單元、108單元的OpenCL計算跑分分別為184096、141654，作為參考Tesla V100 154606、Quadro GV100 142837、Titan RTX 132804。如果來到正式版，其頻率最高可達2GHz的話，OpenCL的跑分還將實現最少70%的提升。

GeekBench 5曝光這兩款產品很可能是針對專業市場的Tesla系列，無論是顯存容量、CUDA核心數量都是如此。消費級產品的核心規格應該還會控制5120個CUDA之內，顯存容量也會控制在16GB之內。

NVIDIA AMPERE

不過以上的猜測都是基於每組SM單元擁有64個CUDA核心，如果規格下降至32個CUDA每組SM的話，那麼面向消費級市場的可能性就能夠被敲定。

按照32個CUDA核心為一組SM單元的話，118組將會擁有3776個CUDA核心，雖然頻率較低，但是7nm工藝能夠帶來更強的頻率提升，達到2GHz也並非不可能，只是熱設計功耗需要控制在200W之內。至於顯存，RTX 2080 Ti已經達到11GB，那麼3776個CUDA的RTX 3080 Ti可能提高至12GB或者16GB，並搭配376bit或512bit位寬的GDDR6顯存。

至於108組SM單元的安培，其CUDA將降低至3456個，顯存將可能是320bit的GDDR6，容量達到10GB。實際上，早先的爆料之中就已經透露了10GB、20GB顯存產品的可能。但筆者認為10GB是最理想的狀態，畢竟10GB已經能夠滿足3456個CUDA核心使用。

按照32個CUDA為一組SM單元計算的話，3776個CUDA核心和7nm帶來的雙重加持，都能夠讓安培的性能輕鬆超越圖靈。此前的爆料稱安培架構對比圖靈，其核心性能大約提升70%左右，也符合GeekBench 5的曝光。但是一切道德細節，還需要等到3月底的GTX大會，NVIDIA屆時將會為我們揭曉真正的答案。