在人工智慧晶片戰場追逐 GPU 背影的英特爾

環顧歷史名將如拿破崙、隆美爾，乃至波斯灣戰爭的美國陸軍將領，一談到「攻勢」，幾乎無不強調「追擊」的重要，讓敵軍毫無站穩腳跟鞏固和重組的機會而一瀉千里。

反過來說，當這簡單道理套用到商業競爭，意義就不外乎「產品如果無法準時到位（Time To Market）」，特別是在人工智慧這種一堆人還搞不清楚狀況的新興應用領域，或像半導體這種成本和售價會隨技術演進快速滑落的產業，很可能一下子就被競爭對手一舉衝垮，讓產品開發工作左右為難，無法建立一條穩固的市占率防線，接著陷入惡性循環，難以翻身。

2016 年 3 月 5 日：nVidia 發表「總算擺脫了 4 年的台積電 28 納米製程」、推進到台積電 16 納米和三星 14 納米 Pascal，支持 FP16 半精確度浮點、8 位元整數與相對應的內積向量指令（Vector Dot Product），也具備 NVLink 連接 8 顆 GPU 的延展性，踏出 nVidia GPU 進入人工智慧應用的第一步。

2016 年 11 月 17 日：英特爾公開 Nervana 代號 Lake Crest 的初步成果，但製程仍停留在台積電 28 納米，且過沒多久就因 nVidia 推出 Volta 而失去意義。

2017 年 3 月 29 日：nVidia 發表採用 Tegra X2 的「嵌入式人工智慧運算裝置」Jetson TX2，嚴格說來也算是 nVidia GPU 應用的延伸，但早從 2014 年 4 月底就出現的 Jetson 產品線，怎麼看都有一股「幾年來替進攻手機平板都以失敗收場的 Tegra 系統單晶片找出路」的味道。

2017 年 5 月 Google I/O：Google 繼續「按表操課」發表支持浮點運算（Bfloat16 浮點格式）、可同時用於訓練和推論的第二代 TPU。

2017 年 6 月 21 日：nVidia 公開台積電 12 納米製程「原本產品時程表並沒有」的 Volta，內建 640 個 Tensor Core（張量核心），可執行 4×4 16 位元浮點乘積和，應用於特徵識別的卷積運算（Convolutional Neural Network，CNN），這讓 Volta 成為 nVidia 史上首款針對人工智慧量身訂做、兼顧「學習／訓練」與「推論／預測」的 GPU 微架構。

Volta 的訓練效率高達 Pascal 的 12 倍，推論性能也達 6 倍，這讓 Nervana 的「Lake Crest 至少有 GPU 十倍」變得毫無意義，nVidia 也藉由 NVswitch 打造出 16 顆 GPU、數量為 DGX-1 兩倍的 DGX-2，英特爾只能重新設計產品，也一再延誤開發時程，直到承諾 2019 年底推出新晶片，屆時距離併購案已超過 3 年。

2017 年 8 月 14 日：AMD 發表「早就簡報講很久」的 Vega（Global Foundry 14 納米製程），支持 FP16 / INT16 / INT8 包裹式（Packed）計算，並鎖定 FP16 與 INT8 精度，新增約 40 個新指令，也為影像匹配此類應用，提供 SAD（Sum of Absolute Differences，絕對誤差和算法）指令。AMD 當然也會宣稱「擁有完整的 Software Stack」，至於成效如何，就請各位自由心證，筆者不予評論。

2017 年 11 月 8 日：來自 AMD 的 Raja Koduri 空降英特爾並擔任資深副總裁，宣示打算「砍掉重練」整個繪圖技術，拋棄對 x86 指令集相容性的執念，從頭到尾打造貨真價實 GPGPU，2019 年 3 月公布 GPU 架構的稱呼「Xe」和一個讓人摸不著頭緒、看起來很像「在所有硬體平台包含 FPGA 都能跑的 OpenCL」的「軟體堆疊」OneAPI，就是最後的解答。

2018 年 5 月 Google I/O：Google 再接再厲，發表整體性能和規格是前代兩倍的第三代 TPU，不過依然還是 Google 自研自用就是了。

2018 年 7 月 23 日：從 Larrabee 開始掙扎超過十年，英特爾總算完全放棄「超級多核心 x86 處理器絕對無所不能」的南柯大夢，宣布放棄 Xeon Phi 產品線。有趣的是，停產通知提到「市場對產品的需求已轉移到其他英特爾產品」，但這些產品並不存在於英特爾產品線，沒有任何產品提供類似 Xeon Phi 的性能和功能，這些需求「轉移」到 nVidia 的機率可能還高一點。

筆者 2017 年底就預期 Xeon Phi 的處境非常危險，「x86 義和團」的最後碉堡即將失守，不幸一語成讖，早知就去買彩票了。

2018 年 7 月 26 日：Google 發表適用物聯網、「可以在消耗極少資源和能源的情況下提供絕佳效能，因此能夠在邊緣部署高精確度 AI」的邊緣推論用 TPU，這也讓 Google TPU 踏出自家資料中心，與一群盤據半導體市場已久的豺狼虎豹捉對廝殺。

2018 年 8 月：nVidia 發表採用 Xavier 系統單晶片的 Jetson Xavier，同時應用於邊緣 AI 運算及自動駕駛系統。

2018 年 9 月 20 日：採用台積電 12 納米製程的 Turing，融合兩者之長，結束了短暫的「消費型」（Pascal）和「專業型」（Volta）分立局面，Tensor Core 增加了新 INT8 和 INT4 精度模式，FP16 半精度能完整支持經常用到的矩陣融合乘加（FMA）運算。

此外，Tensor Core 也不再只是「限定專業應用」，可用來執行消除混疊的深度學習程式（深度學習超級採樣，DLSS），利用先前向執行 Neural Graphics Framework 的超級電腦，餵食遊戲畫面進行訓練神經網絡的學習成果，渲染出接近 64 倍取樣的畫面濾鏡，再套用回玩家的遊戲畫面，柔化畫面鋸齒邊緣。

2019 年 1 月 7 日：AMD 發表採用台積電 7 納米製程的 Vega，晶片大幅縮小，性能大幅提升，然後我們現在也知道為何 AMD 初代 7 納米製程 APU 的繪圖核心還是 Vega，不是更新一代的 Navi 了。

2019 年 3 月 19 日：nVidia 再次發表「邊緣 AI 超級電腦」Jetson Nano，也開始有開發者比較與 Google Edge TPU 的優劣勝負。

2019 年 5 月 21 日：nVidia 利用 Anandtech 的報導，倒打英特爾一耙，在官方博客狂吃英特爾某篇官方文章《Intel CPU 在推論勝過 nVidia GPU》的豆腐。預計 2020 年第二季推出的英特爾下一代 Xeon 平台 Whitley，首款 CPU Cooper Lake（還是繼續擠 14 納米製程牙膏）會支持 Bfloat16 浮點格式，屆時各位可以期待 nVidia 會不會再如法炮製一番。

2019 年 7 月 7 日：AMD「擴大製程領先優勢」發表台積電 7 納米製程的 Navi，重點集中在結束漫長 GCN 時代的全新 RDNA（Radeon DNA）SIMT 執行單元結構，在人工智慧相關並無著墨，但業界盛傳第二代 RDNA 將支持 Google Tensor Flow 的 Bfloat16 浮點格式，也有人在擔心搞不好這又會讓 AMD 顯示卡再被一大票數位貨幣礦工搶得一乾二淨，再度上演有錢也買不到顯卡之戲碼。

2019 年 8 月：nVidia「持之以恆」繼續在 HotChips 談論自家多晶片可擴展式推論晶片研究案，意思就是 nVidia 故意宣示除商品外，還有額外的前瞻性技術研發工作就對了。

2019 年夏天，英特爾看似開心的跟百度宣布合作，併購 Nervana 滿 3 年的人工智慧晶片，看似前程似錦，連潛在客戶都談好了。

2019 年 11 月 8 日：NVIDIA 宣布推出「全球尺寸最小的邊緣 AI 超級電腦」Jetson Xavier NX，不知不覺中，在這幾年內，nVidia 的 Jetson 家族已枝繁葉茂。

2019 年 11 月 13 日：英特爾總算「使命必達」準時在 2019 年底推出 Nervana NNP 產品線，包含深度學習導向的 NNP-T1000（Spring Crest，性能號稱是 Lake Crest 的 3~4 倍）與推論專用的 NNP-I1000（Spring Hill），宣稱樣品已經送到客戶（百度、Facebook）手上，不只現場實際較量 NNP-I1000 和 nVidia T4，可用不到 2 倍數量達成 3.68 倍的性能，也同時宣布 2020 年推出「20 倍邊緣推論性能」、源自 2016 年某金額不明併購案的 Movidius 體系產品。

但短短一個月後，2019 年 12 月 16 日，英特爾宣布以 20 億美元收購以色列 AI 晶片新創公司 Habana Labs，瞬間風雲變色，2020 年 2 月就傳出英特爾將「部分放棄 Nervana」、停止 NNP-T1000 開發的消息，但有鑒於 NNP-I1000 本質上根本就是「純正英特爾血統」的產物，這也意味著 Nervana 併購案完全失敗了。

「剛剛好」整件事件的所有參與演員：現場的英特爾、Habana Labs、坐在板凳一旁看戲的 AMD 與 nVidia，都是 2019 年 IEEE Hotchips 31 的台上貴賓（大概因家大業大格局大，活動的餐點飲料包含酒類據說都由英特爾贊助買單），我們就來看看，英特爾耗費三年多做出來的成果，以及瞧瞧 NNP-T1000 為何被閃電腰斬的可能原因。

畢竟現在這票所謂人工智慧深度學習等的新興應用，無論從硬體架構到資料處理格式到框架到應用程式函式庫等等，很多部分都是高度定製化，少有業界共通的公開比較基準，單純比較數字「賽豬公」的意義並不大，筆者也不會在這裡仔細介紹英特爾兩顆晶片的技術細節。

但通過規格比較，可清楚看到兩件事實：

Spring Crest 和 Spring Hill 根本是兩個完全不同的技術體系，前者完全繼承 Nervana，後者則是根正苗紅的「英特爾本家」，大量引用現有 Ice Lake 技術。

Nervana 的預設對手就是 nVidia 的旗艦級 GPU，連晶圓代工業者都是台積電。

Nervana NNP-T1000 慘遭殺害，究竟有哪些可能的兇手？

成本太高：都這個時候了，還在台積電 16 納米製程？Habana Labs 目前兩顆晶片也都是台積電 16 納米！這理由不合邏輯。
政治因素：英特爾不願意看到重要的產品交給台積電生產？可是這件事不是很久以前該知道了嗎？Habana Labs 也是台積電生產啊，所以這也不合理。
客戶不滿：難道先期導入的客戶並不滿意產品的實際表現？
需要客戶：Habana Labs 已搶到「超大規模的客戶」，甚至「搶走英特爾手上煮熟的鴨子」，所以才有 20 億美元的併購價值？
軟體不行：手上可掌握的軟體資源和「生態系統」技不如人？
規格不利：Hanaba Labs 的推論晶片 Gaudi 可支持原生的乙太網絡介面走 RDMA，這難道對大型雲端客戶來說，算是殺手級的規格優勢？

總之，只有英特爾和時間才會告訴我們誰是真正的兇手，也很有可能真相永遠不會大白。

到頭來，從 Nervana 到 Hanaba Labs，不論訓練還是推論，頭號假想敵依舊是 nVidia 的 GPU，依然還是 Volta 和 Turing，連比較圖的顏色都刻意挑「nVidia 綠」。

但說到英特爾併購公司這件事，半導體製程優勢開始崩潰，剛好就是宣布要「從 PC 公司轉型為驅動雲端計算和數以億計智能互聯計算裝置」，也差不多是「最後的英特爾 x86微架構」Skylake 上市時，接著一直花大錢「生氣亂買公司」才開始的。

2015：Altera 167 億美元。
2016：Nervana 3.5 億美元。
2016：Movidius 金額不明。
2017：Mobileye 153 億美元。
2019：Habana Labs 20 億美元。

這樣一路看下來，似乎瞬間明白了什麼。

編輯：AI智慧