知存科技的存算一體落地之路

半導體行業觀察 發佈 2020-01-02T11:22:31+00:00

目前主流AI晶片都基於馮諾伊曼計算架構,其缺點是成本高,功耗高,且有90%以上的資源都消耗在數據的搬運上。

目前主流AI晶片都基於馮諾伊曼計算架構,其缺點是成本高,功耗高,且有90%以上的資源都消耗在數據的搬運上。隨著AI算法的持續升級與AI應用的持續普及,AI領域迫切需要性能更強、功耗更低、成本更低的晶片,打造智能萬物互聯時代。因此,架構創新成為必經之路,目前主要有兩條技術路線:一是仍然基於老架構,使其老樹開新花,以英偉達、AMD、Xilinx和Google等代表的晶片大廠基於馮諾伊曼計算架構繼續發展GPU、FPGA和ASIC晶片;二是開發新架構,如存算一體晶片、軟體定義硬體、類腦晶片等。國內以知存科技為代表的初創企業正在發力存算一體晶片架構。

不久前,知存科技發布基於高精度Nor Flash模擬存算一體架構的MemCore001/ MemCore001P兩款智能語音晶片。採用國際領航技術,以其低功耗和高性能的特點,知存科技將重新定義智能語音交互。

知存的緣起

知存科技是一家專注於存算一體人工智慧晶片研發的公司。什麼是存算一體技術?這是一種有別於經典的馮諾依曼計算架構的新型計算架構。在馮諾依曼計算架構中,存儲和計算是分離的兩個晶片或者兩個模塊,數據必須在存儲器與處理器之間來回搬運,消耗了大量的時間和功耗;新型存算一體架構則是將存儲和計算有機地結合在一起,直接利用存儲單元進行計算,極大地消除了數據搬移帶來的開銷

存算一體技術被稱為新一代人工智慧晶片技術。在人工智慧運算中,存儲器和處理器的數據搬運是瓶頸,而存算一體解決了傳統晶片在運行人工智慧算法上的「存儲牆」與「功耗牆」問題,可以數十倍地提高人工智慧運算的效率,降低成本。特別適用於智能語音識別、降噪、聲紋識別,人臉、手勢、文字等識別。

據悉,知存科技創始團隊是國際上最早一批研究Nor Flash存算一體的研發人員。早在2012年,知存科技現任CTO郭昕婕開始研發基於浮柵電晶體的存算一體晶片,耗時4年,用3種不同工藝完成了7次流片,2016年首次在深度學習上驗證了全球第一個基於浮柵電晶體的存算一體晶片。此後,多家單位跟進該技術的研發與產業化,目前在國際上已獲得了英特爾、亞馬遜、微軟、美光、應用材料等半導體巨頭的青睞。

2017年,受亞馬遜Echo智能音箱的啟發,預感未來人工智慧的發展對高能效晶片有著強烈需求,王紹迪夫婦提前結束博士後研究工作,回國創業。2017年10月,知存科技成立,針對智能語音應用場景設計了國際領先的高精度、低功耗Nor Flash存算一體晶片。

MemCore震撼發布,功耗近乎為0

時隔一年,在2019年11月,知存科技重磅推出公司首款基於模擬存算一體的智能語音晶片:MemCore001/ MemCore001P系列。該系列晶片基於芯來科技RISC-V的內核研發,可以在500uA以下功耗完成深度學習降噪、語音識別、聲紋識別等應用,低功耗運行時小於300uA,待機功耗小於10uA。

MemCore001系列晶片

眾所周知,以深度學習為代表的AI算法需要頻繁地進行數據存取,低功耗和高性能之間的矛盾一直是端側AI晶片落地的難題。知存科技研發的存算一體技術完美地解決了這個難題。

MemCore001系列晶片採用國際領先的模擬存算一體晶片架構,使用Flash單元完成8bit權重存儲和8bit * 8bit的模擬矩陣乘加運算。單一Flash陣列可並行完成200萬次矩陣乘加法運算,計算吞吐量相比DRAM和SRAM等存儲器帶寬高出100-1000倍。

MemCore001晶片的最大優勢在於存算一體技術可以幾乎0功耗完成深度學習運算,其中2MB的存算一體矩陣運算只需要100-200uA,是其他晶片的幾十分之一。基於此項優勢,知存在MemCore001的設計上有兩個重要的特徵:1)利用高算力和大規模神經網絡,提高語音識別和降噪效果。2)無系統依賴性的低功耗設計,數倍提高電池使用時間。

基於上述特點,MemCore001有幾個明顯的優點:

1.2MB的神經網絡可以運行基於深度學習的單麥或者雙麥降噪,效果優於基於傳統算法多麥克風矩陣。

2.支持運行基於深度學習的通話降噪,解決小電池設備通話噪音大的問題。

3.支持One-Shot語音命令控制,解決了傳統晶片必須先喚醒後識別的問題,大幅度提高人機互動體驗。

4.MemCore001的低功耗設計沒有系統依賴性,無需系統其它晶片協助,真正降低系統功耗。

5.針對語音識別應用的特點,使晶片在低功耗模式下依然保存必備的聲音信息,保證識別效果。

6.MemCore001晶片經過3次流片,針對智能語音類應用,與客戶以及算法公司經歷多次打磨。

MemCore001/MemCore001P 晶片內置 2MB 深度學習網絡參數存儲空間,可同時存儲和運算多達 32 層的多個(相同或不同)深度學習網絡算法,支持 DNN/RNN/LSTM/TDNN 等多種網絡結構。此外,還可與多種主流 MCU協同工作,兼容基於ARM架構的 Cortex-M4/M3/M33/M0等系列MCU以及基於RISC-V的MCU。

其中MemCore001p在低功耗模式下,採用片內獨立的低功耗時鐘,可與其他晶片通過中斷協同交互,從而進一步降低整個系統的功耗。針對電池驅動設備,可以在延長數倍使用時間的前提下,大幅度提高智能語音交互體驗。

MemCore001/MemCore001P適用於電池供電的小型智能設備、可穿戴設備和有源供電的智能家電、智能控制等應用。目前提供QFN7X7封裝形式,後續將提供QFN5X5及WLCSP封裝形式。該系列晶片的開發工具鏈也將於近期提供。

關於公司的核心優勢,王紹迪表示,知存研發的存算一體在深度學習推理的計算效率是傳統架構的20-100倍,因此可以輕巧的運行大算力的深度學習網絡,降低複雜算法被應用的難度。

存算一體作為一種新的晶片架構,在實際研發當中仍有許多困難需要攻克。一是在晶片設計階段,由於與傳統的晶片設計方案不同,所以目前市面上沒有成熟的EDA工具輔助設計和仿真驗證;二是在晶片流片之後,也沒有成熟的工具幫助測試;三是在晶片應用層面,需要設計新的軟體進行晶片的適配。因而,知存科技也正在著力研發晶片設計和應用的專業軟體。

繼續推進存算一體晶片技術

在知存科技CEO王紹迪看來,像語音識別一樣,存算一體在人工智慧很多應用領域都擁有非常明顯的優勢,無論端側還是雲側。

在端側AI的落地過程中,晶片扮演著非常重要的角色,由於成本和功耗的控制,市場上已有的晶片很難再滿足新增的AI需求,這也導致了AI落地速度受制於晶片的疊代周期。如果新架構能大幅度提高能效比和性價比,將大幅度縮短AI的落地周期。AI的落地一直在穩步進行,近幾年的支付、汽車、家電和穿戴設備已經逐漸被AI改造。而且更多的AI應用還有待開發,目前可能只完成了10%。

王紹迪表示:「存算一體技術是目前AI加速領域研究最熱的方向之一,基於Flash的模擬存算一體技術是其中發展最快、最接近產業化落地的一個方向。知存科技一直引領該方向的技術路線。基於Flash的存算一體晶片技術,公司已經申請了50多項國內外專利,目前國際上其他研發存算一體晶片的公司也逐漸轉向知存的這條技術路線。」

知存科技的短期目標是針對於端側應用的存算一體實現,而智能語音是端側最重要的組成部分。未來,知存科技還會將存算一體推向視覺應用以及傳感器融合應用。同時知存正在基於RISC-V研發多核存算一體架構,預計將在2020年底發布。

截至目前,知存科技累計完成三輪產業資本領投過億融資。2018年2月,獲得兆易創新關聯方和啟迪之星的千萬投資;2018年6月獲得科大訊飛領頭的近千萬投資;2019年7月,知存科技宣布完成由中芯聚源領投的近億元A輪融資。

在人才儲備上,公司員工近60人,研發團隊80%以上擁有海內外知名高校碩士、博士學位和豐富的行業工作經驗,團隊成員配合默契。

知存科技已萬事俱備,在產業化落地方面,知存科技將持續跟蹤客戶和市場需求,不斷推進該技術的疊代更新,為客戶帶來AI產品升級,為AIoT萬物互聯提供軟硬體技術支撐。

結語

正如個人計算機的發展帶來了Intel的崛起,智慧型手機的發展帶來了ARM的崛起,5G和AIoT的發展也會給晶片行業帶來大量新的機遇,而以知存科技為代表的新興技術企業必將在整個晶片行業寫下濃墨重彩的一筆。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第2177期內容,歡迎關注。

關鍵字: