在不久前的人機(jī)大戰(zhàn)中,AlphaGo依靠模仿人腦生物機(jī)理的深度學(xué)習(xí)算法而擊敗人類。深度學(xué)習(xí),是源于對生物人腦機(jī)理的仿生學(xué)研究而形成的一種人工智能算法。作為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的一種,卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法已經(jīng)成為當(dāng)前人工智能機(jī)器視覺領(lǐng)域的研究熱點(diǎn),其特性可以概括為海量的輸入數(shù)據(jù)、大規(guī)模的MAC運(yùn)算、稀疏的權(quán)值矩陣、靈活的數(shù)據(jù)位寬和多樣的網(wǎng)絡(luò)拓?fù)涞取?/span>
中國神經(jīng)網(wǎng)絡(luò)處理器前進(jìn)到哪里?
而兩家中國企業(yè)也在探索神經(jīng)網(wǎng)絡(luò)處理器的道路上取得了可喜的突破。今年3月,中科院計(jì)算技術(shù)研究所發(fā)布全球首個(gè)神經(jīng)網(wǎng)絡(luò)處理器科研成果。由陳云霽、陳天石課題組提出的深度學(xué)習(xí)處理器指令集DianNaoYu被計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域頂級國際會議ISCA2016所接收,其評分排名在近300篇投稿中高居第一。該成果的模擬實(shí)驗(yàn)表明,采用DianNaoYu指令集的寒武紀(jì)深度學(xué)習(xí)處理器相對于x86指令集的CPU有兩個(gè)數(shù)量級的性能提升,但是面積和功耗僅為1/10。預(yù)計(jì)該項(xiàng)成果今年年內(nèi)將正式投入產(chǎn)業(yè)化,未來將實(shí)現(xiàn)刷臉支付、手機(jī)圖片搜索等應(yīng)用。
據(jù)了解,DianNao是寒武紀(jì)系列的第一個(gè)原型處理器結(jié)構(gòu),包含一個(gè)處理器核,主頻為0.98GHz,峰值性能達(dá)每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算,65nm工藝下功耗為0.485W,面積3.02mm2。在若干代表性神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)結(jié)果表明,DianNao的平均性能與主流GPGPU相當(dāng),但面積和功耗僅為主流GPGPU百分之一量級。DaDianNao則在DianNao的基礎(chǔ)上進(jìn)一步擴(kuò)大了處理器的規(guī)模,包含16個(gè)處理器核和更大的片上存儲,并支持多處理器芯片間直接高速互連,避免了高昂的內(nèi)存訪問開銷。
6月,中星微“數(shù)字多媒體芯片技術(shù)”國家重點(diǎn)實(shí)驗(yàn)室也宣布,經(jīng)過五年多的攻堅(jiān)克難和不懈努力,中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)芯片誕生,并已于今年3月6日在臺積電(TSMC)實(shí)現(xiàn)投片量產(chǎn)。NPU采用了“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算”的架構(gòu),顛覆了傳統(tǒng)的馮諾依曼架構(gòu)。這種數(shù)據(jù)流(Dataflow)類型的處理器,極大地提升了計(jì)算能力與功耗的比例,特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù),使得人工智能在嵌入式機(jī)器視覺應(yīng)用中可以大顯身手。目前,該芯片已成功在視頻監(jiān)控領(lǐng)域?qū)崿F(xiàn)產(chǎn)業(yè)化,并可廣泛應(yīng)用于智能駕駛輔助、無人機(jī)、機(jī)器人等嵌入式機(jī)器視覺領(lǐng)域。
型號為VC0758的NPU是針對CNN的算法模型特性而專門設(shè)計(jì)的一款神經(jīng)網(wǎng)絡(luò)處理器。每個(gè)NPU處理器具有4個(gè)內(nèi)核,每個(gè)內(nèi)核有兩個(gè)數(shù)據(jù)流處理器, 每個(gè)數(shù)據(jù)流處理器具有8個(gè)長位寬或16個(gè)短位寬的單指令多數(shù)據(jù)(SIMD)運(yùn)算單元。在一個(gè)時(shí)鐘周期內(nèi)可同時(shí)完成64個(gè)長位寬MAC運(yùn)算或者128個(gè)短位寬MAC運(yùn)算。每個(gè)NPU核具有38G Ops的長位寬處理能力或者76G Ops的短位寬處理能力。NPU的處理性能可以組成多核陣列來提升,也可以通過多芯片級聯(lián)的方式進(jìn)一步擴(kuò)展,以滿足更復(fù)雜的CNN網(wǎng)絡(luò)運(yùn)算的性能需求。
“每個(gè)NPU核還具有256KB Level-2 Cache,以及整塊數(shù)據(jù)搬移(Block Data Access),片內(nèi)數(shù)據(jù)共享(Data-sharing Between Processor Units),提升數(shù)據(jù)流的吞吐效率。”國家重點(diǎn)實(shí)驗(yàn)室執(zhí)行主任張韻東表示,在軟件方面,利用了稀疏數(shù)據(jù)優(yōu)化(Optimization for Sparse Data)等特性提高計(jì)算效率。NPU支持Caffe、TensorFlow等多種神經(jīng)網(wǎng)絡(luò)框架, 支持AlexNet、GoogleNet等各類神經(jīng)網(wǎng)絡(luò)。
此外,通過集成NPU處理器內(nèi)核以及國家標(biāo)準(zhǔn)的音視頻編解碼器(SVAC Codec),VC0758芯片也成為全球首顆具備深度學(xué)習(xí)人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級芯片。
后摩爾時(shí)代,中國企業(yè)變道超車的機(jī)會
“隨著逐步逼近香農(nóng)定理、摩爾定律的極限,面對大流量、低延時(shí)的理論還未創(chuàng)造出來。大家感到前途茫茫,找不到方向。”張韻東說,后摩爾定律時(shí)代有幾條不同的路徑,一種觀點(diǎn)是繼續(xù)推進(jìn)摩爾定律,繼續(xù)在新型材料、工藝制程和器件結(jié)構(gòu)上努力,將摩爾定律再推進(jìn)一步;另一種觀點(diǎn)是超越摩爾定律,通過SoC將數(shù)字電路、模擬電路、存儲器甚至射頻電路集成在一顆芯片里,以實(shí)現(xiàn)更多的功能,或通過SIP采用多芯片堆疊的方式,將多顆裸芯片封裝在一起。
面對摩爾定律的盡頭,中星微通過NPU這塊“引玉之磚”給出了全新的技術(shù)路線:智能摩爾之路(Intelligent Moore)。其內(nèi)涵是,雖然物理層面和信號層面都受到物理規(guī)律的制約,但在信息層面的技術(shù)創(chuàng)新還遠(yuǎn)沒有達(dá)到極限。如何進(jìn)一步借鑒人腦智慧機(jī)制,研究新型人工智能計(jì)算方法,進(jìn)一步提升信息處理的性能功耗價(jià)格比,可能是下一次信息革命的關(guān)鍵。
陳天石此前曾表示,寒武紀(jì)科技通過前期的工作,積累了多項(xiàng)深度學(xué)習(xí)芯片的“山頂專利”,形成了對深度學(xué)習(xí)處理器所有關(guān)鍵技術(shù)的全覆蓋,構(gòu)建寒武紀(jì)科技在這個(gè)領(lǐng)域的專業(yè)壁壘。如同過去中國人進(jìn)入處理器行業(yè),必須面臨虛擬架構(gòu)的一些技術(shù)壁壘一樣,之后進(jìn)入這個(gè)領(lǐng)域的公司,也必須面臨寒武紀(jì)的壁壘,這是中國人的機(jī)會。
“寒武紀(jì)”處理器不是用來取代CPU的顛覆式革命,更像是一款針對智能認(rèn)知等應(yīng)用的專用芯片,優(yōu)勢集中在人臉識別、聲音識別等人工智能方面。根據(jù)此前曝光的“寒武紀(jì)”處理器產(chǎn)業(yè)化時(shí)間表,第一步,2016年將率先在客戶端、手機(jī)端以IP形式嵌入到芯片中;第二步,預(yù)期在2017年推出云端芯片,這也是寒武紀(jì)第一輪天使融資的主要目的。目前,寒武紀(jì)已經(jīng)與曙光展開了戰(zhàn)略合作,其云端芯片將有望應(yīng)用到曙光云數(shù)據(jù)中心之中,作為大數(shù)據(jù)、人工智能的引擎,這也與曙光“數(shù)據(jù)中國”戰(zhàn)略相匹配。