日前,中國領(lǐng)先的視頻監(jiān)控芯片供貨商中星微電子發(fā)布,中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)“星光智能一號(hào)”的最新成果,該芯片已于今年3月6日實(shí)現(xiàn)量產(chǎn)。

單顆NPU由28納米工藝制造,能耗僅為400mW,可廣泛應(yīng)用于高清視頻監(jiān)控、智能駕駛輔助、無人機(jī)、機(jī)器人等嵌入式機(jī)器視覺領(lǐng)域。

國家重點(diǎn)實(shí)驗(yàn)室執(zhí)行主任張韻東介紹說,NPU采用了“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算”的架構(gòu),徹底顛覆了傳統(tǒng)的馮諾依曼架構(gòu)。這種數(shù)據(jù)流(Dataflow)類型的處理器,極大地提升了計(jì)算能力與功耗的比例,特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù),使得人工智能在嵌入式機(jī)器視覺應(yīng)用中可以大顯身手。

在不久前的人機(jī)大戰(zhàn)中,AlphaGo依靠模仿人腦生物機(jī)理的深度學(xué)習(xí)算法而擊敗人類。深度學(xué)習(xí),是源于對生物人腦機(jī)理的仿生學(xué)研究而形成的一種人工智能算法。

作為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的一種,卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)算法,已成為當(dāng)前人工智能機(jī)器視覺領(lǐng)域的研究熱點(diǎn)。CNN算法模型的特性可以概括為海量的輸入數(shù)據(jù)、大規(guī)模的MAC運(yùn)算、稀疏的權(quán)值矩陣、靈活的數(shù)據(jù)位寬和多樣的網(wǎng)絡(luò)拓?fù)涞忍匦浴?/span>20160621-SIM 1“星光智能一號(hào)”芯片

張韻東介紹,NPU是針對CNN的算法模型特性而專門設(shè)計(jì)的一款神經(jīng)網(wǎng)絡(luò)處理器。每個(gè)NPU處理器具有4個(gè)內(nèi)核(NPU Core),每個(gè)內(nèi)核有兩個(gè)數(shù)據(jù)流處理器(Dataflow Processor), 每個(gè)數(shù)據(jù)流處理器具有8個(gè)長位寬或16個(gè)短位寬的SIMD(單指令多數(shù)據(jù))運(yùn)算單元。在一個(gè)時(shí)鐘周期內(nèi)可同時(shí)完成64個(gè)長位寬MAC運(yùn)算或者128個(gè)短位寬MAC運(yùn)算。每個(gè)NPU核具有38G Ops的長位寬處理能力或者76G Ops的短位寬處理能力。NPU的處理性能可以組成多核陣列來提升,也可以通過多芯片級(jí)聯(lián)的方式進(jìn)一步擴(kuò)展,以滿足更復(fù)雜的CNN網(wǎng)絡(luò)運(yùn)算的性能需求。

“每個(gè)NPU核還具有256KB Level-2 Cache,以及整塊數(shù)據(jù)搬移(Block Data Access),片內(nèi)數(shù)據(jù)共享(Data-sharing Between Processor Units),提升數(shù)據(jù)流的吞吐效率。” 張韻東表示,在軟件方面,利用了稀疏數(shù)據(jù)優(yōu)化(Optimization for Sparse Data)等特性提高計(jì)算效率。“NPU支持Caffe、TensorFlow等多種神經(jīng)網(wǎng)絡(luò)框架, 支持AlexNet、GoogleNet等各類神經(jīng)網(wǎng)絡(luò)。”

與傳統(tǒng)CPU處理器相比,這種NPU處理器的信息處理能力要高出100倍甚至1000倍,能讓攝像頭變成“帶大腦的眼睛”,推動(dòng)機(jī)器視覺等人工智能技術(shù)從高大上的科學(xué)實(shí)驗(yàn)室走進(jìn)尋常百姓家。