關鍵字:智能處理器 人工智能 深度學習 電子模塊
Nvidia在三月的GPU技術大會上使用汽車和先進駕駛輔助系統(tǒng)(ADAS)作為應用重點,配合Elon Musk的意見和評論,希望表明自動駕駛汽車的挑戰(zhàn)幾乎已被完全克服了。另一方面,隨著時間的推移,加上一些著眼于降低功耗的調(diào)整與改良,我看到無處不在的3D感知、3D跟蹤,以及圖像搜索等許多技術和應用正在快速進入智能手機,以及其他以電源或電池供電的嵌入式系統(tǒng)中。
結(jié)合用于偵測運動和音頻信號的傳感器、快速的存儲器訪問 ,以及高功效的數(shù)據(jù)處理方法,這些系統(tǒng)可以擁有真正的“認知”能力,甚至在不遠的將來構(gòu)成一個用于人工智能移動設備的平臺。同時,重要的是優(yōu)化現(xiàn)有的架構(gòu)來實現(xiàn)“智能視覺”功能,比如3D深度圖和感知、物體識別以及增強現(xiàn)實,還有一些核心的計算圖像學功能,比如圖像縮放、HDR、圖像再對焦,以及微光圖像增強。
隨著許多圖像處理與增強功能也都使用計算機視覺技術,計算機視覺和圖像處理技術之間的區(qū)別正在變得越來越模糊。最直接的例子就是多幀圖像增強功能,比如HDR、圖像縮放與再對焦--拍攝多個連續(xù)的圖像,然后將它們?nèi)诤显谝黄?,得到更高質(zhì)量的畫面。
雖然我們稱之為“圖像增強”,但這其實涉及大量的計算機視覺處理來“register”圖像,既完成兩幀或三幀畫面之間的匹配?,F(xiàn)在,用戶認為這種基本功能是理所當然的,但其實它需要非常強大的處理能力,使得對于專門的、高性能的數(shù)字信號處理 (DSP)的需求將會增加。
高通公司(Qualcomm) 在Uplinq 2013上發(fā)布了文章,很好地描繪出用于各種不同處理功能的像素功率和時間關系。圖中展示了三個處理器,包括一個在1.2 GHz下運行的單核CPU、一個四核CPU,以及一個在690 MHz下運行的DSP。
圖1:描繪不同處理器在處理每個像素時需要的處理能力和時間,表明了DSP結(jié)合CPU用于視覺處理的優(yōu)勢。為了優(yōu)化功耗和性能,結(jié)合CPU、DSP和GPU可能是總體來說最好的方法。
圖表表明DSP在僅略微超過CPU一半的時鐘頻率下運行,便能夠在圖像處理上達到相同的效果,提供了潛在的性能增益,同時節(jié)省了更多的功耗(功率= 電容 x 電壓2 x 頻率,或者P=CV2xF)。
然而,隨著我們轉(zhuǎn)向在移動平臺上實現(xiàn)類似人類的視覺、人工智能和增強現(xiàn)實應用,可能需要重新思考所需的處理架構(gòu)。結(jié)合傳感器融合和先進深度學習算法(比如CNN),這些非常先進的計算密集型應用將提供更具環(huán)境感知和情境感知的用戶體驗,但是在電池壽命方面卻要作出取舍。
設計人員面臨的挑戰(zhàn),是一方面要實現(xiàn)具有智能感知能力的設備,同時在另一方面維持可接受的電池壽命。有幾種方法來實現(xiàn)這一點。例如,可以使用來自高通或Nvidia的GPU來支持CPU。這已經(jīng)在許多智能手機中實現(xiàn)了。然而,降低功耗這一持續(xù)性的強制需求驅(qū)使我們將特定的處理密集型功能分散給針對視覺處理進行優(yōu)化的DSP處理器。在處理物體識別和跟蹤時,對比當下最先進的GPU簇群,使用這種方法可以節(jié)省高達9倍的功耗。
然而,即使具備這種功耗水平,移動設備仍然不太可能很快地使用面部識別來進行人群搜索,因為此功能對于處理能力的要求還是太高了。不過,低功耗處理器和經(jīng)過特定優(yōu)化的處理器架構(gòu)的面世帶來了希望,使得我們在這個領域內(nèi)正在取得實質(zhì)的進展。這類進展是MIT Technology Review將深度學習稱為2013年十項技術突破之一的原因所在。除了GTC上進行了相關演示,微軟、百度,以及Cognivue也展示了一些研究成果。此后,這個領域中還有其他長足發(fā)展。
此外,Aziana (澳大利亞)最近宣布與BrainChip(美國加州)合并,后者是專門以硬件方式實施人工智能的企業(yè),并已經(jīng)著眼于開發(fā)用于移動平臺的人工智能。雖然支持強大處理能力的架構(gòu)和超低功耗處理是至關重要的,但隨著云連接變得更普及、更快捷,若我們將盡可能多的處理開銷分配到云中,也是合乎情理的。這將會走向智能的處理性能分配。在云做最適合在云中處理的工作,在移動設備做最適合移動設備處理的工作,盡可能高效地依據(jù)架構(gòu)分配功能,比如使用CPU來分配GPU和DSP之間的負載。用高通公司的說法,就是使用合適的引擎來做合適的工作。