“(計(jì)算機(jī))從2D到3D世界,是1995年之后最大的消費(fèi)電子技術(shù)轉(zhuǎn)折點(diǎn),這將徹底改變?nèi)藗兊挠?jì)算體驗(yàn)。”
從人們的角度來(lái)看,這個(gè)世界永遠(yuǎn)在變化。當(dāng)我們四處移動(dòng)時(shí),我們的目光也游走在整個(gè)環(huán)境中,豐富動(dòng)態(tài)的場(chǎng)景信息不停地被傳送到我們的大腦里。我們可以理解這些不斷改變的信號(hào),并以此生成對(duì)這個(gè)世界的根本性了解,從而和這個(gè)世界進(jìn)行無(wú)縫交互。在過(guò)去三十年的計(jì)算機(jī)視覺(jué)領(lǐng)域中,有相當(dāng)龐大的工作被投入到了這一塊,嘗試通過(guò)顏色和深度攝像頭來(lái)模擬人類的感知能力??梢哉f(shuō),計(jì)算機(jī)視覺(jué)一直是人工智能領(lǐng)域里最活躍的部分,指紋識(shí)別、掌紋識(shí)別、人臉識(shí)別都屬于其應(yīng)用,而深度攝像頭就是計(jì)算機(jī)的眼睛。
深度攝像頭技術(shù)解析
那么究竟什么是深度攝像頭?消費(fèi)者最熟悉的當(dāng)屬微軟開(kāi)發(fā)的Kinect系列,Leap Motion的體感設(shè)備,三星智能電視的手勢(shì)遙控功能等產(chǎn)品,這些均是深度攝像頭的
傳統(tǒng)體感類應(yīng)用。實(shí)現(xiàn)深度探測(cè)的主流技術(shù)目前有三類: 1:(單目)結(jié)構(gòu)光技術(shù)路線 代表公司:PrimeSense / 代表產(chǎn)品:Kinect I代 主要優(yōu)勢(shì):識(shí)別距離遠(yuǎn) / 主要問(wèn)題:硬件難度和成本稍高 陣營(yíng)公司:Apple(PrimeSense)、Microsoft、Intel、Google, etc. 主流評(píng)價(jià):目前最主流的機(jī)器視覺(jué)工程化實(shí)現(xiàn)方法
2:雙目可見(jiàn)光(可配合紅外補(bǔ)光) 代表公司:LeapMotion / 代表產(chǎn)品:LeapMotion 主要優(yōu)勢(shì):高精度 / 主要問(wèn)題:檢測(cè)范圍太?。ú蛔?米),遠(yuǎn)距離檢測(cè)問(wèn)題很多 陣營(yíng)公司:LeapMotion 主流評(píng)價(jià):應(yīng)用場(chǎng)景太少
3:飛行時(shí)間法(ToF) 代表公司:Microsoft / 代表產(chǎn)品:Kinect II代 主要優(yōu)勢(shì):體感應(yīng)用好 / 主要問(wèn)題:傳感器供應(yīng)受限、體積和功耗大、像素低 陣營(yíng)公司:Microsoft、SoftKinetic(剛被SONY收購(gòu)) 主流評(píng)價(jià):除微軟在體感游戲之外民用應(yīng)用不多
以結(jié)構(gòu)光技術(shù)為例,其原理如圖。光源向檢測(cè)空間內(nèi)投射經(jīng)過(guò)編碼的激光光斑陣列,對(duì)空間進(jìn)行標(biāo)定并輔助計(jì)算三維空間位置。它是整合了衍射光學(xué)、圖像處理、計(jì)算視覺(jué)算法和處理器計(jì)算平臺(tái)的跨界組合工程,非標(biāo)準(zhǔn)的光學(xué)器件需要設(shè)計(jì)定制。其關(guān)鍵技術(shù)包括兩個(gè)部分:投射光學(xué)系統(tǒng)、“結(jié)構(gòu)光”pattern編碼和衍射光學(xué)系統(tǒng)設(shè)計(jì);以及圖像處理和視覺(jué)計(jì)算算法。
該技術(shù)的代表公司是PrimeSense,它創(chuàng)立于 2005 年,于 2006 年研發(fā)出 3D 傳感器,在當(dāng)年的 E3 大展上與微軟建立了聯(lián)系,并催化出代號(hào)為 Project Natal 的神秘項(xiàng)目。等到 2009 年 E3 大展時(shí),微軟發(fā)布了內(nèi)置 PrimeSense 3D 傳感器的 Kinect,成功掀起了“體感游戲”大潮。PrimeSense的原理,是使用3D光學(xué)感測(cè)技術(shù),使用紅外線系統(tǒng)來(lái)繪制場(chǎng)景的網(wǎng)格。通過(guò)傳感器讀取網(wǎng)格中的點(diǎn),并結(jié)合來(lái)自CMOS傳感器的圖像信息,繪制出包含了深度信息的3D地圖。這種方法被稱為“RGB-D”,它由傳統(tǒng)的紅色,綠色和藍(lán)色的圖像信息加上“深度”信息構(gòu)成。其核心為L(zhǎng)ight Coding技術(shù),是利用連續(xù)光(近紅外線)對(duì)測(cè)量空間進(jìn)行編碼,經(jīng)感應(yīng)器讀取編碼的光線,交由芯片運(yùn)算進(jìn)行解碼后,產(chǎn)生成一張具有深度的圖像。Light Coding技術(shù)的關(guān)鍵是激光散斑,當(dāng)激光照射到粗糙物體、或是穿透毛玻璃后,會(huì)形成隨機(jī)的反射斑點(diǎn),稱之為散斑。散斑具有高度隨機(jī)性,也會(huì)隨著距離而變換圖案,空間中任何兩處的散斑都會(huì)是不同的圖案,等于是將整個(gè)空間加上了標(biāo)記,所以任何物體進(jìn)入該空間、以及移動(dòng)時(shí),都可確切紀(jì)錄物體的位置。
深度攝像頭供應(yīng)格局
隨著深度攝像頭技術(shù)的不斷發(fā)展,更多機(jī)器視覺(jué)應(yīng)用正在不斷涌現(xiàn),例如行為捕捉和分析用于智能安防,環(huán)境感知(SLAM)用于視覺(jué)導(dǎo)航,消費(fèi)類 3D建模等,同時(shí)深度攝像頭也是近年來(lái)最火爆的AR/VR設(shè)備的核心模塊之一。高級(jí)行為分析功能必需基于三維深度信息實(shí)現(xiàn),此前市場(chǎng)上只有基于PrimeSense方案的體感游戲攝像頭可用,在2013年P(guān)rimeSense被Apple 收購(gòu),其對(duì)外供貨和技術(shù)授權(quán)在15年中止,業(yè)界急需要合適的替代產(chǎn)品。例如有一款采用PrimeSense開(kāi)發(fā)板設(shè)計(jì)的iPad外置深度攝像頭產(chǎn)品,在Kickstarter上募集了約130萬(wàn)美金,同樣因?yàn)锳pple收購(gòu)PrimeSense的原因,類似項(xiàng)目全部陷入困境。在AR/VR設(shè)備應(yīng)用中,遠(yuǎn)距離深度攝像頭用于環(huán)境感知和建模;近距離深度攝像頭用于手勢(shì)識(shí)別。預(yù)計(jì)將來(lái) 99% 的 AR 設(shè)備和 50% 以上的 VR 設(shè)備將配備深度攝像頭,而這兩類應(yīng)用的崛起,也將大力推動(dòng)深度攝像頭市場(chǎng)的增長(zhǎng)。
PrimeSense的產(chǎn)品有深度攝像頭模塊,有完善的SDK(其中最著名的是開(kāi)源的Open NI應(yīng)用程序接口),更有其定制的DSP+硬件加速器芯片以及強(qiáng)大的專利池。在PrimeSense被Apple 收購(gòu)之后,市場(chǎng)上類似方案供應(yīng)幾乎成為空白,隨后谷歌、英特爾、臉書旗下Oculus、索尼和三星等企業(yè)都相繼在這一領(lǐng)域進(jìn)行了投入,收購(gòu)動(dòng)作頻繁。谷歌Project Tango,利用深度攝像頭進(jìn)行機(jī)器人室內(nèi)導(dǎo)航;英特爾演示RealSense深度攝像頭對(duì)無(wú)人機(jī)進(jìn)行視覺(jué)導(dǎo)航等等……??梢哉f(shuō),深度攝像頭是所有需要視覺(jué)傳感器的機(jī)器,包括機(jī)器人、無(wú)人機(jī)、工業(yè)設(shè)備的必需模塊。據(jù)IHS預(yù)計(jì),到2019年手勢(shì)感應(yīng)傳感器全球市場(chǎng)規(guī)模將從2015年的23億達(dá)到95億美金,年復(fù)合增長(zhǎng)率達(dá)到42.6%。
下圖是該產(chǎn)業(yè)領(lǐng)導(dǎo)廠商主要技術(shù)發(fā)展及深度攝像頭平臺(tái)情況。上圖顯示了科技行業(yè)巨頭在深度攝像頭領(lǐng)域的布局,他們通過(guò)收購(gòu)構(gòu)筑了各自的技術(shù)護(hù)城河。其中,微軟Kinect一代的技術(shù)方案供應(yīng)商,機(jī)器視覺(jué)民用化的先驅(qū)PrimeSense被蘋果收購(gòu)可以視為一個(gè)轉(zhuǎn)折點(diǎn),收購(gòu)以后,其對(duì)外授權(quán)和供貨會(huì)在 2015 年終止,所以那些使用了PrimeSense技術(shù)的廠商們不得不尋找替代方案,再加上AR/VR設(shè)備的興起,讓國(guó)內(nèi)一些初創(chuàng)企業(yè)盯住了這一市場(chǎng),圖漾科技即是其中之一。
圖漾:業(yè)界最獨(dú)特的技術(shù)路線
費(fèi)浙平曾經(jīng)是處理器巨頭ARM在中國(guó)大陸的第一位員工,在全球頂尖的CPU和GPU公司工作十多年,于2013年開(kāi)始啟動(dòng)深度攝像頭的技術(shù)研發(fā),團(tuán)隊(duì)的技術(shù)合伙人來(lái)自于國(guó)內(nèi)機(jī)器視覺(jué)領(lǐng)域的著名團(tuán)隊(duì)Click研發(fā)小組,在光學(xué)、硬件和算法上非常有經(jīng)驗(yàn)和積累。在強(qiáng)大的技術(shù)團(tuán)隊(duì)背景下,圖漾立志成為機(jī)器視覺(jué)領(lǐng)域的世界級(jí)核心技術(shù)平臺(tái)。
2015年初,圖漾科技獲得Pre-angel 400萬(wàn)天使輪融資,目前已經(jīng)完成了所有核心技術(shù)的研發(fā)和器件定制,產(chǎn)品已經(jīng)開(kāi)始在諸多行業(yè)客戶中使用。區(qū)別于主流的單目結(jié)構(gòu)光技術(shù)方案,他們創(chuàng)造性地采用了主動(dòng)雙目的技術(shù)路線,主動(dòng)雙目(Active Stereo)技術(shù)的不斷演進(jìn)和優(yōu)化,能夠把深度攝像頭性能推向極致,同時(shí)徹底規(guī)避了與市場(chǎng)先行者的專利風(fēng)險(xiǎn)。主動(dòng)雙目方案可以看成是純雙目方案和單目結(jié)構(gòu)光兩種方案的融合,由于這兩種方式都可以獲得深度信息,在系統(tǒng)魯棒性方面會(huì)大大超過(guò)現(xiàn)有方案。在某些環(huán)境下(比如室外)由于環(huán)境光的干擾,該方案可以直接轉(zhuǎn)變成純雙目方案,繼續(xù)獲得深度信息而不會(huì)直接失效,也可以真正杜絕不同深度攝像頭之間空間散斑的互相干擾(這個(gè)問(wèn)題在機(jī)器視覺(jué)社區(qū)非常常見(jiàn),但單目結(jié)構(gòu)光方案由于原理問(wèn)題,無(wú)法避免)。同時(shí)雙目結(jié)構(gòu)光方案的光學(xué)標(biāo)定方式不同于單目結(jié)構(gòu)光,激光發(fā)射器(產(chǎn)品壽命最大瓶頸)可以直接替換,由此帶來(lái)攝像頭模塊的工作時(shí)間可以達(dá)到商用和工業(yè)領(lǐng)域的高可靠性和高可用性需求,還能帶來(lái)維護(hù)成本的大幅度降低(不需要整個(gè)模塊替換),這對(duì)行業(yè)用戶的重要性不言而喻。
費(fèi)浙平表示,圖漾目前已完成1500萬(wàn)人民幣的pre-A輪融資,本輪融資由專投機(jī)器人領(lǐng)域的兩個(gè)投資機(jī)構(gòu)參投,資金將主要用于產(chǎn)品商業(yè)化布局和硬件設(shè)備落地,普及更多的客戶。“深度攝像頭能夠獲取世界的三維信息,由此給VR/AR、動(dòng)作捕捉、三維掃描與打印、室內(nèi)導(dǎo)航與定位等應(yīng)用提供了基礎(chǔ)的技術(shù)支持。有了深度攝像頭,你的設(shè)備將讀懂這個(gè)世界所發(fā)生的一切,更加智能。”他表示。
根據(jù)他的規(guī)劃,圖漾的第一個(gè)產(chǎn)品型態(tài)是深度攝像頭(傳感器),可利用視覺(jué)計(jì)算原理,計(jì)算出拍攝場(chǎng)景內(nèi)物體的3維空間位置信息,在此基礎(chǔ)上可以實(shí)現(xiàn)環(huán)境感知、體感、建模、行為識(shí)別等各種應(yīng)用。在第二階段,跟行業(yè)合作伙伴配合,為最終客戶提供基于深度信息的視覺(jué)應(yīng)用開(kāi)發(fā)支持,比如3D建模和SLAM等,構(gòu)建起深度技術(shù)應(yīng)用的技術(shù)平臺(tái)。圖漾的硬件技術(shù)發(fā)展路線和方向有兩個(gè),一是提供適合移動(dòng)設(shè)備用的小型化低功耗深度攝像頭,二是遠(yuǎn)距離和超高分辨率的高性能產(chǎn)品。
在競(jìng)爭(zhēng)格局上,費(fèi)浙平表示,被Apple收購(gòu)后的PrimeSense基本上會(huì)是自用,微軟綁定了Win10,也在明顯趨于封閉,而且它不會(huì)進(jìn)入硬件模塊市場(chǎng);英特爾的產(chǎn)品規(guī)格非常固定,且需綁定 x86 處理器,應(yīng)用場(chǎng)景比較受限;谷歌志不在成為硬件供應(yīng)商,甚至有朝一日很可能會(huì)徹底開(kāi)源其Project Tango的源代碼,幫助促進(jìn)深度攝像頭的大規(guī)模普及應(yīng)用。以色列有一個(gè)技術(shù)極好的創(chuàng)業(yè)公司群體,但是這類企業(yè)的目標(biāo)在于被巨頭收購(gòu),難以成為可靠的合作伙伴。事實(shí)上,在過(guò)去的12個(gè)月里面,市面上大多數(shù)的深度技術(shù)公司都已經(jīng)被大公司收入旗下了。“這一領(lǐng)域的特點(diǎn)是技術(shù)門檻極高,技術(shù)發(fā)展整體上尚屬于早期,整個(gè)行業(yè)都在技術(shù)起飛過(guò)程當(dāng)中。類似于高仿Kinect硬件加軟件破解的方式不是我們的興趣所在,我們的目標(biāo)是成為世界頂尖的深度技術(shù)公司,在這個(gè)技術(shù)點(diǎn)上做出創(chuàng)造性的領(lǐng)先技術(shù)和產(chǎn)品,
支持計(jì)算視覺(jué)應(yīng)用從行業(yè)擴(kuò)展到我們每個(gè)人的工作和生活當(dāng)中。”在技術(shù)和產(chǎn)品山寨橫行的中國(guó)市場(chǎng),有這樣愿意挑戰(zhàn)業(yè)界技術(shù)巔峰的企業(yè)實(shí)屬罕見(jiàn)。
費(fèi)浙平解釋深度攝像頭的幾個(gè)關(guān)鍵技術(shù)規(guī)格,一個(gè)是檢測(cè)范圍,看最大檢測(cè)距離;第二是檢測(cè)精度,看誤差多少;第三是檢測(cè)角度,看鏡頭的視角多大;第四是檢測(cè)速度,每秒能刷新多少次。他表示目前已有小批量試用模組提供給早期客戶評(píng)估,該深度攝像頭采用雙目立體視覺(jué),配以紅外結(jié)構(gòu)光輔助投影,能夠獲得比傳統(tǒng)
立體視覺(jué)更多的景深細(xì)節(jié)。板載深度數(shù)據(jù)專用處理器,所有圖像處理均在設(shè)備端高速完成,直接輸出深度數(shù)據(jù)供客戶調(diào)用處理。這一型號(hào)采用裸板模組設(shè)計(jì),適合企業(yè)客戶直接用于自家產(chǎn)品的安裝使用,適用于機(jī)器人導(dǎo)航避障,及低精度的姿態(tài)識(shí)別等領(lǐng)域應(yīng)用,支持Linux、windows操作系統(tǒng)。首款產(chǎn)品模組規(guī)格描述:
- 尺寸88mmx38mmx35mm,基線長(zhǎng)度55mm。
- 輸出深度分辨率560x460@10fps,micro USB 2.0。
- 設(shè)備功耗為3.5w。
- 檢測(cè)距離1-5m,水平檢測(cè)范圍58°。
- 供電方式:雙USB供電。
- 提供模組安裝定位孔。
“目前我們的深度攝像頭模組內(nèi)置專用圖像處理芯片,能夠高速實(shí)時(shí)檢測(cè)物體的三維信息,無(wú)需占用任何設(shè)備外計(jì)算資源。通過(guò)巧妙的光學(xué)設(shè)計(jì),保證深度傳感器的識(shí)別范圍有了更大的延伸,實(shí)現(xiàn)最遠(yuǎn)可達(dá)到10米內(nèi)的目標(biāo)檢測(cè),并實(shí)現(xiàn)雙圖像捕獲激光投射,能夠?qū)ξ矬w三維信息實(shí)時(shí)測(cè)量,檢測(cè)精度達(dá)到毫米級(jí),” 費(fèi)浙平指出,“而且即插即用,無(wú)需復(fù)雜的驅(qū)動(dòng),可直接輸出深度信息流,支持不同的平臺(tái)。此外我們對(duì)所有開(kāi)發(fā)者免費(fèi)開(kāi)放豐富的開(kāi)發(fā)包,可以讓開(kāi)發(fā)者充分發(fā)揮想象,將深度信息的利用發(fā)揮到極致。同時(shí)也為企業(yè)客戶提供交鑰匙方案,攝像頭模組可以輕松外置或嵌入各型號(hào)電子產(chǎn)品,幫助客戶提升產(chǎn)品的國(guó)際競(jìng)爭(zhēng)力。” 值得注意的是,目前的模組導(dǎo)出的數(shù)據(jù)是原始數(shù)據(jù),需要客戶自己去進(jìn)一步分析處理,因此圖漾現(xiàn)階段選擇的都是具備一定技術(shù)實(shí)力的客戶。
視覺(jué)處理器:新的藍(lán)海
費(fèi)浙平指出,目前的處理器架構(gòu)不足以支撐現(xiàn)有的計(jì)算機(jī)視覺(jué)的發(fā)展。未來(lái)關(guān)于深度識(shí)別方面,也需要專門優(yōu)化過(guò)的處理器來(lái)處理相關(guān)的應(yīng)用,才能做到又快又好。近期由于視覺(jué)處理器創(chuàng)業(yè)公司CogniVue被飛思卡爾收購(gòu),該領(lǐng)域的創(chuàng)業(yè)機(jī)會(huì)也被業(yè)界看好,谷歌project Tango中所使用的視覺(jué)處理器供應(yīng)商Movidius已經(jīng)成為當(dāng)紅炸子雞。“深度攝像頭技術(shù)發(fā)展仍處于早期階段,還有很長(zhǎng)的路要走,同時(shí),這也意味著有很多機(jī)會(huì)等著我們。”處理器行業(yè)出身的費(fèi)浙平在說(shuō)到視覺(jué)處理器話題時(shí),仍舊兩眼放光,讓人不禁浮想聯(lián)翩……。