別被2D的背景虛化給騙了
3維視覺相比于2維視覺,多了一個(gè)維度,可以實(shí)現(xiàn)更加正確的物體分割,合適精度的三維測(cè)量,三維數(shù)據(jù)的模型重建以及智能視覺識(shí)別和分析。上海圖漾信息科技有限公司徐韜解析, 2維圖像在復(fù)雜場景下由于缺少深度的信息無法正確分割物體。
一個(gè)例子是,以前榮耀出過一款雙攝像頭的手機(jī),但并非用來做深度,僅是兩個(gè)不同攝像頭的集合,然后進(jìn)行圖像優(yōu)化,效果是要把背景虛化,但這個(gè)其實(shí)是假的。它只是把背景模糊了一下,靠猜測(cè)背景和人是不一樣的物體,這個(gè)和深度沒有關(guān)系,也就是說還只是通過2D處理實(shí)現(xiàn)背景虛化,并非真正的3D。而目前智能視覺識(shí)別和分析大部分也仍用2D來做。
用3D做出的分割,去除背景和多物體分割都更精準(zhǔn)?,F(xiàn)在許多創(chuàng)業(yè)公司會(huì)利用微軟kinect進(jìn)行現(xiàn)場3D建模。同時(shí)利用3D圖像進(jìn)行面部識(shí)別的準(zhǔn)確度更高。以上種種可以看出,3D視覺的確擁有巨大的優(yōu)勢(shì)。
3D傳感器市場格局
之所以3D視覺還沒有普及,因其技術(shù)不成熟且供應(yīng)商僅少數(shù)幾家企業(yè)。徐韜說,3D圖像是在2D圖像的基礎(chǔ)上通過顏色渲染每一個(gè)點(diǎn)來代表不同的深度,深度圖相對(duì)傳統(tǒng)的平面圖還有很大的提高空間。此外,由于多了一維,其數(shù)據(jù)處理卻不只多一個(gè)數(shù)量級(jí)。在人工智能方面,如果用三維做分析,算法與計(jì)算量會(huì)有顯著的增長,這就需要有新的處理方法來應(yīng)對(duì),在目前大部分還在用二維圖形做處理的情形下,這也是一個(gè)挑戰(zhàn)。深度攝像頭的三種主要技術(shù)方法和代表公司分別為:一是單目結(jié)構(gòu)光,代表公司有蘋果(收購最大的結(jié)構(gòu)光技術(shù)公司PrimeSense)、微軟Kinect-1、英特爾RealSense、Google Project Tango等,目前可見的其他創(chuàng)業(yè)公司幾乎都沿用此技術(shù)路線。二是雙目可見光,代表公司LeapMotion。三是飛行時(shí)間法(TOF),代表公司微軟Kinect-2。
在國內(nèi),單目結(jié)構(gòu)光供應(yīng)商有奧比中光科技、華捷艾米軟件,雙目結(jié)構(gòu)光方案有圖漾科技,TOF方案的有樂行天下科技。此外,有兩家上市公司也開始了內(nèi)部研發(fā)項(xiàng)目。不過,徐韜表示圖漾的3D傳感器技術(shù)更像是單目結(jié)構(gòu)光和雙目可見光兩種技術(shù)的結(jié)合,可獲得更高的圖像質(zhì)量,并且應(yīng)用場景更廣,同時(shí)知識(shí)產(chǎn)權(quán)更加干凈。
“在光線不好的情況下,傳統(tǒng)的單路結(jié)構(gòu)光會(huì)有很大的問題,無法識(shí)別或者失效。而我們的產(chǎn)品可靠性更高,這一點(diǎn)在行業(yè)應(yīng)用中占有優(yōu)勢(shì)。因?yàn)樵S多特定的行業(yè)對(duì)產(chǎn)品的可靠性要求非常高,有些競品在多設(shè)備情況下存在互相干擾無法協(xié)同,而我們?cè)诙嘣O(shè)備條件下能夠協(xié)高工作。” 徐韜說道。最早是一些以色列的創(chuàng)業(yè)公司進(jìn)行深度攝像頭的研發(fā),現(xiàn)在這些公司幾乎都被科技界巨頭收購。比如蘋果收購PrineSense,這家公司是深度攝像頭的民用化先鋒。收購后,不再對(duì)外供貨。微軟使用PrineSense技術(shù)做出了Kinect一代,Kinect-2采用內(nèi)部開發(fā)技術(shù),趨于封閉生態(tài)。谷歌則不會(huì)成為一項(xiàng)產(chǎn)品或技術(shù)的供應(yīng)商,而在于推動(dòng)應(yīng)用開發(fā)。同樣Intel力推Realsense方案需搭配X86芯片使用??梢哉f巨頭的深度攝像頭都有為己所用的形態(tài)。徐韜認(rèn)為,這種現(xiàn)狀留給了深度攝像頭創(chuàng)新型公司更大的市場空間,尤其在行業(yè)應(yīng)用方面。
有望取代激光雷達(dá) 引發(fā)機(jī)器人及VR內(nèi)容應(yīng)用革命
深度攝像頭最知名的消費(fèi)級(jí)應(yīng)用是體感攝像頭,如微軟XBOX游戲機(jī)的體感攝像頭Kinect。微軟的HOLOLENSE也大量采用了深度攝像頭。深度攝像頭最熱的領(lǐng)域是機(jī)器人,自動(dòng)駕駛,AR/VR,智能安防,智能家居,消費(fèi)娛樂等,它們對(duì)深度攝像頭有著非常巨大的需求。例如VR配備手勢(shì)識(shí)別和動(dòng)作識(shí)別時(shí)用視覺做更多的捕捉,而AR對(duì)深度攝像頭的需求更大,因?yàn)橐兄h(huán)境,與真實(shí)環(huán)境融合。聯(lián)想TANGO手機(jī)用深度攝像頭做AR應(yīng)用,據(jù)悉已在小批量發(fā)貨,主打行業(yè)應(yīng)用。
未來,可以利用深度攝像頭直接生成內(nèi)容,無需其他處理或用電腦生成。這充分解決了現(xiàn)在缺少優(yōu)質(zhì)VR內(nèi)容的短板,將帶來民眾直接拍攝的VR內(nèi)容的激增。智能安防領(lǐng)域,通過智能攝像頭分析人的行為是否在有潛在危害,在金融行業(yè)頗有用途,但對(duì)算法要求非常高,到目前為止,還沒有非常好的產(chǎn)品出現(xiàn)。另外,用來做視覺導(dǎo)航在目前大熱的領(lǐng)域包括機(jī)器人、無人機(jī)以及其他移動(dòng)的場景,這是消費(fèi)剛需。徐韜認(rèn)為,現(xiàn)在機(jī)器人用激光雷達(dá)進(jìn)行視覺導(dǎo)航,存在價(jià)格昂貴,信息缺失的問題。因?yàn)樗皇窃诿嫔献鲯呙?,獲得的信息并不完整,導(dǎo)航作用有限。深度攝像頭做視覺導(dǎo)航,被普遍認(rèn)為是行業(yè)的發(fā)展方向。據(jù)介紹,目前已經(jīng)有具備一定技術(shù)研發(fā)能力的機(jī)器人公司開始用圖漾的3D傳感器做視覺導(dǎo)航。機(jī)器人的導(dǎo)航主要有無線定位、激光雷達(dá)、視覺導(dǎo)航、慣性導(dǎo)航以及超聲波等方式。隨著3D傳感器的發(fā)展,視覺導(dǎo)航有望成為最主流的方式。“我認(rèn)為視覺導(dǎo)航是終結(jié)且最好的解決方法,但目前深度攝像頭還不成熟,因此激光雷達(dá)還有一定的空間,一旦3D傳感器技術(shù)成熟,那么激光雷達(dá)在機(jī)器人導(dǎo)航領(lǐng)域可能被秒殺。”再看看各方的動(dòng)作,Intel正在推動(dòng)深度攝像頭在電腦中的普及,Google正在嘗試深度攝像頭與平板的結(jié)合。此外手機(jī)公司對(duì)深度攝像頭小型化開始關(guān)注,創(chuàng)業(yè)公司則投入在硬件與移動(dòng)設(shè)備的結(jié)合,利用深度測(cè)量能力的應(yīng)用開發(fā)的創(chuàng)新。
深度攝像頭是技術(shù)門檻非常高的行業(yè),徐韜表示圖漾在掌握自有技術(shù)的同時(shí),定位在專業(yè)的深度攝像頭供應(yīng)商,針對(duì)不同行業(yè)推出不同版本,提供完整的技術(shù)支持做定制化方案。由于具備了一定的優(yōu)勢(shì),也受到了資本市場的認(rèn)可。隨著巨頭的積極布局以及技術(shù)的逐漸成熟,還有3-5年的技術(shù)爆發(fā)期,目前是一個(gè)很好的時(shí)間窗口。