在亞馬遜Echo取得成功,谷歌宣布推出語音家居設備Google Home,最早引爆消費領域語音識別應用的蘋果公司也傳出將開源Siri給第三方應用程序等這一系列事件之后,市場對智能語音技術的關注也達到一個新的熱度。
據(jù)CIRP上月發(fā)布的一份報告顯示,亞馬遜語音智能音響Echo的銷售量已經(jīng)突破300萬臺。這款被認為是亞馬遜試水之作的產(chǎn)品,獲得了比預期要好的成績。Echo的成功很大程度上是源于其出眾的語音識別率,遠場識音以及語音喚醒功能。亞馬遜在Echo頂部配置了7個微機電系統(tǒng)(MEMS)麥克風構(gòu)成陣列,采用波束成型(Beam-forming)等技術進行降噪語音處理。從而實現(xiàn)遠距離識音,整個過程不需要雙手操作;且在有風噪、車聲、小孩哭鬧等較為嘈雜的環(huán)境下,也不影響正常使用。MEMS麥克風技術方案的提升與智能化創(chuàng)新,為新一代的智能設備提供了可靠的語音交互體驗。本文將闡述,智能語音應用興起大背景下,MEMS麥克風的發(fā)展趨勢,以及MEMS麥克風元祖樓氏電子在最近的一次研討會活動上展示的最新智能語音解決方案。
設備都在智能化,麥克風也一樣
前面提到了亞馬遜Echo的一大殺手锏,即語音喚醒。這就需要設備在語音交互上是一個一直在線的狀態(tài),能夠隨時傾聽用戶聲音,等待關鍵詞口令的出現(xiàn)來喚醒設備。
于是問題來了。倘若設備一直在收音,無疑會非常耗電,這對于移動設備來說是非常不適合的。因此,我們需要把麥克風變得更加智能。樓氏電子智能語音硬件負責人介紹:“我們將聲學活動檢測(Acoustic Activity Detector, AAD)單元放到了麥克風里面,實現(xiàn)一個自適應的實時監(jiān)聽模式。這種方式能夠使整個系統(tǒng)節(jié)能70%。”例如,在一款CSR平臺的藍牙耳機上,使用普通數(shù)字麥克風時整個系統(tǒng)的待機電流至少為5 mA,而用智能麥克風時的待機電流約為0.6 mA左右,待機時間從42個小時提升到125個小時。我們熟知的蘋果iPhone的Siri,之前只支持充電狀態(tài)下的鎖屏語音喚醒,直到推出iPhone 6s,Siri才支持低功耗的鎖屏語音喚醒。(還記得,去年蘋果發(fā)布會邀請函上那句 “Hey Siri”嗎?)
VQ3.0:讓設備聽懂“hey Siri.”or“百度一下”...
智能麥克風實現(xiàn)了讓設備一直處于低能耗的監(jiān)聽狀態(tài)。然而我們生活在充滿各種嘈雜聲音的環(huán)境下,汽車的噪音、地鐵施工的噪音、街坊鄰居的嬉笑聲。所以設備需要了解哪些是噪音,哪些是有用的聲音。去年樓氏并購了語音解決方案供應商Audience后,為樓氏帶來幾項重要的技術,其中就包括通過深度神經(jīng)網(wǎng)絡(DNN)的基于機器學習的語音識別。
機器學習是指提供大量不同的聲音樣本給人工智能DNN系統(tǒng)訓練,并能夠?qū)⑦@些資料做一些處理,加上噪音、調(diào)整頻率和速度,產(chǎn)生更多的訓練資料,從而可以將識別率提高到非常準確的程度。由于Audience的這種識別只是口令式的觸發(fā)啟動,并不涉及到復雜的信息交流,所以也就不存在語種差異等方面的障礙,只需要將口令的音認準,即完成任務。據(jù)樓氏智能語音軟件產(chǎn)品管理副總裁姜正耀透露,目前Voice Wake VQ 3.0語音喚醒方案已經(jīng)放在聯(lián)發(fā)科X20里面,并且和海思、高通等均有合作。
樓氏日前推出了基于ASIC的第二代智能麥克風Griffin IA210,內(nèi)置聲學檢測單元AAD,采用Burst模式解決延時問題,從而能夠及時響應。所搭配的低功耗語音DSP處理器eS814,放入了樓氏最新的語音喚醒軟件方案VQ3.0。以軟硬結(jié)合的完整方案實現(xiàn)高性能的語音處理。
實現(xiàn)遠場識音、更好的壓噪,多麥克風方案是必須
實際上,無論是前面說的機器學習,還是波束成型等壓噪技術,都需要多麥克風方案來解決。我們看到,目前的智能手機一般都采用了3 ~ 4顆的MEMS麥克風。例如,iPhone 5s采用了3顆MEMS麥克風,iPhone 6s 系列則用到了4顆。而包括Echo智能音響在內(nèi)的智能家居設備,要配備6 ~ 7顆才能夠滿足日常家居需求。樓氏MEMS麥克風業(yè)務副總裁Greg Doll表示,通過嵌入更多數(shù)量的MEMS麥克風,設備可以獲得更好音質(zhì)與用戶體驗。樓氏在研討會活動上還演示了5米遠距離識音IoT方案,包括集成了語音算法的DSP以及3顆高性能麥克風陣列,從現(xiàn)場效果來看,識別率非常高。遠場識音效果的好壞實際上是由麥克風壓噪能力決定的。
Greg Doll對比展示了,在吵鬧環(huán)境下,使用同樣芯片和同樣算法的兩臺智能手機,采用3顆MEMS麥克風的音質(zhì)要明顯優(yōu)于采用2顆MEMS麥克風的。對于麥克風的性能,除了眾所周知的SNR(信噪比)外,AOP(聲學過載點)也是麥克風重要的質(zhì)量指標。高SNR能夠讓設備更好的遠距離收音;而AOP是評估麥克風在高聲壓水平下的性能指標,比如,一些公司慶典上的錄音往往有很多破音,就是由于MEMS麥克風AOP不夠高的緣故。
這對于使用場景的越來越多樣化的智能語音設備來說非常重要。有報告顯示,64dB以上的高信噪比MEMS麥克風的市場占有率已經(jīng)達到50%以上;而對AOP的要求,很多廠商也從之前的120dB上升到130dB以上的基礎水平。
語音助手功能推動,MEMS麥克風市場持續(xù)成長
IHS最新報告指出,蘋果 iPhone將麥克風數(shù)量增加至4顆,預期會帶動其他廠商跟進;預計2015 ~ 2019年全球MEMS麥克風市場將出現(xiàn)13%幅度成長,銷售量將達到60億顆。分析師指出,開始增加麥克風數(shù)量,主要是受到免持通話與Siri、Cortana等語音助手功能所帶動。
目前,智能手機市場仍舊是MEMS麥克風廠商主攻的重地,當然,一些當下大熱的概念也值得注意。比如,文章前面提到的內(nèi)置7顆麥克風的亞馬遜智能音響Echo,按透露出來的300萬銷量算,其MEMS麥克風的采購量也能達到2100萬顆。另外還有可穿戴、IoT設備以及MEMS麥克風還未涉及的VR領域。
MEMS麥克風龍頭的挑戰(zhàn)與應對
樓氏依舊是目前全球MEMS麥克風市場的最大市占者。據(jù)樓氏透露,其2015年全年的出貨量接近16億顆。但IHS分析指出,由于Goertek、意法半導體與瑞聲科技都在奮起直追,成為蘋果與其他公司供應商,樓氏的領先幅度正在縮小。
近幾年,樓氏不斷加大在DSP及算法等智能語音方面的投入,包括去年并購了Audience,開始從一家的聲學元器件供應商向音頻解決方案供應商轉(zhuǎn)型。
日前,樓氏電子傳出將移動消費電子揚聲器、受話器產(chǎn)品線出售給正心谷創(chuàng)新資本的消息。筆者就此事聯(lián)系樓氏方面了解到,樓氏此舉是為了專注于MEMs麥克風、智能音頻等核心優(yōu)勢業(yè)務領域,加強在高級音頻解決方案領域的市場領導地位。另外,平衡電樞驅(qū)動單元揚聲器(俗稱動鐵)是隸屬于特種聲學產(chǎn)品部門的另一條產(chǎn)品線,樓氏將繼續(xù)這些產(chǎn)品的生產(chǎn)。