人機交互是人工智能技術(shù)的基本,交互模式有圖像識別、手勢識別和語音識別等。而在人類進化過程中,語言不僅起著非常重要的作用,也承載著非常豐富的信息,這令智能語音在交互方式方面具備得天獨厚的優(yōu)勢。語音識別技術(shù)的迭代演進讓智能語音市場前景無限。很多產(chǎn)品場景下,深度學習已與芯片緊密結(jié)合,如遠場喚醒、打斷,包括離線識別,都已在芯片級技術(shù)層面實現(xiàn)。
面對智能語音交互,兩大互聯(lián)網(wǎng)巨頭這回同時出手了
7月5日早10點,百度AI開發(fā)者大會在北京國家會議中心開始。百度度秘事業(yè)部總經(jīng)理景鯤宣布百度DuerOS開放平臺發(fā)布,并介紹了語音交互在AI領(lǐng)域的戰(zhàn)略方向以及相關(guān)技術(shù)和解決方案等問題。而僅僅相隔4小時后,阿里人工智能實驗室也召開了2017夏季新品發(fā)布會,發(fā)布與智能語音相關(guān)的消費級產(chǎn)品天貓精靈。
在DuerOS開放平臺發(fā)布會上,景鯤從衣兜里接連掏出三款DuerOS開發(fā)套件和一款硬件參考設(shè)計(據(jù)說他還想帶更多芯片,但是口袋實在放不下了)。
1、搭載樹莓派,利用科勝訊技術(shù)的個人版。即刻申請就可以搭載一個個人可以對話的語音設(shè)備;
2、輕量版。把一元錢大小的芯片放在任何一個設(shè)備里面,設(shè)備就可以對話;
3、標準版。兩麥、四麥、六麥、八麥的標準版都可以即可申請;
4、完整一體化的參考設(shè)計。如開放電路板設(shè)計、開放結(jié)構(gòu)設(shè)計、開放麥克風陣列等等。手機、電視、冰箱等任何設(shè)備,都可以搭載DuerOS,變成一個能”聽懂”的設(shè)備。景鯤說,開發(fā)者使用這些開發(fā)套件,只要接一個電源,接一個麥克風,就可以讓身邊的家電說話。通過打造AI時代的安卓——DuerOS,讓每個人,無論你是大公司還是小公司,甚至普通開發(fā)者,都能夠以低門檻打造屬于自己的智能語音交互設(shè)備。
同樣是語音AI領(lǐng)域,不同于DuerOS開放設(shè)備平臺,阿里巴巴選擇推出公司首款智能音箱產(chǎn)品—天貓精靈,看上去更類似于中國版的Echo。天貓精靈的負責人淺雪指出,這不只是具有語音識別和理解能力的智能音箱,其音箱中搭載的人工智能Ali Genie系統(tǒng)是產(chǎn)品的核心所在,代表著產(chǎn)品具備NLP支持的理解力、執(zhí)行力和基于數(shù)據(jù)的進化能力。AliGenie使用了FPGA云端硬件定制化邏輯電路加速,算法上載入了混合神經(jīng)網(wǎng)絡(luò)。
與百度相仿,AliGenie也發(fā)布了開發(fā)者平臺,面向不同類型的開發(fā)需求。在發(fā)布會中,功能演示與產(chǎn)品介紹交替進行,演示內(nèi)容涉及聽音樂、網(wǎng)購、找手機、定時器、充話費、連接智能家電等功能,能看出阿里以語音與金融結(jié)合想要達成產(chǎn)品捆綁與消費方式變革的目標。
語音交互核心三要素:聽清、聽懂、滿足
景鯤表示,DuerOS是人工智能時代的安卓系統(tǒng),DuerOS希望成為一個開放賦能的生態(tài)系統(tǒng)。”有什么核心的要素需要滿足,才能推動時代變革?我們總結(jié)出核心三要素:聽清、聽懂、滿足。很多廠商可以做到聽清,但是做不好聽懂和滿足,只有把這三個都做好,才能滿足。”“聽清”:百度的語音識別率做到了近場識別的準確率97%以上,但這些在AI時代還不夠。在AI時代,技術(shù)要與場景相結(jié)合。百度希望把語音放到真正的場景里面去解決問題,研發(fā)了麥克風陣列、回聲消除、語音喚醒、人像識別等技術(shù)。
“聽懂”:數(shù)據(jù)多、介入深是打造對話系統(tǒng)的必然條件,具備這兩點才能做好一個真正可以對話的”聽懂”系統(tǒng)。百度是具備數(shù)據(jù)量最大的公司,擁有億級的多輪對話數(shù)據(jù)、十億級的知識圖譜數(shù)據(jù)。
“滿足”:滿足”聽一首某某的歌”這樣的用戶需求還不夠,真正用戶想要的是更自然、更復(fù)雜的需求,比如”我要聽我手一杯品嘗你的美這首歌”,比如”想聽哥哥的歌”,只有把用戶在真實場景中表達的復(fù)雜請求做好,才能真正做出一個真正聽懂用戶需求的產(chǎn)品。
他認為在這個時代,只有百度在中國市場是唯一具備聽清、聽懂、滿足的實力。在現(xiàn)場,景鯤還演示了百度語音系統(tǒng)多輪交互的能力,現(xiàn)場演示了一臺HTC手機利用DuerOS的多輪交互過程,這種交互只有百度的技術(shù)才能驅(qū)動。通過連續(xù)發(fā)問:“找一找本地人氣最火爆的家常菜”、“雍和宮附近有嗎”、“第二家有什么推薦菜”、“有wifi嗎”、“好停車嗎”……多輪連續(xù)展開的對話。他說,“聽懂”的目標,就是要FreeStyle,讓用戶最自然地跟設(shè)備進行交互。
現(xiàn)場,景鯤宣布百度將全資收購人工智能公司Kitt.AI,把KITT.AI的語音能力和自然語言處理能力融入到百度平臺中,全面免費向百度的合作伙伴賦能開放。KITT.AI聯(lián)合創(chuàng)始人、CTO陳果果先生現(xiàn)在演示了如何使用KITT.AI語音喚醒技術(shù)快速打造一個語音喚醒設(shè)備。根據(jù)陳果果先生演示,進入Snowboy的喚起詞庫并新建喚起詞“你好景鯤”后,接著只需要說三遍“你好景鯤”,即可完成喚起詞的訓練。在測試環(huán)節(jié),設(shè)備只會對喚起詞“你好景鯤”進行響應(yīng)。
來自度秘的百度工程師羅興演示了“如何將百度DuerOS的能力接入搭載Alexa的Anker音箱”。羅興通過十七行代碼,用1分鐘的時間,讓原本只會英文的音箱馬上變得能聽懂中國話。
揭秘百度DuerOS背后的聲學設(shè)計英雄
科勝訊(Conexant)CX20924四麥克風和CX20921雙麥克風語音輸入處理解決方案,是百度DuerOS平臺開發(fā)套件和參考設(shè)計的幕后英雄。科勝訊公司總裁Saleel Awsare在接受本刊采訪時表示,遠距離語音識別和控制需要克服大量的聲學挑戰(zhàn),這涉及回聲消除、背景噪聲、混響, 麥克風和揚聲器的選擇和放置等許多因素,而AudioSmart語音輸入處理器、CODEC以及軟件實現(xiàn)智能設(shè)備的遠距離語言識別和語音控制功能則是克服上述挑戰(zhàn)的利器。百度DuerOS開發(fā)套件
科勝訊AudioSmart語音輸入處理器(用于四麥克風應(yīng)用的CX20924,以及用于雙麥克風應(yīng)用的CX20921)是百度所宣布的開發(fā)套件之中的核心組件,其關(guān)鍵優(yōu)勢在于:
• 只需兩個或四個麥克風實現(xiàn)穩(wěn)定的遠場聲音交互
• 獨家的智能音源定位Smart Source Locator技術(shù)可以用于音源定位(僅限四麥克風配置)
• 加強版噪聲抑制Smart Source Pickup – 對環(huán)境噪音的處理性更好,針對非定頻音源,比如電視,以及非指令使用者的音源,可以智能地予以過濾,使得引擎識別率更高
• 通過全雙工回聲消除技術(shù)(AEC)實現(xiàn)語音打斷功能,即使設(shè)備在大聲播放音樂或者做語音播報的時候,也能夠準確識別喚醒詞
遠場(far-field)語音技術(shù)可為用戶帶來真正解放雙手的體驗。AudioSmart語音打斷功能,用戶無需動手則可自由控制設(shè)備。當設(shè)備的音頻系統(tǒng)處于空閑狀態(tài)時,只需要簡單地說出觸發(fā)詞即可控制設(shè)備,即便音頻系統(tǒng)處于播放狀態(tài),也能達到同樣的效果。據(jù)稱,該遠場功能可實現(xiàn)對設(shè)備實現(xiàn)五米遠的無縫語音控制,即使在嘈雜的真實世界中,也能將語音命令從背景噪音中過濾出來。此外,360度語音收音功能,能在大多數(shù)家庭和辦公環(huán)境下提供精準的語音識別。百度DuerOS智能音箱參考設(shè)計
作為語音識別技術(shù)的先鋒,科勝訊的AudioSmart技術(shù)在亞馬遜Echo及其Alexa語音服務(wù)(AVS)的推動之下,已快速成為各類智能家庭與IoT裝置最令人驚艷的用戶交互接口。在與亞馬遜合作于去年十二月推出支持AVS的2-Mic開發(fā)套件之后,科勝訊成為亞馬遜AVS開發(fā)工具包的第一供貨商。不同于其他方案, AudioSmart只需要2個麥克風就可以實現(xiàn)與現(xiàn)在使用5-8個麥克風的其他產(chǎn)品有相同或更好的性能,更不用說最新推出的全新4-mic AVS開發(fā)套件。
除了百度DuerOS和亞馬遜 Alexa外,其頂級客戶還包括微軟、騰訊、SK Telecom、韓國電信Korean Telecom、Naver等,從而為家電、機器人、家用影音設(shè)備(如機頂盒、喇叭、音響等)、家庭網(wǎng)絡(luò)裝置、安全設(shè)備、玩具、以及語音虛擬助理等提供語音交互功能。
科勝訊業(yè)務(wù)成長的另一個重要增長點來自耳機市場。目前,科勝訊正隨著耳機制造商向新一代的USB-C標準技術(shù)遷移,其最新的CODEC解決方案是專為協(xié)助耳機制造商在此新興領(lǐng)域取得競爭優(yōu)勢而設(shè)計,能讓耳機現(xiàn)在可自帶電源并能接受數(shù)字音頻信號,還可通過電纜直接與源設(shè)備進行數(shù)據(jù)交換,從而給繁榮的耳機市場進行更偉大的創(chuàng)新提供了無限可能。