2014年,基于對(duì)語(yǔ)音交互應(yīng)用未來(lái)的高度認(rèn)可,京東與訊飛一起出資成立靈隆科技,旨在推出更好用的以語(yǔ)音為交互入口的智能產(chǎn)品,首選切入點(diǎn)是音箱產(chǎn)品,這就是叮咚(DingDong)音箱。
目前叮咚(DingDong)音箱和亞馬遜Echo使用的技術(shù)和應(yīng)用水平旗鼓相當(dāng),最大的區(qū)別在語(yǔ)音上,叮咚(DingDong)支持中文和簡(jiǎn)單的英文,而Echo只支持英文。除此之外最重要的一點(diǎn)是叮咚(DingDong)采用了科大訊飛最新的語(yǔ)音人工智能技術(shù)AIUI,將語(yǔ)音交互提升到一個(gè)新的層次。
通過(guò)技術(shù)拆解、解讀,我們?cè)噲D找出叮咚(DingDong)音箱所使用的AIUI語(yǔ)音技術(shù)的核心創(chuàng)新之處,如何讓語(yǔ)音人機(jī)交互帶來(lái)新的革命,繼而賦予叮咚(DingDong)音箱這樣的產(chǎn)品新的玩法和生命力,進(jìn)而帶來(lái)一場(chǎng)語(yǔ)音交互的場(chǎng)景革命。
一、從智能交互到智能家居場(chǎng)景革命
首先我們需要了解的是,京東旗下叮咚(DingDong)音箱在搭載AIUI語(yǔ)音交互技術(shù)后,帶來(lái)了哪些全新的體驗(yàn)和實(shí)現(xiàn)方式,以及可見(jiàn)的智能家居場(chǎng)景革命,至少帶來(lái)三方面的改變:
1、讓叮咚(DingDong)音箱成為體驗(yàn)最好的WiFi智能音箱產(chǎn)品。
從2015年啟動(dòng)的叮咚(DingDong)音箱項(xiàng)目,已經(jīng)發(fā)展成為國(guó)內(nèi)體驗(yàn)最好的WiFi智能音箱產(chǎn)品之一,目前銷(xiāo)量在京東平臺(tái)第一,超過(guò)所有前十品牌之和;在技術(shù)上的最佳體現(xiàn)就是遠(yuǎn)場(chǎng)識(shí)別、隨時(shí)打斷,以及在AIUI升級(jí)后實(shí)現(xiàn)的連續(xù)對(duì)話功能,在國(guó)內(nèi)處于領(lǐng)先地位。
2、讓叮咚(DingDong)音箱的使用場(chǎng)景更為豐富。
叮咚(DingDong)音箱可以讓用戶(hù)用語(yǔ)音操控微聯(lián)平臺(tái)上的上千款智能硬件設(shè)備,從而形成場(chǎng)景化的交互方式。
比如,你只需發(fā)出“我回家了”的指令,屋內(nèi)的燈光、空調(diào)、加濕器、電視等一系列用戶(hù)自定義的設(shè)備將會(huì)按照事先設(shè)置的程序自動(dòng)開(kāi)啟。徹底解放用戶(hù)的雙手,帶來(lái)前所未有的用戶(hù)體驗(yàn)。
3、為京東智能云語(yǔ)音服務(wù)平臺(tái)提供堅(jiān)實(shí)技術(shù)基礎(chǔ)。
基于叮咚(DingDong)音箱+AIUI語(yǔ)音交互的組合,京東智能推出了開(kāi)放平臺(tái)計(jì)劃,讓語(yǔ)音技術(shù)的未來(lái)想象空間進(jìn)一步擴(kuò)大,成為京東布局智能家居的一步大棋。
平臺(tái)入口將接入第三方服務(wù)平臺(tái),首批接入的合作伙伴包括:中通快遞、e袋洗、百度地圖、京東到家、JIMI機(jī)器人等。眾多合作伙伴的加入,為叮咚(DingDong)的入口布局帶來(lái)了更加豐富的應(yīng)用場(chǎng)景,不管是家政服務(wù)還是出行打車(chē),用戶(hù)都可以通過(guò)語(yǔ)音來(lái)完成。
未來(lái)通過(guò)叮咚(DingDong)與京東JIMI客服機(jī)器人的接通,用戶(hù)更可以語(yǔ)音查詢(xún)商品配送等信息。這種服務(wù)的升級(jí),使得語(yǔ)音入口不僅僅局限于智能家居,而是支撐整個(gè)家庭數(shù)據(jù)生態(tài)的建立。
二、AIUI的五大核心功能亮點(diǎn)
接著我們?cè)賮?lái)拆解解讀背后的技術(shù)因素,AIUI是在2015年12月份訊飛的年度大會(huì)上首次推出,剛剛過(guò)去的10月份雙創(chuàng)周上AIUI第一次正式面市,叮咚(DingDong)音箱成為首批搭載的產(chǎn)品。目前國(guó)內(nèi)80%以上的機(jī)器人廠商使用了訊飛的語(yǔ)音技術(shù),前沿的玩家都在用AIUI,特別是像京東將叮咚(DingDong)音箱這樣的巨頭推動(dòng)案例的加入。
AIUI最核心強(qiáng)調(diào)的是“自然語(yǔ)音交互”,具體來(lái)說(shuō)重要的是這幾方面的體現(xiàn):
第一、遠(yuǎn)場(chǎng)降噪,用語(yǔ)音同產(chǎn)品交互時(shí),不用離它那么近,以叮咚(DingDong)音箱為例,距離五米內(nèi)都能輕松把它喚醒。
實(shí)現(xiàn)這一點(diǎn),主要是運(yùn)用了回音消除技術(shù),消除量可以達(dá)到50dB。無(wú)論是穩(wěn)態(tài)的噪音抑制還是動(dòng)態(tài)噪音抑制。還有音源定位技術(shù),比如5麥克風(fēng)的方案,定位鎖定角度只有正負(fù)10度偏差。據(jù)悉,5米距離的語(yǔ)音聽(tīng)寫(xiě)識(shí)別率已經(jīng)突破90%。
第二、實(shí)現(xiàn)方言的識(shí)別,科大訊飛深耕語(yǔ)音十六年,已經(jīng)支持二十種方言的識(shí)別。
第三,全雙工。以前人與機(jī)器進(jìn)行語(yǔ)音交互時(shí),有時(shí)候并沒(méi)聽(tīng)你說(shuō),要么在做識(shí)別的動(dòng)作,要么就是在說(shuō)給你聽(tīng)。AIUI可以實(shí)現(xiàn)聽(tīng)的同時(shí)也在說(shuō),你可以隨時(shí)打斷它。
第四,糾錯(cuò)。糾錯(cuò)的功能,比如在報(bào)十幾個(gè)數(shù)字的電話號(hào)碼時(shí),可以讓機(jī)器用兩個(gè)數(shù)字換掉另外兩個(gè),訊飛花了很多時(shí)間來(lái)做類(lèi)似這樣的細(xì)節(jié)體驗(yàn)。
第五,多輪對(duì)話,就是像人和人之間的自然語(yǔ)音溝通,比如在講天氣這件事情,你提了杭州的天氣怎么樣,后面再問(wèn)深圳的、北京的,機(jī)器會(huì)知道你是在說(shuō)什么,想問(wèn)什么。
在交互體驗(yàn)進(jìn)行大幅度的提升后,AIUI還針對(duì)不同的場(chǎng)景對(duì)其能力作了區(qū)分。首先具有統(tǒng)一的接口和交互,接口上面會(huì)有麥克風(fēng)陣列、語(yǔ)音喚醒、對(duì)話識(shí)別、對(duì)話閑聊等方面,這幾方面可以做靈活的搭配,從而呈現(xiàn)出不同的人機(jī)交互解決方案。AIUI的應(yīng)用領(lǐng)域可延伸到車(chē)機(jī)、機(jī)器人、錄音轉(zhuǎn)寫(xiě)這樣的專(zhuān)業(yè)市場(chǎng)。
三、如何做到和具備智能交互
叮咚(DingDong)音箱使用過(guò)程中的幾個(gè)典型場(chǎng)景可以體現(xiàn)AIUI帶來(lái)的智能交互體驗(yàn),比如在溝通過(guò)程中,用戶(hù)的語(yǔ)言有方言口音并不用擔(dān)心,如果音箱正在播放音樂(lè)或講故事,只要呼出“叮咚(DingDong)、叮咚(DingDong)”就能直接打斷喚醒,再比如,即使相隔4~5米的范圍,叮咚(DingDong)音箱也能靈敏地感知到。
上面幾點(diǎn)是如何做到的呢?傳統(tǒng)人機(jī)交互的鏈路比較簡(jiǎn)單,中間如果有斷點(diǎn),交互過(guò)程就會(huì)中斷,從語(yǔ)音識(shí)別到語(yǔ)義理解到合成語(yǔ)音,任何一點(diǎn)的打斷都會(huì)讓語(yǔ)音交互的體驗(yàn)大打折扣,AIUI則是對(duì)這個(gè)溝通鏈條,進(jìn)行了豐富和加強(qiáng),特別是在人工智能方面。
AIUI的語(yǔ)音交互鏈條上,通過(guò)硬件、軟件的技術(shù)進(jìn)行一次大的提升。比如語(yǔ)音識(shí)別的部分,可以做定向識(shí)音;在硬件方面,四麥或多麥?zhǔn)且粋€(gè)平面就會(huì)把各個(gè)角度做劃分,如果用戶(hù)站在一個(gè)方向,麥克風(fēng)會(huì)指向這個(gè)方向做定向語(yǔ)音識(shí)音。
有了定向語(yǔ)音識(shí)音以后,后面幾個(gè)鏈路就會(huì)工作起來(lái),可以實(shí)現(xiàn)遠(yuǎn)場(chǎng)降噪,環(huán)境內(nèi)回音消除也可通過(guò)麥克風(fēng)。在語(yǔ)義理解也是這樣,在技術(shù)優(yōu)化方面完整的向前邁進(jìn)了一步。
四、結(jié)語(yǔ)
總的來(lái)看,AIUI是面向智能硬件交互方案的一個(gè)平臺(tái)級(jí)的解決方案,無(wú)論是穿戴式設(shè)備還是家用設(shè)備,到機(jī)器人、到智能家居的解決方案,AIUI都可以提供最自然的人機(jī)交互的交互方案。
很多特點(diǎn)已經(jīng)在叮咚(DingDong)音箱產(chǎn)品上得以體現(xiàn),在最近叮咚(DingDong)音箱公布語(yǔ)音交互開(kāi)放平臺(tái)時(shí),就特別提到叮咚(DingDong)音箱升級(jí)最新系統(tǒng)后,可以做到一次喚醒連續(xù)對(duì)話,正是AIUI的典型功能特色之一。
基于出色的語(yǔ)音交互技術(shù),在京東智能的平臺(tái)上,通過(guò)叮咚(DingDong)智能音箱,讓場(chǎng)景化的革命得以放大,不僅成為出色的語(yǔ)音交互助手、場(chǎng)景化的語(yǔ)音交互入口,更成為互聯(lián)網(wǎng)服務(wù)的分發(fā)平臺(tái)。
- QQ:61149512