本發(fā)明涉及人機(jī)交互,尤其涉及一種語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、語(yǔ)音交互是智能汽車中便捷的人機(jī)交互方式。當(dāng)前,用戶的提問(wèn)越來(lái)越多樣化,不再局限于簡(jiǎn)單載具控制以及導(dǎo)航功能等,例如,用戶提問(wèn)車外的車是什么品牌或車型,或者用戶提問(wèn)車外的大樓是什么;因此,除了對(duì)用戶語(yǔ)音數(shù)據(jù)進(jìn)行分析和理解以外,還需要借助車外圖像等其它模態(tài)數(shù)據(jù)進(jìn)行理解才能得到回答結(jié)果。因此,需要實(shí)現(xiàn)多模態(tài)交互。
2、目前,先獲取用戶語(yǔ)音數(shù)據(jù),再基于用戶語(yǔ)音數(shù)據(jù)確定所需采集的其它模態(tài)數(shù)據(jù),再基于用戶語(yǔ)音數(shù)據(jù)和其它模態(tài)數(shù)據(jù)共同確定回答結(jié)果,從而實(shí)現(xiàn)多模態(tài)交互。然而,現(xiàn)有技術(shù)中用于確定回答結(jié)果的其它模態(tài)數(shù)據(jù)存在滯后性,即該其它模態(tài)數(shù)據(jù)并不準(zhǔn)確,導(dǎo)致語(yǔ)音交互的準(zhǔn)確性下降,進(jìn)而影響用戶交互體驗(yàn);例如,用戶語(yǔ)音數(shù)據(jù)的轉(zhuǎn)錄文本為“剛剛路過(guò)的是什么景區(qū)”,若需要獲取的其它模態(tài)數(shù)據(jù)為車外圖像,此時(shí)采集的車外圖像是在用戶說(shuō)出完整的“剛剛路過(guò)的是什么景區(qū)”之后,且對(duì)用戶語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別和語(yǔ)音理解之后才采集得到的,因此可能采集的車外圖像已經(jīng)沒(méi)有涵蓋到景區(qū)了,導(dǎo)致無(wú)法準(zhǔn)確得到回答結(jié)果。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品,用以解決現(xiàn)有技術(shù)中語(yǔ)音交互的準(zhǔn)確性低的缺陷,實(shí)現(xiàn)高準(zhǔn)確性的多模態(tài)交互方案。
2、本發(fā)明提供一種語(yǔ)音交互方法,包括:
3、在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù);所述語(yǔ)音前端點(diǎn)表示用戶語(yǔ)音數(shù)據(jù)的起始輸入時(shí)刻,所述采集數(shù)據(jù)用于輔助理解所述用戶語(yǔ)音數(shù)據(jù)所表征的問(wèn)題;
4、基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。
5、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),包括:
6、在檢測(cè)到實(shí)時(shí)輸入的音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),從已采集數(shù)據(jù)中獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的第一采集數(shù)據(jù),和/或,控制采集裝置采集與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的第二采集數(shù)據(jù),并獲取所述第二采集數(shù)據(jù);
7、其中,在獲取得到所述第一采集數(shù)據(jù)的情況下,所述采集數(shù)據(jù)包括所述第一采集數(shù)據(jù),在獲取得到所述第二采集數(shù)據(jù)的情況下,所述采集數(shù)據(jù)包括所述第二采集數(shù)據(jù)。
8、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,包括:
9、在所述用戶語(yǔ)音數(shù)據(jù)的意圖識(shí)別結(jié)果為預(yù)設(shè)意圖識(shí)別結(jié)果的情況下,基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),綜合確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果;
10、在所述獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之后,還包括:
11、在所述用戶語(yǔ)音數(shù)據(jù)的意圖識(shí)別結(jié)果不是預(yù)設(shè)意圖識(shí)別結(jié)果的情況下,基于所述用戶語(yǔ)音數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。
12、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,在所述獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之后,還包括:
13、在基于所述用戶語(yǔ)音數(shù)據(jù)的意圖識(shí)別結(jié)果確定不需要所述采集數(shù)據(jù)的情況下,對(duì)所述采集數(shù)據(jù)進(jìn)行數(shù)據(jù)后處理;
14、其中,所述數(shù)據(jù)后處理包括以下至少一種:
15、在所述采集數(shù)據(jù)中存在需進(jìn)行數(shù)據(jù)預(yù)處理的數(shù)據(jù)的情況下,取消所述采集數(shù)據(jù)的數(shù)據(jù)預(yù)處理過(guò)程;
16、刪除所述采集數(shù)據(jù)中可刪除的數(shù)據(jù)。
17、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述語(yǔ)音交互方法應(yīng)用于汽車中的處理器;
18、在所述在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之前,還包括:
19、在處于語(yǔ)音喚醒狀態(tài),且所述汽車處于行車狀態(tài)的情況下,實(shí)時(shí)采集音頻數(shù)據(jù);
20、對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音前端點(diǎn)檢測(cè)。
21、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述用戶語(yǔ)音數(shù)據(jù)是基于如下方式確定:
22、在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,將所述語(yǔ)音前端點(diǎn)作為起始采集時(shí)刻,采集輸入的語(yǔ)音數(shù)據(jù)幀,直至檢測(cè)到語(yǔ)音后端點(diǎn)停止采集;
23、基于采集的各所述語(yǔ)音數(shù)據(jù)幀,確定所述用戶語(yǔ)音數(shù)據(jù);
24、其中,所述語(yǔ)音后端點(diǎn)表示所述用戶語(yǔ)音數(shù)據(jù)的終止輸入時(shí)刻。
25、本發(fā)明還提供一種語(yǔ)音交互裝置,包括:
26、數(shù)據(jù)獲取模塊,用于在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù);所述語(yǔ)音前端點(diǎn)表示用戶語(yǔ)音數(shù)據(jù)的起始輸入時(shí)刻,所述采集數(shù)據(jù)用于輔助理解所述用戶語(yǔ)音數(shù)據(jù)所表征的問(wèn)題;
27、回答確定模塊,用于基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。
28、本發(fā)明還提供一種可移動(dòng)裝置,包括:
29、音頻采集裝置,所述音頻采集裝置用于采集音頻數(shù)據(jù);
30、處理器,所述處理器用于執(zhí)行如上述任一種所述語(yǔ)音交互方法。
31、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音交互方法。
32、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音交互方法。
33、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音交互方法。
34、本發(fā)明提供的語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品,在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),且語(yǔ)音前端點(diǎn)表示用戶語(yǔ)音數(shù)據(jù)的起始輸入時(shí)刻,從而確保在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),就馬上獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),從而避免采集數(shù)據(jù)產(chǎn)生滯后,確?;谟脩粽Z(yǔ)音數(shù)據(jù)和實(shí)時(shí)的采集數(shù)據(jù),準(zhǔn)確確定用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,從而提高語(yǔ)音交互的準(zhǔn)確性,進(jìn)而提升用戶交互體驗(yàn);且在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),就獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),從而及時(shí)準(zhǔn)備好采集數(shù)據(jù),以供后續(xù)基于采集數(shù)據(jù)及時(shí)確定回答結(jié)果,從而提升語(yǔ)音交互的響應(yīng)速度;同時(shí),采集數(shù)據(jù)用于輔助理解用戶語(yǔ)音數(shù)據(jù)所表征的問(wèn)題,因此基于用戶語(yǔ)音數(shù)據(jù)和采集數(shù)據(jù),可以更為準(zhǔn)確地確定用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。綜上,本發(fā)明可以及時(shí)準(zhǔn)確地輸出用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,從而實(shí)現(xiàn)高準(zhǔn)確性的多模態(tài)交互方案。
1.一種語(yǔ)音交互方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法,其特征在于,所述在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),包括:
3.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法,其特征在于,所述基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,包括:
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的語(yǔ)音交互方法,其特征在于,在所述獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之后,還包括:
5.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的語(yǔ)音交互方法,其特征在于,所述語(yǔ)音交互方法應(yīng)用于汽車中的處理器;
6.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的語(yǔ)音交互方法,其特征在于,所述用戶語(yǔ)音數(shù)據(jù)是基于如下方式確定:
7.一種語(yǔ)音交互裝置,其特征在于,包括:
8.一種可移動(dòng)裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音交互方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音交互方法。
11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音交互方法。