爱情有烟火电视剧免费观看,精品午夜一区二区三区在线观看,天天做日日干,五月天午夜影院,2021国产自在自线免,国内自拍欧美,网友自拍视频在线

語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

文檔序號(hào):42198640發(fā)布日期:2025-06-17 18:12閱讀:4來(lái)源:國(guó)知局

本發(fā)明涉及人機(jī)交互,尤其涉及一種語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。


背景技術(shù):

1、語(yǔ)音交互是智能汽車中便捷的人機(jī)交互方式。當(dāng)前,用戶的提問(wèn)越來(lái)越多樣化,不再局限于簡(jiǎn)單載具控制以及導(dǎo)航功能等,例如,用戶提問(wèn)車外的車是什么品牌或車型,或者用戶提問(wèn)車外的大樓是什么;因此,除了對(duì)用戶語(yǔ)音數(shù)據(jù)進(jìn)行分析和理解以外,還需要借助車外圖像等其它模態(tài)數(shù)據(jù)進(jìn)行理解才能得到回答結(jié)果。因此,需要實(shí)現(xiàn)多模態(tài)交互。

2、目前,先獲取用戶語(yǔ)音數(shù)據(jù),再基于用戶語(yǔ)音數(shù)據(jù)確定所需采集的其它模態(tài)數(shù)據(jù),再基于用戶語(yǔ)音數(shù)據(jù)和其它模態(tài)數(shù)據(jù)共同確定回答結(jié)果,從而實(shí)現(xiàn)多模態(tài)交互。然而,現(xiàn)有技術(shù)中用于確定回答結(jié)果的其它模態(tài)數(shù)據(jù)存在滯后性,即該其它模態(tài)數(shù)據(jù)并不準(zhǔn)確,導(dǎo)致語(yǔ)音交互的準(zhǔn)確性下降,進(jìn)而影響用戶交互體驗(yàn);例如,用戶語(yǔ)音數(shù)據(jù)的轉(zhuǎn)錄文本為“剛剛路過(guò)的是什么景區(qū)”,若需要獲取的其它模態(tài)數(shù)據(jù)為車外圖像,此時(shí)采集的車外圖像是在用戶說(shuō)出完整的“剛剛路過(guò)的是什么景區(qū)”之后,且對(duì)用戶語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別和語(yǔ)音理解之后才采集得到的,因此可能采集的車外圖像已經(jīng)沒(méi)有涵蓋到景區(qū)了,導(dǎo)致無(wú)法準(zhǔn)確得到回答結(jié)果。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品,用以解決現(xiàn)有技術(shù)中語(yǔ)音交互的準(zhǔn)確性低的缺陷,實(shí)現(xiàn)高準(zhǔn)確性的多模態(tài)交互方案。

2、本發(fā)明提供一種語(yǔ)音交互方法,包括:

3、在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù);所述語(yǔ)音前端點(diǎn)表示用戶語(yǔ)音數(shù)據(jù)的起始輸入時(shí)刻,所述采集數(shù)據(jù)用于輔助理解所述用戶語(yǔ)音數(shù)據(jù)所表征的問(wèn)題;

4、基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。

5、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),包括:

6、在檢測(cè)到實(shí)時(shí)輸入的音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),從已采集數(shù)據(jù)中獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的第一采集數(shù)據(jù),和/或,控制采集裝置采集與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的第二采集數(shù)據(jù),并獲取所述第二采集數(shù)據(jù);

7、其中,在獲取得到所述第一采集數(shù)據(jù)的情況下,所述采集數(shù)據(jù)包括所述第一采集數(shù)據(jù),在獲取得到所述第二采集數(shù)據(jù)的情況下,所述采集數(shù)據(jù)包括所述第二采集數(shù)據(jù)。

8、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,包括:

9、在所述用戶語(yǔ)音數(shù)據(jù)的意圖識(shí)別結(jié)果為預(yù)設(shè)意圖識(shí)別結(jié)果的情況下,基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),綜合確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果;

10、在所述獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之后,還包括:

11、在所述用戶語(yǔ)音數(shù)據(jù)的意圖識(shí)別結(jié)果不是預(yù)設(shè)意圖識(shí)別結(jié)果的情況下,基于所述用戶語(yǔ)音數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。

12、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,在所述獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之后,還包括:

13、在基于所述用戶語(yǔ)音數(shù)據(jù)的意圖識(shí)別結(jié)果確定不需要所述采集數(shù)據(jù)的情況下,對(duì)所述采集數(shù)據(jù)進(jìn)行數(shù)據(jù)后處理;

14、其中,所述數(shù)據(jù)后處理包括以下至少一種:

15、在所述采集數(shù)據(jù)中存在需進(jìn)行數(shù)據(jù)預(yù)處理的數(shù)據(jù)的情況下,取消所述采集數(shù)據(jù)的數(shù)據(jù)預(yù)處理過(guò)程;

16、刪除所述采集數(shù)據(jù)中可刪除的數(shù)據(jù)。

17、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述語(yǔ)音交互方法應(yīng)用于汽車中的處理器;

18、在所述在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之前,還包括:

19、在處于語(yǔ)音喚醒狀態(tài),且所述汽車處于行車狀態(tài)的情況下,實(shí)時(shí)采集音頻數(shù)據(jù);

20、對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音前端點(diǎn)檢測(cè)。

21、根據(jù)本發(fā)明提供的一種語(yǔ)音交互方法,所述用戶語(yǔ)音數(shù)據(jù)是基于如下方式確定:

22、在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,將所述語(yǔ)音前端點(diǎn)作為起始采集時(shí)刻,采集輸入的語(yǔ)音數(shù)據(jù)幀,直至檢測(cè)到語(yǔ)音后端點(diǎn)停止采集;

23、基于采集的各所述語(yǔ)音數(shù)據(jù)幀,確定所述用戶語(yǔ)音數(shù)據(jù);

24、其中,所述語(yǔ)音后端點(diǎn)表示所述用戶語(yǔ)音數(shù)據(jù)的終止輸入時(shí)刻。

25、本發(fā)明還提供一種語(yǔ)音交互裝置,包括:

26、數(shù)據(jù)獲取模塊,用于在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù);所述語(yǔ)音前端點(diǎn)表示用戶語(yǔ)音數(shù)據(jù)的起始輸入時(shí)刻,所述采集數(shù)據(jù)用于輔助理解所述用戶語(yǔ)音數(shù)據(jù)所表征的問(wèn)題;

27、回答確定模塊,用于基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。

28、本發(fā)明還提供一種可移動(dòng)裝置,包括:

29、音頻采集裝置,所述音頻采集裝置用于采集音頻數(shù)據(jù);

30、處理器,所述處理器用于執(zhí)行如上述任一種所述語(yǔ)音交互方法。

31、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音交互方法。

32、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音交互方法。

33、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音交互方法。

34、本發(fā)明提供的語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品,在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),且語(yǔ)音前端點(diǎn)表示用戶語(yǔ)音數(shù)據(jù)的起始輸入時(shí)刻,從而確保在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),就馬上獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),從而避免采集數(shù)據(jù)產(chǎn)生滯后,確?;谟脩粽Z(yǔ)音數(shù)據(jù)和實(shí)時(shí)的采集數(shù)據(jù),準(zhǔn)確確定用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,從而提高語(yǔ)音交互的準(zhǔn)確性,進(jìn)而提升用戶交互體驗(yàn);且在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),就獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),從而及時(shí)準(zhǔn)備好采集數(shù)據(jù),以供后續(xù)基于采集數(shù)據(jù)及時(shí)確定回答結(jié)果,從而提升語(yǔ)音交互的響應(yīng)速度;同時(shí),采集數(shù)據(jù)用于輔助理解用戶語(yǔ)音數(shù)據(jù)所表征的問(wèn)題,因此基于用戶語(yǔ)音數(shù)據(jù)和采集數(shù)據(jù),可以更為準(zhǔn)確地確定用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。綜上,本發(fā)明可以及時(shí)準(zhǔn)確地輸出用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,從而實(shí)現(xiàn)高準(zhǔn)確性的多模態(tài)交互方案。



技術(shù)特征:

1.一種語(yǔ)音交互方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法,其特征在于,所述在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),包括:

3.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法,其特征在于,所述基于所述用戶語(yǔ)音數(shù)據(jù)和所述采集數(shù)據(jù),確定所述用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果,包括:

4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的語(yǔ)音交互方法,其特征在于,在所述獲取與所述語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù)之后,還包括:

5.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的語(yǔ)音交互方法,其特征在于,所述語(yǔ)音交互方法應(yīng)用于汽車中的處理器;

6.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的語(yǔ)音交互方法,其特征在于,所述用戶語(yǔ)音數(shù)據(jù)是基于如下方式確定:

7.一種語(yǔ)音交互裝置,其特征在于,包括:

8.一種可移動(dòng)裝置,其特征在于,包括:

9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音交互方法。

10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音交互方法。

11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音交互方法。


技術(shù)總結(jié)
本發(fā)明提供一種語(yǔ)音交互方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品,涉及人機(jī)交互技術(shù)領(lǐng)域。該方法包括:在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的情況下,獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù);語(yǔ)音前端點(diǎn)表示用戶語(yǔ)音數(shù)據(jù)的起始輸入時(shí)刻,采集數(shù)據(jù)用于輔助理解用戶語(yǔ)音數(shù)據(jù)所表征的問(wèn)題;基于用戶語(yǔ)音數(shù)據(jù)和采集數(shù)據(jù),確定用戶語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的回答結(jié)果。本發(fā)明可以確保在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),就馬上獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),從而避免采集數(shù)據(jù)產(chǎn)生滯后,進(jìn)而提高語(yǔ)音交互的準(zhǔn)確性;且在檢測(cè)到音頻數(shù)據(jù)的語(yǔ)音前端點(diǎn)的同時(shí),就獲取與語(yǔ)音前端點(diǎn)時(shí)間戳一致的采集數(shù)據(jù),從而及時(shí)準(zhǔn)備好采集數(shù)據(jù),進(jìn)而提升語(yǔ)音交互的響應(yīng)速度。

技術(shù)研發(fā)人員:肖建輝,劉俊峰,雷琴輝
受保護(hù)的技術(shù)使用者:科大訊飛股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/16
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1