爱情有烟火电视剧免费观看,精品午夜一区二区三区在线观看,天天做日日干,五月天午夜影院,2021国产自在自线免,国内自拍欧美,网友自拍视频在线

一種動態(tài)噪聲環(huán)境中的語音增強方法及系統(tǒng)與流程

文檔序號:42824383發(fā)布日期:2025-08-22 18:12閱讀:4來源:國知局

本申請涉及語音分析,具體涉及一種動態(tài)噪聲環(huán)境中的語音增強方法及系統(tǒng)。


背景技術(shù):

1、動態(tài)噪聲環(huán)境中的語音增強技術(shù)致力于從復(fù)雜聲學干擾中提取目標語音,其技術(shù)演進始終圍繞噪聲建模與信號分離兩大核心問題展開。傳統(tǒng)信號處理方法基于噪聲的統(tǒng)計特性假設(shè),例如譜減法通過估計噪聲功率譜實現(xiàn)語音增強,維納濾波基于最小均方誤差準則優(yōu)化頻域濾波系數(shù)。此類方法在穩(wěn)態(tài)噪聲場景中表現(xiàn)穩(wěn)定。而多通道信號處理技術(shù)通過空間濾波擴展了噪聲抑制的維度,典型代表如波束形成算法。該類方法利用麥克風陣列的空間響應(yīng)特性,定向增強目標聲源方向信號并抑制其他方向的干擾噪聲。深度學習的引入重構(gòu)了語音增強的技術(shù)范式。端到端模型通過數(shù)據(jù)驅(qū)動方式直接學習含噪語音至純凈語音的復(fù)雜映射關(guān)系,突破了傳統(tǒng)方法對顯式噪聲模型的依賴。卷積神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)的組合架構(gòu)能夠捕捉語音信號的時頻局部特征與長時依賴關(guān)系,顯著提升了高噪聲環(huán)境下的語音可懂度。生成對抗網(wǎng)絡(luò)進一步通過對抗訓練優(yōu)化語音重建的自然度,而輕量化模型設(shè)計(如注意力機制與動態(tài)參數(shù)調(diào)整模塊)推動了算法在終端設(shè)備的落地。

2、不過深度學習模型仍存在不足,盡管可以通過多麥克風陣列捕捉目標聲源的空間信息,但其核心缺陷在于對動態(tài)多說話人干擾的分離能力不足。在多人對話場景中,當干擾說話人與目標語音在時頻域高度重疊時,現(xiàn)有方法難以精準區(qū)分目標語音與背景噪音,這一缺陷直接制約了語音增強技術(shù)在智能會議系統(tǒng)、主持場景等多人交互場景中的實用價值。


技術(shù)實現(xiàn)思路

1、為了解決噪音與目標語音區(qū)分困難的技術(shù)問題,本申請?zhí)峁┝艘环N動態(tài)噪聲環(huán)境中的語音增強方法及系統(tǒng),所采用的技術(shù)方案具體如下:

2、本申請?zhí)岢隽艘环N動態(tài)噪聲環(huán)境中的語音增強方法及系統(tǒng),該方法包括以下步驟:

3、在固定語音頻段下采集預(yù)設(shè)時間的四通道語音信號;將距離人聲最近的通道記為主通道,其余記為次通道;

4、將采集的語音信號分幀加窗獲取語音字段,并將語音字段傅里葉變換后獲取時頻矩陣;所述時頻矩陣由若干時頻點組成;對于每個時頻點,根據(jù)其次通道與主通道的相位差和幅度比構(gòu)成特征向量;基于時頻點之間的特征向量的相似度對所有時頻點進行聚類,并根據(jù)時頻點的能量比確定獲取關(guān)鍵人聲簇;

5、在關(guān)鍵人聲簇中,基于時頻點在主通道和次通道的復(fù)數(shù)計算主通道和次通道的相關(guān)性,將三個次通道與主通道的相關(guān)性均值作為時頻點的方向一致性;根據(jù)每個時頻點與其余所有時頻點的特征相似度確定時頻點的聲紋特征一致性;將方向一致性和聲紋特征一致性加權(quán)獲取時頻點的人聲評估指標;將所有時頻點的人聲評估指標與預(yù)設(shè)閾值比較,獲取語音字段的頻域二值標簽矩陣;

6、通過頻域二值標簽矩陣與語音字段進行網(wǎng)絡(luò)訓練,將待增強的語音信息通過訓練后的網(wǎng)絡(luò)處理完成語音增強。

7、在上述方案中,本申請通過構(gòu)建聲音人聲評估指標,人聲評估指標考慮到動態(tài)噪音下的關(guān)鍵人聲可能存在干擾說話人與目標語音在時頻域高度重疊或聲源的空間分布密集,通過結(jié)合方向一致性與聲紋特征一致性對聚類后初步獲取到的關(guān)鍵人聲簇內(nèi)的時頻點進一步進行綜合評估,雙重指標評定下確認目標人聲語音,相較于現(xiàn)有深度學習模型通過多麥克風陣列進行捕捉目標聲源,本申請通過關(guān)鍵人聲的判斷,雙重指標綜合判定具有更好的抗干擾能力,解決干擾人多、噪聲干擾的分離能力不足問題。

8、在一個實施例中,所述語音頻段的范圍為20hz-10khz。

9、在一個實施例中,所述分幀加窗時用的漢明窗的大小25ms,幀移為10ms。

10、在一個實施例中,所述構(gòu)成特征向量的方法為:

11、令每個次通道的相位與主通道的差異作為兩個通道的相位差;每個次通道的幅值與主通道的幅值的差異作為兩個通道的幅度比;

12、將所有次通道與主通道的相位差和幅度比拼接為一個6維特征向量。

13、在一個實施例中,所述基于時頻點之間的特征向量的相似度對所有時頻點進行聚類,獲取關(guān)鍵人聲簇和背景噪聲簇的方法為:

14、預(yù)設(shè)聚類中心,計算每個時頻點和聚類中心的相似度,將所述時頻點分配到相似度最大的聚類中心所在的簇中,之后計算聚類簇中特征向量每個維度的均值,將每個維度的均值構(gòu)成的特征向量作為新的聚類中心;直到所有時頻點分配完成且聚類簇的聚類中心不發(fā)生變化時,停止計算;

15、將每個時頻點次通道的幅值平方與主通道幅值平方的差異均值作為每個時頻點的能量比;將一個簇內(nèi)所有時頻點的能量比的均值作為一個簇對應(yīng)的能量比;將能量比最小的簇記為關(guān)鍵人聲簇。

16、在一個實施例中,所述基于時頻點在主通道和次通道的復(fù)數(shù)計算主通道和次通道的相關(guān)性的方法為:

17、,表示主通道中時頻點的復(fù)數(shù),表示第a個次通道中時頻點的復(fù)數(shù),表示第a個次通道中時頻點的共軛復(fù)數(shù),表示主通道和第a個次通道中時頻點的方向相關(guān)性。

18、在一個實施例中,所述根據(jù)每個時頻點與其余所有時頻點的特征相似度確定時頻點的聲紋特征一致性的方法為:

19、,表示時頻點的特征向量,表示時頻點的特征向量,表示時頻點的數(shù)量,表示高斯函數(shù)的帶寬參數(shù),表示高斯函數(shù),表示歐氏距離,表示時頻點的聲紋特征一致性。

20、在一個實施例中,所述將所有時頻點的人聲評估指標與預(yù)設(shè)閾值比較,獲取語音字段的頻域二值標簽矩陣的方法為:

21、將所有關(guān)鍵人聲簇中所有時頻點的人聲評估指標通過核密度估計法獲取密度曲線,并將其最低谷點作為閾值;

22、將人聲評估指標大于閾值的時頻點作為關(guān)鍵人聲,將語音字段的關(guān)鍵人聲記為1,其余點記為0構(gòu)成頻域二值標簽矩陣。

23、在一個實施例中,所述通過頻域二值標簽矩陣與語音字段進行網(wǎng)絡(luò)訓練的方法為:

24、將語音字段的幅度譜和其對應(yīng)的頻域二值標簽矩陣輸入u-net算法進行訓練,生成預(yù)測掩碼,將預(yù)測掩碼與帶噪幅度譜逐點相乘,抑制噪聲區(qū)域;其中損失函數(shù)為diceloss;優(yōu)化器選擇adam優(yōu)化器;經(jīng)過預(yù)設(shè)次數(shù)迭代后訓練完成。

25、第二方面,本申請實施例還提供了一種動態(tài)噪聲環(huán)境中的語音增強系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任意一項所述一種動態(tài)噪聲環(huán)境中的語音增強方法的步驟。

26、本申請的有益效果為:

27、本申請通過構(gòu)建聲音人聲評估指標,人聲評估指標考慮到動態(tài)噪音下的關(guān)鍵人聲可能存在干擾說話人與目標語音在時頻域高度重疊或聲源的空間分布密集,通過結(jié)合方向一致性與聲紋特征一致性對聚類后初步獲取到的關(guān)鍵人聲簇內(nèi)的時頻點進一步進行綜合評估,雙重指標評定下確認目標人聲語音,相較于現(xiàn)有深度學習模型通過多麥克風陣列進行捕捉目標聲源,本申請通過關(guān)鍵人聲的判斷,雙重指標綜合判定具有更好的抗干擾能力,解決干擾人多、噪聲干擾的分離能力不足問題。



技術(shù)特征:

1.一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,該方法包括以下步驟:

2.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述語音頻段的范圍為20hz-10khz。

3.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述分幀加窗時用的漢明窗的大小25ms,幀移為10ms。

4.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述構(gòu)成特征向量的方法為:

5.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述基于時頻點之間的特征向量的相似度對所有時頻點進行聚類,獲取關(guān)鍵人聲簇和背景噪聲簇的方法為:

6.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述基于時頻點在主通道和次通道的復(fù)數(shù)計算主通道和次通道的相關(guān)性的方法為:

7.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述根據(jù)每個時頻點與其余所有時頻點的特征相似度確定時頻點的聲紋特征一致性的方法為:

8.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述將所有時頻點的人聲評估指標與預(yù)設(shè)閾值比較,獲取語音字段的頻域二值標簽矩陣的方法為:

9.如權(quán)利要求1所述的一種動態(tài)噪聲環(huán)境中的語音增強方法,其特征在于,所述通過頻域二值標簽矩陣與語音字段進行網(wǎng)絡(luò)訓練的方法為:

10.一種動態(tài)噪聲環(huán)境中的語音增強系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1-9任意一項所述一種動態(tài)噪聲環(huán)境中的語音增強方法的步驟。


技術(shù)總結(jié)
本申請涉及語音分析技術(shù)領(lǐng)域,具體涉及一種動態(tài)噪聲環(huán)境中的語音增強方法及系統(tǒng)。該方法包括:在固定語音頻段下采集預(yù)設(shè)時間的語音信號,并確定主通道和次通道;語音信號分幀加窗獲取語音字段,并獲取其時頻矩陣,根據(jù)每個時頻點的相位差和幅度比確定特征向量,并基于特征向量聚類獲取關(guān)鍵人聲簇;在關(guān)鍵人聲簇中,基于主通道和次通道的復(fù)數(shù)計算時頻點的方向一致性,并將每個時頻點與其余時頻點比較獲取聲紋特征一致性,基于兩者構(gòu)成人聲評估指標;并獲取頻域二值標簽矩陣;基于頻域二值標簽矩陣訓練網(wǎng)絡(luò),通過網(wǎng)絡(luò)完成語音增強。本申請解決干擾人多、噪聲干擾的分離能力不足問題。

技術(shù)研發(fā)人員:辛鑫,呂城棟
受保護的技術(shù)使用者:寧波蛙聲科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/8/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1