新聞動態
十年積累,深受各行各業客戶的信賴

能語音質檢的語音識別主要包括哪幾個流程

發布日期:
2022-05-24

瀏覽次數:

語音識別的一般過程,其主要目的就是把出人類所說的語音轉化為文本信息使機器理解和識別其中意義并做出回應。語音識別的發展并非是一朝一夕,而是循序漸進,目前已經有較完備的模式和較好的發音效果,智能語音質檢的語音識別主要包括以下幾個流程:

智能語音質檢.png

1、數字化

隨著技術的發展也出現了更高質量的基于拼接思想的方法,即預先錄制收集大量的語音段,語音信號是一個連續的模擬信號,需要經過預濾波去除干擾,然后通過ADC轉化成離散數字信號,并且采用PCM進行脈沖編碼。把一段沒有經過訓練的語音信號的特征序列與參考模型的特征參數進行模式匹配,得到識別結果的文本信息。

2、預處理

獲得數字語音信號后,可以通過預加重提高高頻特性,然后使用加窗和分幀技術獲得語音幀,便于后續進行短時分析,這步一般還會使用端點檢測從原始語音信號中獲得含有有效語音信息的部分,這樣可以進一步排除噪聲干擾,提高語音識別效果。

3、特征提取

語音特征可以反映語音變化的規律,目前主流的特征有LPCC和MFCC;語音特征矢量序列通過聲學模型和語言模型可以轉化為字符序列,聲學模型是通過聲學、語音學這些知識把語音特征映射為音素單元,語言模型就是通過語言學等知識把字詞單元拼接為完整的、有意義的且符合說話者表達含義的句子,通過模型訓練可以得到一個參考模型。

智能語音質檢中語音喚醒是基于語音識別的一個應用,其目的是提高語音交互的效率,降低功耗,其原理是:首先對輸入語音進行預處理與特征提取,把語音特征與已經訓練好的關鍵詞檢測模型進行匹配,只要輸入語音存在或者只含有預設關鍵詞,就可進行語音喚醒,并根據預設指令執行相應的操作,若比配失敗則繼續進行語音監聽。