導(dǎo)讀:在最近的一篇博客中,谷歌宣布他們已經(jīng)開源了他們的揚聲器Diarization技術(shù),該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個參與者的音頻流劃分為每個參與者的同質(zhì)段來實現(xiàn)這一點。
在最近的一篇博客中,谷歌宣布他們已經(jīng)開源了他們的揚聲器Diarization技術(shù),該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個參與者的音頻流劃分為每個參與者的同質(zhì)段來實現(xiàn)這一點。
將語音劃分成同質(zhì)段有許多應(yīng)用。谷歌的研究科學(xué)家Chong Wang解釋說:
通過解決“誰說了什么時候”的問題,說話人二值化在許多重要場景中都有應(yīng)用,如理解醫(yī)療對話、視頻字幕等。
能夠準(zhǔn)確地分割會話可以提高在線和離線Diarization系統(tǒng)的質(zhì)量。這種好處在醫(yī)療保健行業(yè)有很多實際的好處,正如最近的年報家庭醫(yī)學(xué)雜志報道的那樣:
醫(yī)生通常在11個小時的工作日里花6個小時在電子健康檔案(EHR)上。因此,一項研究發(fā)現(xiàn),接受調(diào)查的醫(yī)生中,超過一半的人報告至少有一種倦怠癥狀。
使用監(jiān)督學(xué)習(xí)方法來訓(xùn)練語音聽寫系統(tǒng)在歷史上一直具有挑戰(zhàn)性,Wang解釋了原因:
使用監(jiān)督學(xué)習(xí)方法對這些系統(tǒng)進(jìn)行訓(xùn)練是具有挑戰(zhàn)性的——與標(biāo)準(zhǔn)的監(jiān)督分類任務(wù)不同,穩(wěn)健的Diarization模型需要將新個體與未參與訓(xùn)練的不同語音片段關(guān)聯(lián)起來。重要的是,這限制了在線和離線Diarization系統(tǒng)的質(zhì)量。
在流媒體音頻輸入上使用在線揚聲器Diarization,可以檢測不同揚聲器,如下圖所示,在底部軸上用不同顏色表示不同的揚聲器。
谷歌開發(fā)了一篇名為《Fully Supervised Speaker Diarization》的研究論文,他們引入了一種新的模型,這種模型比傳統(tǒng)方法更有效地使用監(jiān)督揚聲器標(biāo)簽。在這個模型中,會進(jìn)行一個評估,確定參與會話的說話者的數(shù)量,從而增加標(biāo)記數(shù)據(jù)的數(shù)量。
作為NIST SRE 2000 CALLHOME基準(zhǔn)測試的一部分,谷歌的技術(shù)實現(xiàn)了低至7.6%的Diarization錯誤率,其中Diarization錯誤率被定義為“被Diarization輸出錯誤標(biāo)記的輸入信號的百分比”。最近的結(jié)果是對基于聚類的方法獲得的8.8%的Diarization錯誤率和使用深度神經(jīng)網(wǎng)絡(luò)嵌入方法獲得的9.9%Diarization錯誤率進(jìn)行了改進(jìn)。
現(xiàn)代揚聲器Diarization系統(tǒng)通常利用聚類算法,如k均值或光譜聚類。Wang解釋了使用這些方法的一些缺點:
由于這些聚類方法是非監(jiān)督的,不能很好地利用數(shù)據(jù)中可用的監(jiān)督說話人標(biāo)簽。此外,在線聚類算法通常在流媒體音頻輸入的實時Diarization應(yīng)用中質(zhì)量較差。該模型與常用聚類算法的關(guān)鍵區(qū)別在于,該方法采用參數(shù)共享遞歸神經(jīng)網(wǎng)絡(luò)(RNN)對所有說話人的嵌入進(jìn)行建模,并利用在時域內(nèi)交叉的不同RNN狀態(tài),對不同的說話人進(jìn)行區(qū)分。
為了說明這個模型是如何工作的,考慮4個不同的揚聲器(該模型可以支持未知數(shù)量的揚聲器),每個揚聲器都用自己的顏色(藍(lán)色、黃色、粉色和綠色)表示。每個揚聲器都有自己的RNN實例,其中初始狀態(tài)在所有揚聲器之間共享。一個演講者將繼續(xù)更新他們的RNN,直到另一個演講者開始講話。例如,藍(lán)色的音箱可以開始對話,直到它轉(zhuǎn)換到黃色音箱為止。在這兩個時間段內(nèi),每個發(fā)言者在發(fā)言時都會更新他們的RNN。當(dāng)對話從一個發(fā)言者轉(zhuǎn)換到另一個發(fā)言者時,所有參與者都會出現(xiàn)這種情況。
Wang解釋了為什么使用RSS狀態(tài)很重要:
將說話人表示為RNN狀態(tài)使我們能夠使用RNN參數(shù)學(xué)習(xí)不同說話人和話語之間共享的高級知識,這保證了更多標(biāo)記數(shù)據(jù)的有用性。與此相反,常見的聚類算法幾乎總是獨立地處理單個話語,因此很難從大量標(biāo)記數(shù)據(jù)中獲益。
下一步,谷歌將繼續(xù)降低Diarization錯誤率,整合上下文信息進(jìn)行離線解碼。為了進(jìn)一步了解揚聲器Diarization技術(shù),谷歌發(fā)表了一篇論文,并在GitHub上提供了它的源代碼。