聲紋識(shí)別可以說有兩個(gè)關(guān)鍵問題,一是特征提取,二是模式匹配(模式識(shí)別)。
特征提取的任務(wù)是提取并選擇對(duì)說話人的聲紋具有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語(yǔ)言特征。與語(yǔ)音識(shí)別不同,聲紋識(shí)別的特征必須是“個(gè)性化”特征,而說話人識(shí)別的特征對(duì)說話人來講必須是“共性特征”。雖然目前大部分聲紋識(shí)別系統(tǒng)用的都是聲學(xué)層面的特征,但是表征一個(gè)人特點(diǎn)的特征應(yīng)該是多層面的,包括:
(1)與人類的發(fā)音機(jī)制的解剖學(xué)結(jié)構(gòu)有關(guān)的聲學(xué)特征(如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;
(2)受社會(huì)經(jīng)濟(jì)狀況、受教育水平、出生地等影響的語(yǔ)義、修辭、發(fā)音、言語(yǔ)習(xí)慣等;
(3)個(gè)人特點(diǎn)或受父母影響的韻律、節(jié)奏、速度、語(yǔ)調(diào)、音量等特征。從利用數(shù)學(xué)方法可以建模的角度出發(fā),聲紋自動(dòng)識(shí)別模型目前可以使用的特征包括:聲學(xué)特征(倒頻譜);詞法特征(說話人相關(guān)的詞n-gram,音素n-gram);韻律特征(利用n-gram描述的基音和能量“姿勢(shì)”);語(yǔ)種、方言和口音信息;通道信息(使用何種通道)等等。
根據(jù)不同的任務(wù)需求,聲紋識(shí)別還面臨一個(gè)特征選擇或特征選用的問題。例如,對(duì)“信道”信息,在刑偵應(yīng)用上,希望不用,也就是說希望弱化信道對(duì)說話人識(shí)別的影響,因?yàn)槲覀兿M还苷f話人用什么信道系統(tǒng)它都可以辨認(rèn)出來。總之,較好的特征,應(yīng)該能夠有效地區(qū)分不同的說話人,但又能在同一說話人語(yǔ)音發(fā)生變化時(shí)保持相對(duì)的穩(wěn)定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能。
對(duì)于模式識(shí)別,有以下幾大類方法:
(1)模板匹配方法:利用動(dòng)態(tài)時(shí)間彎折以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列,主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));
(2)最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大;
(3)神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)等,可以顯式訓(xùn)練以區(qū)分說話人和其背景說話人,其訓(xùn)練量很大,導(dǎo)致實(shí)用性不高;
(4)隱式馬爾可夫模型方法:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
(5)聚類方法:效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來更可以收到更好的效果;
(6)多項(xiàng)式分類器方法:有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大。
聲紋識(shí)別需要解決的關(guān)鍵問題還有很多,諸如:短話音問題,能否用很短的語(yǔ)音進(jìn)行模型訓(xùn)練,而且用很短的時(shí)間進(jìn)行識(shí)別模式識(shí)別原理與應(yīng)用課后答案李弼程,這主要是聲音不易獲取的應(yīng)用所需求的;聲音模仿(或放錄音)問題模式識(shí)別原理與應(yīng)用課后答案李弼程,要有效地區(qū)分開模仿聲音(錄音)和真正的聲音;多說話人情況下目標(biāo)說話人的有效檢出;消除或減弱聲音變化(不同語(yǔ)言、內(nèi)容、方式、身體狀況、時(shí)間、年齡等)帶來的影響;消除信道差異和背景噪音帶來的影響,此時(shí)需要用到其他一些技術(shù)來輔助完成,如去噪、自適應(yīng)等技術(shù)。
表征說話人確認(rèn)系統(tǒng)性能的兩個(gè)重要參數(shù)是錯(cuò)誤拒絕率(FRR)和錯(cuò)誤接受率(FAR),前者是拒絕真正說話人而造成的錯(cuò)誤,后者是接受集外說話人而造成的錯(cuò)誤,二者與閾值的設(shè)定相關(guān),兩者相等的值稱為等錯(cuò)率(EER)。在現(xiàn)有的技術(shù)水平下,兩者無法同時(shí)達(dá)到最小,需要調(diào)整閾值來滿足不同應(yīng)用的需求,比如在需要“易用性”的情況下,可以讓錯(cuò)誤拒絕率低一些,此時(shí)錯(cuò)誤接受率會(huì)增加,從而安全性降低;在對(duì)“安全性”要求高的情況下,可以讓錯(cuò)誤接受率低一些,此時(shí)錯(cuò)誤拒絕率會(huì)增加,從而易用性降低。系統(tǒng)將允許對(duì)閾值的調(diào)整。