查找:                      转第 显示法宝之窗 隐藏相关资料 下载下载 收藏收藏 打印打印 转发转发 小字 小字 大字 大字
【期刊名称】 《中国刑警学院学报》
擦音LPC倒谱特征在法庭说话人识别中的应用
【作者】 张翠玲丁盼
【作者单位】 西南政法大学刑事侦查学院{教授,博士}重庆高校刑事科学技术重点实验室西南政法大学刑事侦查学院{教授,博士}重庆高校刑事科学技术重点实验室
【分类】 司法鉴定学【中文关键词】 擦音;LPC倒谱;似然比;法庭说话人识别
【文章编码】 2095-7939(2019)05-0117-05
【文献标识码】 A DOI: 10.14060/j.issn.2095-7939.2019.05.016
【期刊年份】 2019年【期号】 5
【页码】 117
【摘要】

为了探究擦音在法庭说话人识别中的应用价值,以汉语普通话擦音/s/为代表,对其LPC倒谱特征的说话人识别性能进行了分析测试。基于90位成年男性的两次非同时语音样本数据库,采用似然比框架的法庭证据强度评估方法,对/s/的LPC倒谱特征在不同语音信号频率范围和不同数据库规模条件下进行了说话人识别性能的测试评价。研究结果表明,擦音的LPC倒谱特征具有一定的话者区分价值,但是作为单一识别参数使用价值有限,应该与其他参数特征结合使用,以提高法庭说话人识别的准确性和可靠性。

【全文】法宝引证码CLI.A.1281980    
  
  

1引言

近年来,随着科学技术的不断发展,法庭对科学证据的准确性、可靠性的要求不断提高,法庭证据评估方法体系也在不断发展完善,基于似然比框架的参数性能测试和证据价值评估逐渐得到认可和重视{1-3}。在司法语音领域,基于似然比方法的法庭说话人识别不仅更符合法庭逻辑推理,而且可以量化评估证据价值、量化评估方法系统的准确性和可靠性,加之程序更加客观、透明,因此已经成为当前研究的热点和未来的发展方向。

在法庭说话人识别实践中,不管是基于听觉——声学语音学方法,还是基于半自动和全自动方法,都需要对提取的语音特征进行量化分析和比较鉴别。特征的选取和特征价值的高低直接影响说话人识别的效果,因此寻找个体区分效果较好的语音特征参数,比较评估参数特征的价值一直是法庭说话人识别领域关注的重点问题。基于听觉——声学语音学方法的研究侧重的参数特征往往是元音和浊辅音的共振峰频率,基于半自动和全自动方法的研究侧重参数特征一般是梅尔频率倒谱系数(MFCC){4-5}。对于线性预测倒谱特征(LPCC)则较少在法庭语音比对中应用。

国内外学者基于似然比方法对语音的LPC倒谱特征进行了初步研究。Rose基于297名男性的日语语音数据库对5个元音的LPC倒谱特征进行了研究,特征融合后取得了较好的效果{6};王华朋基于45名男性汉语普通话语音数据库,对单元音/a/的LPC倒谱特征进行了测试,发现自动提取特征比人工提取的共振峰特征更具优势{7}。对于浊辅音的研究,主要集中在鼻音上,因为鼻音作为一种声源特征具有较好的个体特异性{8}。而Alex等对日语和粤语的研究表明,利用鼻音LPC特征进行说话人识别时,两种语言间差异不大,而且鼻音并不比其他种类音段具有明显的优势{9}。相对而言,对于清辅音的LPC倒谱特征研究相对较少。Rose对舌面清擦音的研究表明,清辅音的LPC倒谱具有潜在的话者区分价值{10}。

相较于元音和浊辅音,清辅音的时长较短,声学特征也略为复杂,不易提取。为了探究汉语清辅音的个体特性及其应用价值,本文以时长相对较长的擦音/s/为代表,分析提取其LPC倒谱特征,并采用似然比框架量化评价其在法庭说话人识别中的作用和表现。

2似然比框架

似然比框架是一种基于贝叶斯统计推理的量化评估证据强度的逻辑体系{11}。似然比是两种竞争假设条件下观察到的证据特征的概率之比。在法庭说话人识别领域,似然比方法通常用于推测未知语音检材与已知语音样本的同源性,通过计算检材语音与样本语音同源假设条件下观察到的检材语音声学特征,与检材语音和样本语音同源假设条件下观察到的检材语音声学特征的概率比值,来量化评估证据对两种假设的支持力度。似然比LR的表达式为:

(公式略)(1)

式中,HSS代表同源假设,即假设检材与样本同源;HDS代表不同源假设,即检材与样本不同源;P代表概率,E代表证据,即检材的声学特征。LR值大于1,表明证据支持同源假设;LR值小于1,表明证据支持非同源假设;LR的值与1的相对距离越远,证据的强度就越大,证据所包含的信息就越有效{12}。

3材料和方法

3.1语音数据

本文使用的是来自90位成年男性电话语音数据库。该数据库包含两次非同期录音,第一次与第二次的录音时间相隔在两周以上。录音时,两位发音人分别位于不同的录音室,各自佩戴一领夹式麦克(森海塞尔Sennheiser MKE 2 P-C),然后通过固定电话进行通话。两个麦克分别与外置声卡(Roland UA-25EX)和计算机相连,通过软件Cooledit Pro 2.1录音。录音被储存为16位的PCM格式,采样频率为44.1kHz。发音人为东北地区大学生,年龄在18~23岁之间,普通话较好。两次录音均为汉语普通话,交流内容是核对产品报价单的信息。两份传真件内容相同,只是部分内容模糊,两位发音人的任务就是通过电话交流对产品报价单的模糊部分进行信息核对。关于数据库采集的细节,参见文献{13}。

3.2语音标注

数据库共包含90人的180段录音,第一次和录音中每个人的纯语音长度平均约为230s,第二次录音中每个人的纯语音长度平均约为150s。使用软件Praat语音软件(version 6.0.18)对每段录音中的擦音/s/进行人工手动标注。图1为0~8kHz频带范围内擦音/s/的宽带语音图谱。北京大学互联网法律中心

(图略)

图1普通话发音/si/的宽带语音图谱

标注的/s/大多来自“si”“san”“se”“su”等音节。作为舌尖前音,/s/在发音时极易受到后面音节的影响,因此我们仅选择其稳定段进行标注。180段语音中共标注出3975个/s/音段,其中第一次发音标注语音段2160个,每人平均24个;第二次发音标注语音段1815个,每人平均20个。

3.3 LPC倒谱特征提取

将标注的全部擦音/s/进行切分后,提取其LPC倒谱特征。线性预测的思想是语音中的每个采样值可以通过几个过去时间采样值的线性组合来逼近。因此,通过利用语音信号中相邻的采样值之间存在相关性的特点,使实际语音抽样与线性预测抽样值之间的误差在某个准则下达到最小值,可以得到反映语音信号特征的预测系数{14}。线性预测的计算公式如下:

(公式略)(2)式中,p是预测器的阶数,u(n)是激励序列,G是u(n)的增益。线性预测分析用来确定预测系数{a(k)|k=1, …, p},经过自相关及LPC分析后,使用Levinson-Durbin递推算法解出LPC系数。一般来讲,使用8~12阶的LPC预测器就能较好地捕捉语音特征,参考Rose案件报告中的参数选择{15},本实验中我们选取的是8阶。

LPC倒谱特征是线性预测系数在倒谱域的表示,在线性预测系数基础上求倒谱,就得到LPC倒谱系数。它能较彻底地去除语音信号产生过程的激励信息,并反映声道的模型特征,只需十几个倒谱系数就可以较好地描述语音的共振峰特性{16}。此外,LPC倒谱特征的模型参数相对简单,计算量小,具有较好优势。

3.4似然比计算及系统评价

首先将同一人前后两次录音中擦音/s/的LPC倒谱特征参数进行比较,这样就产生了90个同一话者自身的比较对。其次,就不同说话人之间,将每一位说话人的擦音/s/的LPC倒谱特征参数与其他所有人依次进行两两比较,即全交叉验证比较,这样就产生了90*(90-1)/2=4005个不同话者之间的比较对。

似然比计算采用的是多变量核密度似然比(MVLR)计算公式{17-18}。得到每次比较的LR值及其概率累计分布后,识别测试的结果通过Tippett图(见图2)、等误率(EER)、对数似然比代价函数(Cllr)进行评价。在Tippett图中,横轴是以10为底的对数似然比(log10LR),纵轴是同一话者和不同话者比较所占的比例,即概率累计分布。向右的曲线代表同一话者的比较,向左的曲线代表不同话者的比较。两线交叉点对应的概率代表等误率。两条曲线分得越开,交叉点越低,识别的效果越好。



  ······

法宝用户,请登录后查看全部内容。
还不是用户?点击单篇购买;单位用户可在线填写“申请试用表”申请试用或直接致电400-810-8266成为法宝付费用户。
【注释】                                                                                                     
【参考文献】

{1}张翠玲,Morrison G S, Enzinger E.法庭说话人识别新范式实证研究[J].中国人民公安大学学报(自然科学版), 2018(3):34-41.

{2}Willis S M, Kenna L M, Dermott S M, et al. ENFSI Guideline for Evaluative Reporting in Forensic Science[R/OL].(2016-09-27)[2019-02-20].http://enfsi.eu/wp-content/uploads/2016/09/m1_ guideline.pdf.

{3}Drygajlo A, Jessen M, Gfroere S, et al. Methodological guidelines for best practice in forensic semiautomatic and automatic speaker recognition[R/OL].(2016-09-27)[2019-02-21].http://enfsi.eu/wp-content/uploads/2016/09/guidelines_fasr_and_fsasr_0.pdf.

{4}Davis S, Mermelste in P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. IEEE Transactions on Acoustics Speech and Signal processing, 1980(4):357-366.

{5}王华朋,杨洪臣.声纹识别特征MFCC的提取方法研究[J].中国人民公安大学学报(自然科学版), 2008(1):28-30.

{6}Rose P. Forensic voice Comparison with Japanese Vowels Accoustics-a likelihood ration-based approach using segmental cepstra[C]//Lee W S, Zee E. Proceedings of the 17th International Congress of Phonetic Sciences. HongKong: City University of Hong Kong, 2011:1718-1721.

{7}王华朋,杨军,许勇.似然比在法庭说话人确认中的应用[J].证据科学,2012(1):109-111.

{8}Enzinger E, Zhang C. Nasal spectra for forensic voice comparison[J]. Journal of the Acoustical Society of America, 2011(4):2519.感觉黑人都特别团结

{9}Yim A C S, Rose P. Are Nasals Better? Likelihood Ratio based Forensic Voice Comparison with Segmental Cepntra from Cantonese and Japanese Syllabic/Mora Nasals[C]//Cox F, Demuth K, Lin S, etal. Proceedings of the 14th Australasian International Conference on Speech Science and Technology. Canberra: Australasian Speech Science and Technology Association, 2012:5-8.

{10}Rose P. Forensic voice comparison with secular shibboleths-A hybrid fused gmm-multivariate likelihood ratio-based approach using alveolo-palatal fricative cepstral spectra[C]//The Institute of Electrical and Electronics Engineers Signal Processing Society. Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Prague: Institute of Electrical and Electronics Engineers, 2011:5900-5903.

{11}张翠玲,谭铁君.基于贝叶斯统计推理的法庭证据评价[J].刑事技术,2018(4):265-271.

{12}Rose P. Technical forensic speaker recognition: Evaluation, types and testing of evidence[J]. Computer Speech and Language, 2006(2/3):159-191.

{13}张翠玲,Morrison G S.法庭说话人识别语音数据库的构建[J].中国刑警学院学报,2016(4):61-64.

{14}赵力.语音信号处理[M].北京:机械工业出版社,2011:72-74.

{15}Rose P. Report in a real Forensic Voice Comparison case involving the (non-terroist) blowing up of a car[R/OL].(201703-20)[2019-02-28].http://philjohnrose.net/pubs/FVC_pubs/Rose_papers_on_FVC/2017_Car-bombing_report_anon.pdf.

{16}唐晓进.基于LPC倒谱的语音特征参数提取[J].山西电子技术,2012(6):15-16.

{17}Aitken C G G, Lucy D. Evaluation of trace evidence in the form of multivariate data[J]. Journal of the Royal Statistical Society, 2010(1):109-122.

{18}张翠玲.法庭语音技术研究[M].北京:中国社会出版社,2009:374-375.

{19}Brümmer N, Preez J D. Application-independent evaluation of speaker detection[J]. Computer Speech and Language, 2006(2/3):230-275.

{20}Clermont F, Kinoshita Y, Osanai T. Sub-band cepstral variability within and between speakers under microphone and mobile conditions: A preliminary investigation[C]//Carignan C, Tyler M D. Proceedings of the 16th Australasian International Conference on Speech Science &Technology. Parramatta: Australasian Speech Science and Technology Association, 2016:317-320.

©北大法宝:(www.pkulaw.cn)专业提供法律信息、法学知识和法律软件领域各类解决方案。北大法宝为您提供丰富的参考资料,正式引用法规条文时请与标准文本核对
欢迎查看所有产品和服务。法宝快讯:如何快速找到您需要的检索结果?    法宝V5有何新特色?
扫码阅读
本篇【法宝引证码CLI.A.1281980      关注法宝动态:  

法宝联想
【相似文献】

热门视频更多