声纹鉴定能否鉴定经过变声器的声音?


最近在知乎里面老看到这个话题,小耳朵今天就顺手点进去看了,看完表示惊叹!

下面是摘取知乎日报里面收录的一个作者回答,在这里分享给大家:

问题一:声纹鉴定能否鉴定经过变声器的声音?
回答:能

本人就是从事声纹鉴定的,这项法庭科学又叫做语音同一认定、司法语音鉴定,都属于语音检验鉴定的范畴。变声器的案例我遇到过,最后给出了认定同一的鉴定结论(过程不表)。
借用我“模仿语音能否鉴定”下的答案,首先要介绍语音特殊性和语音的稳定性,(这是声纹鉴定的基本原理,各种教材上有不同风格的表述,但是说的都是一个事儿,我带学生的第一课就是让他们背下这个原理):

语音的特殊性,发音器官分为声门上系统、喉系统、声门下系统,每个人都有自己的一套发音器官,它们的形态、构造各有差别,每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性(也称语音四要素):音质、音长、音强、音高。这些物理量人各不同,因而语音在声纹图谱上呈现不同的声纹特征,根据这些声纹特征参数,我们不但可以区分语声,而且可以认定同一人的语声。

语音的稳定性。一个人的发音器官发育成熟后,其解剖结构和生理状态是稳定不变的,加之发音人的言语习惯等语音的社会心理属性,使得每个人在不同时段所说的相同文本内容的话,基本语音特征是稳定不变的。因此,你可以把人的声道看做管乐中的号,长号、短号虽然都是号,但由于声道的形状、长短不同,吹出来的音质也不同。

目前的声纹鉴定方法,简单讲分为两种:

一是目前我国司法实践中普遍应用的“人工鉴定”——专家鉴定人依靠语音学方法

二是未来发展方向的“自动鉴定”——计算机通过算法来模拟人耳对声学特征的提取、训练、对比来实现。


那么“变声器”是什么高深的玩意儿呢?变声器是通过改变输入音频的音色、音调,并将变声后的音频输出的工具(百度百科)。其实还有声音快慢,百度百科说漏了,另外声音大小就不需说了,不用变声器也能改变。那么语音四要素中的音质(就是音色)、音调(对应音高)、音强(就是声音大小)、音长(对应声音快慢)都改变了,语音的物理属性已经改变,怎么鉴定呢?


A不要把“变声器”想得那么高深

在鉴定上,“变声器”不就是个信道吗?信道的定义是信号传输的通道,我们的鉴定名叫声纹鉴定,其实分析检验的不是真正意义上人的语音,而是人的录音——语音信号,各种录音器材都可以看成信道,各种编码方式也可以看成信道,它们都对语音信号进行了改变。举个例子:对讲机、电话,都看以看成信道,你的声音经过对讲机传输,你听感上已经失真,你已经感受到了信道对语音信号的影响。目前市面上的“变声器”,无论是硬件的还是软件的,主要是改变基频,把低沉的声音(男声)变成了尖细的声音(女声、童声)。(关于改变音色这一点,一方面,音色肯定是改变了,经过了重采样及基频的改变,反映音色的共振峰特征肯定有变化。另一方面,其共振峰的变化是整体改变的,其中的相对关系可以看做不变)当然准确的讲,只是我们听感及社会认识中的所谓男声、女声、童声、老年人声。声音不是性特征,不能区分男女,只是统计学上区分。反例就是“郑海霞”这样身材高大——声带厚长(正相关)的语音,网上搜来听听,你感觉是男是女?另外,动画片中柯南用变声器神奇的将其变成毛利小五郎,现实中做不到这么精确,达不到这么好的效果,效果这么好的即时变声器,单从理论上讲,需搜集海量的毛利小五郎的声学数据才能实现。


B“变声器”改变了语音的物理属性,并非改变了所有鉴定意义上的声学特征
前文所述目前普遍采用的人工通过语音学鉴定方法,其主要的优点就在能区分出计算机难以认知的“高级声纹特征”,如:方言口音、习惯用语、赘语、言语缺陷、韵律特征。这怎么“高级”呢?我们熟人间分辨一个人的语音,首先就是通过这些特征;模仿秀模仿时也非常注重这类特征。但是计算机难以认识,称为“高级特征”。没错,人耳才是最精密的声纹鉴定仪器。而非专业人士所不熟悉的“低级声纹特征”,如:共振峰、基频,却是计算机最“熟悉”的,乃至音强、音长、VOT等都是计算机能认识的。


C“变声器”改变了语音的物理属性,在鉴定采样时也可用相同方法改变样本
不管是人工鉴定还是自动鉴定,都是通过对案件录音——“检材”与嫌疑人录音——“样本”来进行对比。变声器既然是经过一定设定改变了的“检材”,那么用相同设定来改变“样本”即可。前面已经讲过,变声器就是个广义的信道。曾经有鉴定人因为是“变声器”的案件,认为语音已经失真,必须要通过信号还原出之前的语音才进行鉴定。这种思路,先不说信道还原在当前科技下不能丝毫不变的还原,主要是没考虑过,我们鉴定所分析的录音,哪一个不是通过信道进行信号处理的结果?采样率再高、精度再细,它也是离散变化的结果,能真正和人声这样的连续信号等同吗?同样都经过信道,都受到信号处理,只是差别大小不同而在听感上表现不同。

问题二:“声波跟指纹一样,无论怎么改变都能识别”这种说法对吗?
回答:不对。

“声波”这种说法就不对,每次听到“声波”这个词我就想起蝙蝠,这是非专业人士经常使用的名词。从事“声纹鉴定”专业的人,对鉴定十分了解,对物理、信号处理有肤浅的了解,对蝙蝠等生物几乎不了解。在司法实践中,无论是法官、检察官还是公安机关的侦查员,都是以我们的专业说法为权威,至于各类法学院教授,也许有不同表述,但他们说了能算,还要法官干嘛?为了准确回答这个问题我搜了下百度,里面出现的论文不是我自己写的,就是我老师写的,就是我熟悉的同行写的,也就是说百度上这些似是而非、甚至自相矛盾的相关释义全部来自于我们这些人对同一事物的不同理解及表述。“声纹”这个名词,是在上世纪80年代这项法庭科学技术引入中国时,最早期的鉴定人对其所作定义。该称谓是将语音学鉴定方法中所使用的语音图谱比照“指纹”图谱而定,通俗易懂,并且习惯性沿用。“声纹鉴定”即是整个语音鉴定包括语音同一认定、录音的真实性检验鉴定、语音降噪及提高性噪比等鉴定项目的统称;也单独指是语音同一认定。“声纹”即是主要鉴定依据——声音图谱的简称;又是语音作为生物识别特征的通称。当前的鉴定方法已经有所发展,依靠语谱图分析声学特征的方法并不是唯一的鉴定方法,因此称作“司法语音鉴定”更准确,称作“声纹鉴定”更方便。总之,根据喜好,爱咋称咋称,但是不能称为“声波”,因为“声音波形”另有所指。

A “声波”不同于“声纹”
由于翻译与认识的不同,大概来自于这几个单词sound waves、spectrum、voice、formant、intensity,鉴定人如果讲声波,肯定是指波形图(见图1),恰恰是指intensity,在语音学方法的声纹鉴定中,不是主要特征,主要特征是formant共振峰(见图2)。



图1:波形图(这玩意儿在鉴定中没什么用,很多人却以为我们是靠着玩意儿鉴定)






图2:共振峰图(这玩意儿在鉴定中发挥最主要的作用,其他一切声纹特征几乎都能从中反映)

B “声纹”跟“指纹”哪里不同?
一提到“指纹”,教科书上是“触物留痕、终身不变”;一提到“声纹”,教科书上是“世界上没有完全相同的两片树叶”。其中的区别,不难体会。“声纹”这一项生物识别特征确实与指纹、虹膜、DNA等其他生物识别特征不同,没其他特征那么顽健。人的语音不是“一成不变”的。在声纹鉴定中由于背景噪音干扰、传输信道变化、疾病、醉酒、心理紧张、情绪变化、伪装等内外在因素的存在,使得同一人的语音在不同情况下存在差异,但这些差异并非改变了发音器官构造,我们在鉴定上称之为“非本质差异”,声纹鉴定的难点就是要区分非本质差异,而注意识别发音人的本质差异。有经验的鉴定人是不会被这些非本质差异迷惑的。这一差异称为语音的变异性,与前面所述语音的特殊性、语音的稳定性是声纹鉴定的三个主要原理之一,语音的自身变异性也是目前语音自动鉴定比不上专家鉴定的原因。

C“无论怎么改变都能识别”?
截图中的识别,又用上了识别率99%的概念,一般是指目前的自动识别技术方法,以后的发展会像指纹库、DNA库、人像库一样,建成声纹数据库。如果将变声前的语音采集到声纹库中,作为样本,再将变声后的语音作为检材,来进行比对检验(识别),通常情况是不能准确识别(鉴定)的。
法庭科学技术是最容易被人神话或贬低的技术之一。达到检验鉴定条件时,被捧得比《易经》还神;达不到检验鉴定条件时,被贬得一文不值。首先说“指纹”是“无论怎么改变都能识别”吗?经常有朋友对我说:“他摸过我的包,肯定能提取指纹呀?”或者“他强奸她,她身上肯定有指纹”,或者“他当时用那木棒打的,棒子上肯定有指纹,你们一提取不就结了”。不是说好的“触物留痕”吗?后半句也许是,“要看什么承痕客体”。能在她的皮肤上提到指纹?那一定是一枚血淋淋的指纹。而且提取的指纹就一定能认定或者否定同一吗?那也要看这枚指纹有多少特征了?这个道理,在声纹鉴定上也一样。
换个角度来说,如果案件的录音条件好,该嫌疑人的声音,虽然经过了改变(如:伪装、变声器、酒醉、感冒)等,或是经过很多年,但是都在其成年(发音器官稳定)以后,又经过恰当的采样,那么确实怎么改变都能鉴定(识别)。
补充一点:说话人自动识别技术,有两种,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者是我们所说的“声纹鉴定”,在法庭科学领域应用;而后者是我们所说的“芝麻开门”,对得上就开门,对不上就不开门,在安全防范领域应用。