4.2.3 语调表情识别
20世纪初,有关是否能够只依赖语音信息就能识别情绪信息的问题激起了心理学家和精神病学家们的极大兴趣,特别是20世纪50年代到80年代(Scherer,Johnstone & Klasmeyer,2003)。众多研究者致力于寻找基本情绪对应的特异性语音特征(Johnstone & Scherer,2000),但研究结果却只发现了唤醒水平与语言特征存在特定的关联,语音特征和效价却并无明确的对应关系(Russell et al.,2003)。
语音测量
声带以一种准周期(quasi-periodic)的方式振动产生音素(包括元音和辅音),这种振动的基础频率称之为基频(fundamental frequency),符号表示为F0,对音高的识别具有重要作用。当前对情绪状态的识别主要关注对F0及其相关的物理参数的测量。上喉头的共鸣参数共振峰(formant)通常也是研究者对语音中的情绪信息进行测量的指标之一,快速变化的共振峰可以反映即时的情绪变化。语调表情的总体频率特征可以通过所谓的长程平均频谱(long-term average spectrum,计算整个语音片段中30秒或以上时间的平均能量)来反映,该指标十分稳定,缺点是不能像共振峰那样反映即时的短暂的语调表情。除了对频率进行测量外,对语调表情音强(intensity,对应心理量响度)的测量也得到了研究者的重视(Bachorowski & Owren,2008)。
众多的研究发现愤怒和高兴的语调表情伴随着F0增加,声音的波幅更高(Johnstone和Scherer,2000),同时也表明愤怒和高兴的语调表情在物理特征上存在很多相似之处(Scherer et al.,2003)。语调表情有一个特殊的地方,即同一种表情存在不同实例,比如愤怒,有所谓的暴怒(hot anger)和生气(cold anger),这些相同语调表情的不同实例在物理特征上也有极大的不同。
语调表情识别的行为研究与认知神经机制
大多数的研究采用扮演范式(portrayal paradigm)对语调表情进行识别研究(Scherer等,2003),该范式通常要求演员扮演或模仿各种不同情绪的说话声音(内容是固定的),然后让被试对所扮演的语调表情的类型进行判断,然后分析其识别的正确率(将判断的语调表情类型与事先要求扮演或模仿的语调表情类型进行比较)并与几率水平进行比较。部分研究还给出了判断的混淆矩阵(confusion matrices)。
研究发现人们对语调表情的识别准确率相当高。早期的一些研究发现语调表情的识别正确率能达到60%。一项对厌恶、惊讶、羞愧、感兴趣、高兴、恐惧、悲伤以及愤怒的语调表情识别的研究表明,被试识别的平均准确率可以达到65%,而另一项研究采用专业播音员模仿的恐惧、高兴、悲伤、愤怒和厌恶语调表情让不同年龄组的被试识别,结果发现他们的平均识别正确率可达56%(Scherer et al.,2003)。Schröder(2003)让被试对10种不同的语调表情进行分类,发现平均可达81%的正确率;对于厌恶,通常面部表情的识别正确率并不是特别高(虽然高于几率),但厌恶的语调表情识别正确率可以达到93%。一项元分析的结果表明,语调表情的识别正确率极大地高于几率水平(Juslin & Laukka,2003)。一般情况下,被试对演员表演出来的语调表情的识别率正确率至少在55%以上(Johnstone & Scherer,2000),当识别者使用的语言与表达语调表情的语言不同时,识别正确率也显着高于几率,不过随着两者的差别变大,识别正确率下降(Scherer,Banse & Wallbott,2001)。在所有语调表情中,对愤怒、恐惧和悲伤的识别最好。对语调表情的平均识别正确率通常比面部表情的平均识别正确率低了大约15%,因为面部表情识别中对于高兴的识别正确率几近100%,有研究对面部表情和语调表情的识别正确率做了一个对比,如下表4.2(参见Scherer等(2003))。
表4.2 西方文化与非西方文化下面部表情和语调表情识别正确率(%)对比
注释:第一列括号内为研究个数,N/A表示无相关研究。对厌恶语调表情识别的较低正确率可能是由于进化中不同表情功能的差异导致的(厌恶以面部表情形式更有利于他人识别,可以更好地传递如食物有害的信息),更详细解释可参考Johnstone和Scherer(2000)。
众多研究试图寻找语调表情识别所需利用的语音参数,如F0的均值与标准差,语音平均能量、持续时间等(Scherer et al.,2003)。但一些研究发现(Russell et al.,2003),对他人语调表情进行识别时,人们更多的是根据自身对语调表情的情感反应,对听到的语调表情的过去经历以及听到的语调表情时所处的背景来进行识别。
识别语调表情涉及哪些大脑的区域呢?早期的定位研究(Ross,1981)发现语调表情的加工脑区主要是右半球,具体为右上颞叶(right superior temporal structures),对应威尔尼克区(wernicke's area)。当前对语调表情识别神经基础的研究已不再采用定位的观点,而是研究大脑神经网络的作用(Wildgruber,Ethofer,Grandjean & Kreifelts,2009)。研究表明颞叶上部、额叶下部以及皮层下结构如杏仁核跟语调表情识别存在密切关联(Schirmer和Kotz,2006),其中颞叶的中上部皮层(mid-superior temporal cortex,m-STC)得到了众多研究的确认表明其参与了语调表情的识别(Ethofer et al.,2012),研究者们比较了各种语调表情(如笑声、哭声)和其他自然界的声音(如动物叫声、音乐、机械发出的声音)激活脑区的差异,结果都一致的发现颞叶的中上部皮层有更大的激活。颞叶的中上部皮层对语调表情的激活甚至可以在无注意的情况下发生(Ethofer et al.,2006)。与面部表情识别的特异性脑区梭状回类似,识别语调表情也存在一个特异性脑区-颞叶语音区(temporal voice areas,Belin & Grosbras,2010)。
另外,右侧大脑颞叶上后部皮层(right posterior superior temporal cortex,p-STC)、右侧下额叶皮层(right inferior frontal cortex,IFC)也涉及语调表情识别(Wildgruber et al.,2005);一些研究发现IFC跟工作记忆有关,因此有研究者假设在情感信息的编码过程中有工作记忆的参与(Mitchell,2007)。
Mitchell(2007)通过对参与识别语调表情的大脑加工节点的交互进行动态因果建模,认为语调表情信息在经过耳、脑干、丘脑及初级听皮层(A1)的加工后,进一步的信息会从右侧的上颞叶(STC,进行基本的声学特征抽取和分析)流向左右两边的下额叶皮层(识别)。
通过事件相关电位(ERP)对语调表情识别的时间进程进行研究发现,语音特征的分析在刺激呈现的100ms内即可完成(听觉ERP成分N1的峰值在60—80ms之间(Schirmer & Kotz,2006),而对表情的识别(分类)的时间相对较晚(Wambacq,Shea-Miller & Abubakr,2004)。






本书评论