英语论文网

摘　要：由于中国方言的发音不同,从而影响了作为第二语言的英语发音也出现了不同的特色,与第一语言为英语的发音口型也出现了很大的差别,在英语的普及的今天,以英文作为第二语言的人们也日益增多,因而有必要建立一个专门针对英语为第二语言的多媒体语音数据库.英语硕士论文本数据库参照AVICAR[1]的方法进行收集,介绍了数据库的特点、录音内容、存储形式,最后对该数据库进行初步辨认测试,并将测试结果与标准测试的结果进行比较.初步测试结果发现收集的数据库识别率大大降低,可见建立该数据库是很有必要的.

关键词：计算机语音识别; 隐马尔可夫模型; 高斯密度

1．引言
近年来,计算机语音识别的应用有了长足的进展,如在语音听写器中,可以用口述代替键盘,实现文字输入;在通信中的应用,手机语音拨号、股市查询、信用卡认证等问题;自然语音直接进行数据库检索,可以免除大量操作人员的重复劳动;语音命令控制,是十分理想的人机接口方式等[2].
基于英语的特殊地位,世界上对于英语作为第一语言的语音数据库的设计和制作已经很多.这些语音数据库的产生,对提高识别率起了很大的作用,但由于英语的日益普及,以英语作为第二语言的人们越来越多,如何为这一类的用户提供实现高识别率的语音识别系统,引起了许多研究人员的兴趣.因此建立一个以英语作为第二语言的语音数据库是很有必要的.
不同的国家,有不同的语言,其发音都有各自的特点,从而影响了作为第二语言的英语发音也出现了不同的特色.已经有针对韩国人收集的第二语言为英语的语音库[3],我们这里主要考虑在中国地区,设计与制作以英语作为第二语言的语音数据库.但由于中国地大物博,汉族社会在发展过程中出现过程度不同的分化和统一,因而使汉语逐渐产生了方言.各种不同的方言分布的区域很广,在语音方面尤为突出,其方言对于学习英文作为第二语言的人的语音又产生了影响,导致说不同方言的人们,说英语也带有不同的特色.考虑到语音受到方言的影响,我们的数据库主要根据方言地域的划分进行设计.
最近出现了结合人脸嘴型变化进行的语音识别的多媒体语音库,如AVICAR[1].尽管该数据库是以研究噪声鲁棒性而建立的,但由于发音时以英语为第一语言的人脸嘴型与以英语作为第二语言的人脸嘴型会很不一样.如果结合人脸嘴型的变化进行识别,会对提高语音识别率有一定帮助.因此数据库的制作时,我们把嘴型变化一并录制下来,并做一定的处理,方便进一步地研究(由于篇幅有限,后面不做详细阐述).
本文第二、三、四节介绍了本语音数据库,主要集中在其特点和具体内容上.第五节介绍了利用英语作为第一语言人的语音数据英文数字语音(DIGIT)训练的模型,对该库收集的数据进行测试,最后与测试英语作为第一语言的数据库(采用AVICAR现有的数据库)的识别率进行比较,做进一步的研究.下面详细介绍每一步的具体过程.

2．本语音数据库的特点
2.1　录音人来源
首先确定数据库中应该收集哪些样本,样本之间有些什么差异,怎么分类.我们这里的样本主要针对不同方言的地域进行分类[4],在本数据库,我们按地域划分为九种方言进行采集:
1、北京或河北一带. 2、苏南、浙江和上海. 3、广东省广州地区. 4、福州一带. 5、湖南. 6、江西. 7、山西.8、广西. 9、贵州.
录音人主要来源贵州大学非英语专业(考虑到英语专业口语中会消除地方口音,而本数据库恰恰是针对以英语作为第二语言进行采集)在校研究生或本科生.

2.2　录音人数
参与录音人数为36人,考虑到男女比例均衡,其中男性18人,女性18人.每个地域采集四个人(两男两女)的语音.计划将进一步把录音扩充至108人.

2.3　录音环境和设备
录音地点在整个录音过程中不变,位于一间隔音效果良好、面积为45m2(5* 9)的实验室内,如图1所示.考虑到晚上外界噪音较小,固定在每天晚上录音,光源点和强度都不变.每次录制时,人的位置固定不变,靠教室的左上角.摄像机的设置和位置也不改变.
录音设备采用CanonMV800i数码摄像机.音频模式设置为16bi.t一台装有视频采集卡的计算机,利用GoldWave软件,将录制的文件处理为44100Hz采样率的wav文件,同时保存视频文件.

3．本语音数据库的录音内容
本语音数据库每次录音包含个人信息、单独数字、常用简易号码、数字串和英文24个字母、五个元音、英文短句七个部分.语言为英语.单个人录音时间约为1. 5个小时.

3.1　个人信息部分
该部分内容包括录音人的姓名,性别,年龄,籍贯,英语口语水平共五项.

3.2　数字部分
该内容包括三部分:单独数字、常用简易号码、数字串.
单独数字: 0、1....... 9.其中, 0的读音区分为oh、zero,记录时用O和Z区别开.
常用简易号码:包括在中国常用的紧急号码,如110, 119, 120, 122, 10000, 12315.用O和Z分别读一次.
数字串:来源于两部分,一部分取DIGIT中包含3、4、7较多的数字串,总计110句.另一部分来源AVICAR数据库,总计200句.

3.3　英文字母及短句部分
该内容包括三部分:英文24个字母、五个元音A、E、I、O、U和英文短句.
元音部分要求每个录音者各读5遍.英语短句总计200句,来源于AVICAR数据库.这些英文短句的选取,考虑到语音音素的平衡.

4.　本语音数据库的存储形式
采用CanonMV800i摄像机进行数据采集,采集数据为16比特量化、44100HZ采样率的双声道wav文件,由于数据占用空间过大,我们将其转换成16比特、16000HZ采样率的wav文件,在其他测试实验可以将其转换成适合需要的采样率.在该实验中我们将其转换成8000HZ的采样率,由于采用训练模型的数据为单声道,进行标准测试的语音数据也为单声道,为了达到较好测试效果并进行比较,要将双声道转换成单声道.每人的语音数据分别存放在对应个人的文件夹下,再根据数据库内容分开存放.

5.　初步测试
本测试在Linux环境下,使用标准的HTK参数[5].经过数据预先处理和特征提取后,我们将给出测试的模型参数设置及结果.

5.1　模型参数设置
我们取状态数为10的隐马尔可夫模型训练方法.把模型中的高斯密度(Gauss mixture)从1增加到2后,训练8次.为了得到效果较好的模型,我们把高斯密度从2增加到4后,继续重复训练8次.最后的高斯密度取值为4.对于语音文本的特征提取,我们取的是MFCC_E_D_A_Z,由于美尔频率倒频谱系数充分考虑了人的听觉特性,而没任何前提假设,因此MFCC参数具有良好的识别性能和抗噪声能力[6].MFCC_E_D_A它是12维的美尔频率倒频谱系数和时间轴上正规化之短时能量(MFCC_E)加上前两者的一阶及二阶回归系数(MFCC_E_D_A)得到的,因此每个特征向量包含了(12+1)* 3=39个特征值[6].最后移除平均误差率得到MFCC_E_D_A_Z,因而我们可以表示:
MFCC_E_D_A_Z=MFCC(12)+Pow(1)+ΔMFCC(12)+ΔPow(1)+ΔΔMFCC(12)
+ΔΔPow(1)(CMN) 39-dimension[8]

5.2　数据测试结果
首先预处理DIGIT中TEST数据,进行测试,最后得到识别结果:
WORD: % Corr=99. 12, Acc=98. 38
其中Corr表示识别的正确率为99. 12%, Acc表示识别的精确度为98. 38%.
然后我们对初步收集了四位来自贵州同学的语音数字部分进行测试.首先对收集的语音数据进本论文由英语论文网提供整理，提供论文代写，英语论文代写，代写论文，代写英语论文，代写留学生论文，代写英文论文，留学生论文代写相关核心关键词搜索。