英语论文网

留学生硕士论文 英国论文 日语论文 澳洲论文 Turnitin剽窃检测 英语论文发表 留学中国 欧美文学特区 论文寄售中心 论文翻译中心 我要定制

Bussiness ManagementMBAstrategyHuman ResourceMarketingHospitalityE-commerceInternational Tradingproject managementmedia managementLogisticsFinanceAccountingadvertisingLawBusiness LawEducationEconomicsBusiness Reportbusiness planresearch proposal

英语论文题目英语教学英语论文商务英语英语论文格式商务英语翻译广告英语商务英语商务英语教学英语翻译论文英美文学英语语言学文化交流中西方文化差异英语论文范文英语论文开题报告初中英语教学英语论文文献综述英语论文参考文献

ResumeRecommendation LetterMotivation LetterPSapplication letterMBA essayBusiness Letteradmission letter Offer letter

澳大利亚论文英国论文加拿大论文芬兰论文瑞典论文澳洲论文新西兰论文法国论文香港论文挪威论文美国论文泰国论文马来西亚论文台湾论文新加坡论文荷兰论文南非论文西班牙论文爱尔兰论文

小学英语教学初中英语教学英语语法高中英语教学大学英语教学听力口语英语阅读英语词汇学英语素质教育英语教育毕业英语教学法

英语论文开题报告英语毕业论文写作指导英语论文写作笔记handbook英语论文提纲英语论文参考文献英语论文文献综述Research Proposal代写留学论文代写留学作业代写Essay论文英语摘要英语论文任务书英语论文格式专业名词turnitin抄袭检查

temcet听力雅思考试托福考试GMATGRE职称英语理工卫生职称英语综合职称英语职称英语

经贸英语论文题目旅游英语论文题目大学英语论文题目中学英语论文题目小学英语论文题目英语文学论文题目英语教学论文题目英语语言学论文题目委婉语论文题目商务英语论文题目最新英语论文题目英语翻译论文题目英语跨文化论文题目

日本文学日本语言学商务日语日本历史日本经济怎样写日语论文日语论文写作格式日语教学日本社会文化日语开题报告日语论文选题

职称英语理工完形填空历年试题模拟试题补全短文概括大意词汇指导阅读理解例题习题卫生职称英语词汇指导完形填空概括大意历年试题阅读理解补全短文模拟试题例题习题综合职称英语完形填空历年试题模拟试题例题习题词汇指导阅读理解补全短文概括大意

商务英语翻译论文广告英语商务英语商务英语教学

无忧论文网

联系方式

英语论文网:《多媒体语音数据库的特点及录音内容》

论文作者:英语论文网论文属性:职称论文 Scholarship Papers登出时间:2011-11-18编辑:sally点击率:2793

论文字数:3210论文编号:org201111182047487152语种:中文 Chinese地区:中国价格:免费论文

关键词:计算机语音识别隐马尔可夫模型高斯密度

摘要:英语论文网:英语论文范文:本文探讨了多媒体语音数据库的特点及录音内容。

英语论文网:《多媒体语音数据库的特点及录音内容》

摘 要:由于中国方言的发音不同,从而影响了作为第二语言的英语发音也出现了不同的特色,与第一语言为英语的发音口型也出现了很大的差别,在英语的普及的今天,以英文作为第二语言的人们也日益增多,因而有必要建立一个专门针对英语为第二语言的多媒体语音数据库.英语硕士论文本数据库参照AVICAR[1]的方法进行收集,介绍了数据库的特点、录音内容、存储形式,最后对该数据库进行初步辨认测试,并将测试结果与标准测试的结果进行比较.初步测试结果发现收集的数据库识别率大大降低,可见建立该数据库是很有必要的.

 

关键词:计算机语音识别; 隐马尔可夫模型; 高斯密度

 

1.引言
近年来,计算机语音识别的应用有了长足的进展,如在语音听写器中,可以用口述代替键盘,实现文字输入;在通信中的应用,手机语音拨号、股市查询、信用卡认证等问题;自然语音直接进行数据库检索,可以免除大量操作人员的重复劳动;语音命令控制,是十分理想的人机接口方式等[2].
基于英语的特殊地位,世界上对于英语作为第一语言的语音数据库的设计和制作已经很多.这些语音数据库的产生,对提高识别率起了很大的作用,但由于英语的日益普及,以英语作为第二语言的人们越来越多,如何为这一类的用户提供实现高识别率的语音识别系统,引起了许多研究人员的兴趣.因此建立一个以英语作为第二语言的语音数据库是很有必要的.
不同的国家,有不同的语言,其发音都有各自的特点,从而影响了作为第二语言的英语发音也出现了不同的特色.已经有针对韩国人收集的第二语言为英语的语音库[3],我们这里主要考虑在中国地区,设计与制作以英语作为第二语言的语音数据库.但由于中国地大物博,汉族社会在发展过程中出现过程度不同的分化和统一,因而使汉语逐渐产生了方言.各种不同的方言分布的区域很广,在语音方面尤为突出,其方言对于学习英文作为第二语言的人的语音又产生了影响,导致说不同方言的人们,说英语也带有不同的特色.考虑到语音受到方言的影响,我们的数据库主要根据方言地域的划分进行设计.
最近出现了结合人脸嘴型变化进行的语音识别的多媒体语音库,如AVICAR[1].尽管该数据库是以研究噪声鲁棒性而建立的,但由于发音时以英语为第一语言的人脸嘴型与以英语作为第二语言的人脸嘴型会很不一样.如果结合人脸嘴型的变化进行识别,会对提高语音识别率有一定帮助.因此数据库的制作时,我们把嘴型变化一并录制下来,并做一定的处理,方便进一步地研究(由于篇幅有限,后面不做详细阐述).
本文第二、三、四节介绍了本语音数据库,主要集中在其特点和具体内容上.第五节介绍了利用英语作为第一语言人的语音数据英文数字语音(DIGIT)训练的模型,对该库收集的数据进行测试,最后与测试英语作为第一语言的数据库(采用AVICAR现有的数据库)的识别率进行比较,做进一步的研究.下面详细介绍每一步的具体过程.

 

2.本语音数据库的特点
2.1 录音人来源
首先确定数据库中应该收集哪些样本,样本之间有些什么差异,怎么分类.我们这里的样本主要针对不同方言的地域进行分类[4],在本数据库,我们按地域划分为九种方言进行采集:
1、北京或河北一带. 2、苏南、浙江和上海. 3、广东省广州地区. 4、福州一带. 5、湖南. 6、江西. 7、山西.8、广西. 9、贵州.
录音人主要来源贵州大学非英语专业(考虑到英语专业口语中会消除地方口音,而本数据库恰恰是针对以英语作为第二语言进行采集)在校研究生或本科生.

 

2.2 录音人数
参与录音人数为36人,考虑到男女比例均衡,其中男性18人,女性18人.每个地域采集四个人(两男两女)的语音.计划将进一步把录音扩充至108人.

 

2.3 录音环境和设备
录音地点在整个录音过程中不变,位于一间隔音效果良好、面积为45m2(5* 9)的实验室内,如图1所示.考虑到晚上外界噪音较小,固定在每天晚上录音,光源点和强度都不变.每次录制时,人的位置固定不变,靠教室的左上角.摄像机的设置和位置也不改变.
录音设备采用CanonMV800i数码摄像机.音频模式设置为16bi.t一台装有视频采集卡的计算机,利用GoldWave软件,将录制的文件处理为44100Hz采样率的wav文件,同时保存视频文件.

 

3.本语音数据库的录音内容
本语音数据库每次录音包含个人信息、单独数字、常用简易号码、数字串和英文24个字母、五个元音、英文短句七个部分.语言为英语.单个人录音时间约为1. 5个小时.

 

3.1 个人信息部分
该部分内容包括录音人的姓名,性别,年龄,籍贯,英语口语水平共五项.

 

3.2 数字部分
该内容包括三部分:单独数字、常用简易号码、数字串.
单独数字: 0、1....... 9.其中, 0的读音区分为oh、zero,记录时用O和Z区别开.
常用简易号码:包括在中国常用的紧急号码,如110, 119, 120, 122, 10000, 12315.用O和Z分别读一次.
数字串:来源于两部分,一部分取DIGIT中包含3、4、7较多的数字串,总计110句.另一部分来源AVICAR数据库,总计200句.

 

3.3 英文字母及短句部分
该内容包括三部分:英文24个字母、五个元音A、E、I、O、U和英文短句.
元音部分要求每个录音者各读5遍.英语短句总计200句,来源于AVICAR数据库.这些英文短句的选取,考虑到语音音素的平衡.

 

4. 本语音数据库的存储形式
采用CanonMV800i摄像机进行数据采集,采集数据为16比特量化、44100HZ采样率的双声道wav文件,由于数据占用空间过大,我们将其转换成16比特、16000HZ采样率的wav文件,在其他测试实验可以将其转换成适合需要的采样率.在该实验中我们将其转换成8000HZ的采样率,由于采用训练模型的数据为单声道,进行标准测试的语音数据也为单声道,为了达到较好测试效果并进行比较,要将双声道转换成单声道.每人的语音数据分别存放在对应个人的文件夹下,再根据数据库内容分开存放.

 

5. 初步测试
本测试在Linux环境下,使用标准的HTK参数[5].经过数据预先处理和特征提取后,我们将给出测试的模型参数设置及结果.

 

5.1 模型参数设置
我们取状态数为10的隐马尔可夫模型训练方法.把模型中的高斯密度(Gauss mixture)从1增加到2后,训练8次.为了得到效果较好的模型,我们把高斯密度从2增加到4后,继续重复训练8次.最后的高斯密度取值为4.对于语音文本的特征提取,我们取的是MFCC_E_D_A_Z,由于美尔频率倒频谱系数充分考虑了人的听觉特性,而没任何前提假设,因此MFCC参数具有良好的识别性能和抗噪声能力[6].MFCC_E_D_A它是12维的美尔频率倒频谱系数和时间轴上正规化之短时能量(MFCC_E)加上前两者的一阶及二阶回归系数(MFCC_E_D_A)得到的,因此每个特征向量包含了(12+1)* 3=39个特征值[6].最后移除平均误差率得到MFCC_E_D_A_Z,因而我们可以表示:
MFCC_E_D_A_Z=MFCC(12)+Pow(1)+ΔMFCC(12)+ΔPow(1)+ΔΔMFCC(12)
+ΔΔPow(1)(CMN) 39-dimension[8]

 

5.2 数据测试结果
首先预处理DIGIT中TEST数据,进行测试,最后得到识别结果:
WORD: % Corr=99. 12, Acc=98. 38
其中Corr表示识别的正确率为99. 12%, Acc表示识别的精确度为98. 38%.
然后我们对初步收集了四位来自贵州同学的语音数字部分进行测试.首先对收集的语音数据进论文英语论文网提供整理,提供论文代写英语论文代写代写论文代写英语论文代写留学生论文代写英文论文留学生论文代写相关核心关键词搜索。

共 1/2 页首页上一页12下一页尾页

相关文章

    英国英国 澳大利亚澳大利亚 美国美国 加拿大加拿大 新西兰新西兰 新加坡新加坡 香港香港 日本日本 韩国韩国 法国法国 德国德国 爱尔兰爱尔兰 瑞士瑞士 荷兰荷兰 俄罗斯俄罗斯 西班牙西班牙 马来西亚马来西亚 南非南非