英语论文网

留学生硕士论文 英国论文 日语论文 澳洲论文 Turnitin剽窃检测 英语论文发表 留学中国 欧美文学特区 论文寄售中心 论文翻译中心 我要定制

Bussiness ManagementMBAstrategyHuman ResourceMarketingHospitalityE-commerceInternational Tradingproject managementmedia managementLogisticsFinanceAccountingadvertisingLawBusiness LawEducationEconomicsBusiness Reportbusiness planresearch proposal

英语论文题目英语教学英语论文商务英语英语论文格式商务英语翻译广告英语商务英语商务英语教学英语翻译论文英美文学英语语言学文化交流中西方文化差异英语论文范文英语论文开题报告初中英语教学英语论文文献综述英语论文参考文献

ResumeRecommendation LetterMotivation LetterPSapplication letterMBA essayBusiness Letteradmission letter Offer letter

澳大利亚论文英国论文加拿大论文芬兰论文瑞典论文澳洲论文新西兰论文法国论文香港论文挪威论文美国论文泰国论文马来西亚论文台湾论文新加坡论文荷兰论文南非论文西班牙论文爱尔兰论文

小学英语教学初中英语教学英语语法高中英语教学大学英语教学听力口语英语阅读英语词汇学英语素质教育英语教育毕业英语教学法

英语论文开题报告英语毕业论文写作指导英语论文写作笔记handbook英语论文提纲英语论文参考文献英语论文文献综述Research Proposal代写留学论文代写留学作业代写Essay论文英语摘要英语论文任务书英语论文格式专业名词turnitin抄袭检查

temcet听力雅思考试托福考试GMATGRE职称英语理工卫生职称英语综合职称英语职称英语

经贸英语论文题目旅游英语论文题目大学英语论文题目中学英语论文题目小学英语论文题目英语文学论文题目英语教学论文题目英语语言学论文题目委婉语论文题目商务英语论文题目最新英语论文题目英语翻译论文题目英语跨文化论文题目

日本文学日本语言学商务日语日本历史日本经济怎样写日语论文日语论文写作格式日语教学日本社会文化日语开题报告日语论文选题

职称英语理工完形填空历年试题模拟试题补全短文概括大意词汇指导阅读理解例题习题卫生职称英语词汇指导完形填空概括大意历年试题阅读理解补全短文模拟试题例题习题综合职称英语完形填空历年试题模拟试题例题习题词汇指导阅读理解补全短文概括大意

商务英语翻译论文广告英语商务英语商务英语教学

无忧论文网

联系方式

中国日语学习者语料库CJLC的构建

论文作者:留学生论文论文属性:职称论文 Scholarship Papers登出时间:2010-08-22编辑:wangli点击率:3877

论文字数:3865论文编号:org201008220919037657语种:中文 Chinese地区:中国价格:免费论文

关键词:学习者语料库外语教学中介语B/S架构赋码

【摘要】建立学习者语料库能为二语习得等方面的研究提供新的思路和方法。但是,迄今为止的语料库建设由于缺乏统一的平台支持,存在着协同困难、重复劳动多以及升级、版权保护难等问题。通过构建整合型学习者语料库建设应用平台则能够极大地提高建设的效率和效果。

一序言
自世界上第一个机读英语语料库——布朗语料库(Brown)创建以来,语料库在语法、词汇、文体等不同领域逐渐得到广泛应用。以推进二语习得或中介语研究为目的的学习者语料库建设虽稍显滞后,但近年来也不断取得新的成果。朗文学习者语料库LLC(Longman Learner’s Corpus)、学习者英语国际语料库ICLE(International Corpus of Learner English)以及香港科技大学语料库HKUST(Hong Kong University ofScience and Technology Corpus)都处在不断完善和发展的阶段[1]。通过国内学者的多年努力,中国学习者英语语料库CLEC(Chinese Learner English Corpus)、中国大学学习者英语口语语料库COLSEC(College Learners’Spoken English Corpus)和英语专业学习者语料库CEM(Corpus for English Majors)也先后建成,对我国二语习得研究和教学改革起到了巨大的推动作用,成为研究外语教学规律不可或缺的基本素材。但是,这些语料库在开发过程中都没有特定软件平台的支撑
1。数据由建设者分头输入、处理后再汇总在一起。尽管入门门槛较低,发布后也没有日常运营开支,但存在着协同困难、重复劳动多、升级繁琐以及版权保护方面的难题。随着因特网技术的不断发展,软件平台的体系结构从过去的单用户发展到今天的C/S(客户机/服务器)和B/S(浏览器/服务器)架构。这些平台体系的出现为语料库建设提供了崭新的技术手段。在很大程度上,避免了数据分发、汇总、格式统一以及升级过程中的重复劳动,提高了建库效率,降低了出错概率。本文拟以中国日语学习者语料库CJLC(ChineseJapanese Learner’s Corpus)的构建为例,探讨整和型语料库建设应用平台的方案设计及实现。二单用户系统开发模式的局限如上所述,现有的语料库多为分散开发模式。建设者只须具备基本的字处理软件使用能力即可参与开发,入门门槛不高。发布后也无需日常运营开支。但是,这种开发方式也存在着明显不足。首先,语料库建设是一项庞大的工程,为了保证语料的质量和开发效率,需要多人协同进行。由于缺乏平台支撑,在输入、校对、标注、修正等各个阶段,都必须反复进行语料的分发和汇总,重复劳动多,也容易出现差错。其次,为了提高语料的可用性,还需要对语料进行标注。

但是,仅凭字处理软件或Dreamweaver等HTML编辑工具,很难对语料进行深度标注。在赋码过程中,所有错误码和数据标签都须手工输入,既不直观,加重了标注者的负担,又提高了出错的几率。杨惠中等[2]指出,在中国大学学习者英语口语语料库(COLSEC)素材的汇总过程中,观察到了文本标签嵌套错误、标签拼写错误、标签设定不一致、全角半角不一致、错误码设置过多等诸多问题。这些都需要人工校对加以修正。而在发布之后,由于语料库分散在不同用户手中,使得开发者难以迅速、高效地对语料进行统一升级和扩充,也不利于版权保护。运用基于B/S架构的整合型语料库开发应用平台2以有效地解决这些问题,提高语料库开发效率。在B/S结构平台的支撑下,用户界面通过IE等WWW浏览器来实现,数据统一存储在服务器端,主要事务逻辑也在服务器端完成。由此简化了建库流程,实现了数据的自动分发和汇总,系统升级更为快捷方便。同时,由于支持Unicode,便于实现多语言界面,也给语料库的建设者和使用者带来了很多方便。三中国日语学习者语料库(CJLC)的总体规划中国日语学习者语料库(CJLC)为国家社会科学基金项目“中国日语学习者语料库的建设与研究”的建设内容之一,于2008年6月启动。该语料库以反映中国日语学习者的实际学习情况为目标。通过全面、系统地收集我国高校日语专业学生的语料,客观、翔实、准确地反映我国日语专业学生的语言习得和发展状况。它的建成将填补国内外在这一领域的空白,为我国高校日语专业教学大纲、课程设置、教学内容、教学标准、教学方法、词汇表的制定和完善以及教学评估提供客观依据,并有力地推动两语研究的发展。本语料库平台分为建库和应用两大子系统。各下属模块的具体功能如下表1所示。

每个模块都具有不同界面,需要特定权限方能显示和进入。系统管理员根据实际需要为用户灵活分配权限,通过网络完成输入、标注、校对、检索和管理等各项工作。由于数据库存在于服务器端,可以实现多用户共享,所以数据的输入和标注等不同阶段的工作可以同步进行,互不干扰。当然,对于某一特定语料来说,还是需要按照一定流程完成输入、标注等一系列工作(详见图1)。在互联网应用的初期,开发者多使用C或Perl等CGI语言进行Web开发。现在,已有C#/ASP.NET、JSP和PHP5等多种方案可供选择。本课题组选择了AMP(Apache/MySQL/PHP)解决方案,即以PHP5编写语料库开发平台,MySQL作为数据库,Apache为Web服务器发布软件。这些都是遵循GPL的开放源码软件,不必缴纳软件使用费。这在很大程度上降低了开发费用。同时,又拥有丰富的资源可供使用、修改或重组。在成本和可用资源方面,胜过了C#/ASP.NET/IIS解决方案。四数据库结构及输入子系统的模块设计利用学习者语料库通常可以进行中介语对比分析(CIA)和计算机辅助错误分析(CEA)两种研究[3]。前者是在母语使用者的输出和非母语学习者的输出之间或不同第一语言背景的非母语学习者之间进行定性或定量的对比分析。后者则以中介语中的错误为研究对象,对其进行标注、检索和分析。于从赋码后的语料库中能够提取出的信息远远超过原始语料[4],因此无论是哪种研究都必须对原始语料进行赋码和标注。不过,中介语对比分析和计算机辅助错误分析对语料赋码的要求有所不同。前者要求对语料添加语法码,后者则要求进行错误标注。由于在错误标注过程中,可能出现并句或分句的情况,从而导致生成的语法码和错误码在句子层面不能做到一一对应,建库模块分为输入、输入校对、语法码校对、标注和标注校对五个子模块。语料的处理流程如图1所示。

由于语言研究多以句子为单位,因此语料输入进电脑后,首先被分割成单句存入origin_sentence库表。同时,保存年份、级别、试卷类型以及句子、段落序号等信息。完成校对后,系统先根据文章编号更新origin sentence库表内对应的语料内容。随后,对书写错误码进行解析,将错误码等信息存入wrong库表。原始语料经过相应处理后存入sentence库表,留待下一步标注3。最后,系统自动调用赋码工具Chasen对语料进行词性分析,将得到的各单词的表层形、基本型以及词性等信息存入gramma库表(详见表2)。Chasen是一个运行于Dos环境下的程序,需用exec函数进行调用,通过命令行参数控制输出内容和格式。由于该程序只能处理Shift-JIS内码字符串,所以在处理前后要进行utf-8和Shift-JIS内码之间的相互转换。具体代码请参见例14。经检查,自动赋码的正确率约为96.5%,能够满足建库的基本要求。经过人工校对后,gramma库表中的语法码等信息得到更新,成为中介语对比分析研究(CIA)的分析对象。整个语料输入流程至此结束。五标注和标注校对子模块的功能设计对于计算机辅助错误分析(CEA)来说,按照统一标准对语料中存在的各类错误进行标注是不可缺少的步骤之一。由于日语书写方式的特殊性,除了语法、词汇等方面的错误以外,学习者还可能犯汉字、假名书写不规范或误用(如使用中文汉字)等错误。受字库所限,后者往往无法得到准确记录,必须在输入阶段就有针对性地进行处理5。为了方便操作,本系统在输入界面上设置了四个按钮,分别对应“汉字书写错误”、“汉字使用错误”、“假名书写错误”和“假名使用错误”。

点击后,在输入文本框的光标处插入“[kjk]”、“[kj]”、“[knk]”和“[kn]”等相应标记。当输入校对结束后,系统对这些标记进行检索论文英语论文网提供整理,提供论文代写英语论文代写代写论文代写英语论文代写留学生论文代写英文论文留学生论文代写相关核心关键词搜索。

共 1/2 页首页上一页12下一页尾页

英国英国 澳大利亚澳大利亚 美国美国 加拿大加拿大 新西兰新西兰 新加坡新加坡 香港香港 日本日本 韩国韩国 法国法国 德国德国 爱尔兰爱尔兰 瑞士瑞士 荷兰荷兰 俄罗斯俄罗斯 西班牙西班牙 马来西亚马来西亚 南非南非