- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
农科学术论文摘要汉英语料库建设与应用前景(4)
作者:网站采编关键词:
摘要:图6 文本可比度计算整体流程 建立分类模型需要预先将文本分类标注并导入类别数值,将“英语单语语料库”中文本的向量实数值输入分类模型便可得出其
图6 文本可比度计算整体流程
建立分类模型需要预先将文本分类标注并导入类别数值,将“英语单语语料库”中文本的向量实数值输入分类模型便可得出其与“汉-英平行语料库”中文本的匹配值(区间为0-1),取最大匹配值进行文本匹配即可。
4.语料对齐
对于平行语料库的加工而言,语料对齐工作必不可少,对齐单位可分为篇章、段落、句、词几个层次,单位粒度越小,提供的语言信息就越多,其应用的价值也就越大[25]。出于实际需求和加工成本考虑,本“汉-英平行语料库”拟使用Tmxmall Aligner 进行句级对齐,以2018年《生态学报》中所抽取的一篇摘要文本为例,其具体对齐结果如图7所示。
图7 “中国生态…建设”摘要汉英文本对齐
对齐后的文件将依据3.2.3可比度计算后的文本匹配结果与“英语单语语料库”中的文本实现篇章级对齐,以构建“汉-英-英可比语料库”,最终文本将分别以双文本对齐和三文本对齐的形式存储为tmx及txt两种格式。此外可利用Tmxmall Aligner依据词频直接提取术语,用于术语库的制作。
(三)语料检索
语料检索是对语料库数据进行筛选提取,发现及验证语言规律的重要途径,正确选择检索工具和检索方法是有效获取和分析索引结果的重要保证。本“农科学术论文摘要汉英语料库”建设涉及单语、平行、可比三种库型,语料包含汉英双语且反映二者间的转换关系,所以对于语料检索的要求不仅限于能够分别提取汉英语料的信息,还需实现对语言间翻译对应关系的考察分析。
语料库检索工具可根据语言种类、载体及用途分为单语/双语、基于网络/单机、通用/专用等几种类型[26],常用的处理软件有AntConc、ParaConc、Wordsmith、BFSU ParaConc、GCEPCC等。鉴于本语料库文本以Unicode编码格式存储,且使用XML语言标注结构化信息,结合各检索软件的特色优势,这里拟分别选用基于单机的AntConc和ParaConc工具对单语语料库及平行语料库进行检索分析。
此外,北京外国语大学近年开发了面向大规模英汉平行语料库的检索工具“语料库检索平台V2.0”[27],该工具同时具有单、双语简单/复杂检索及搭配分析功能;其自主设计的ProConc语言兼有通配符和正则表达式的优点,可有效用于对复杂信息的提取;其分别以Python和C语言编写框架和核心算法,高效且兼容性好[28]。虽然该工具设计目的在于处理上亿词量的大规模语料,其优点及特色功能对于包含平行语料的小型专门用途语料库来说同样适用,这里将考虑后期引入该检索工具以提升检索效果。
(四)管理与维护
语料库建设是一项长期的系统工程,其投入使用后才是生命周期的开始,仍需不断进行完善、管理和维护。后期可考虑根据研究需要定期更新或扩充语料,调整语料的分布比例及逻辑结构,对语料进行更深层次的标注等。此外,语料库中的语料经过了筛选和加工,是具有研究价值的数据资料,其安全性理应得到保障,后期建设可考虑自建语料管理程序,并以普通用户、语料管理员、系统管理员三个级别设立用户权限,避免数据被随意复制删改[29]。
四、应用前景
本语料库的设计特点在于将平行语料库和可比语料库相结合,这有助于揭示语言的共性和不同语言及语言变体所特有的内在规律,对比探索原语、译语及目的语母语之间的异同,为语言对比及翻译研究提供语料资源,为相关教学实践提供语料素材。具体来说,其应用前景主要体现在以下几个方面:
1.基于“农科学术论文摘要汉英语料库”的专门用途英语(ESP)研究。本语料库设计中的“英语单语语料库”所含语料属原创语料,且集中于特定文本类型、主题、语域,具有较为一致的语境特征,可为研究特定语境下的英语语言特点及语言使用提供有利条件。具体内容可涉及语料库语言学常关注的词项搭配、句法类连接、语义韵等方面,此外还可以运用定量研究法进行语域、语篇、修辞及目标情景分析,话语方式和策略研究等。
2.基于“农科学术论文摘要汉英语料库”的翻译研究。本语料库设计中的“汉英平行语料库”及“汉-英-英多向可比语料库”包含大量具有翻译转换关系及译语-原创语可比关系的双语语料,且经过对齐处理及可比度匹配,后期建设将继续进行语法标注、翻译信息标注等深度加工。这有利于借助统计学方法从词汇及句式的对应关系、翻译策略及方法的选择等问题入手,进行相关翻译实践研究;从翻译文本词汇、句式的结构特点,句法、语篇的总体特征、语言搭配等方面入手,以原创语文本为参照,探索具体语言对翻译语言特征、译者风格等语料库翻译学特有的研究领域[30];此外,经过对齐的平行语料是制作翻译记忆库的优质资源,可直接服务于翻译实践或用于机器翻译、计算机辅助翻译等相关研究。
文章来源:《吉林农业科技学院学报》 网址: http://www.jlnykjxyxb.cn/qikandaodu/2021/0708/751.html