- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
- · 《吉林农业科技学院学报[05/20]
农科学术论文摘要汉英语料库建设与应用前景(2)
作者:网站采编关键词:
摘要:二、语料库总体设计框架 本文所建“农科学术论文摘要汉英语料库”由“汉-英平行语料库”、“英语单语语料库”及“汉-英-英多向可比语料库”三个子
二、语料库总体设计框架
本文所建“农科学术论文摘要汉英语料库”由“汉-英平行语料库”、“英语单语语料库”及“汉-英-英多向可比语料库”三个子库构成。本文所涉“汉-英平行语料库”指的是“由原文文本及其平行对应的译语文本构成的双语或多语语料库”[17],即由所选农科类学术论文汉语摘要及其对应英文译文构成的“翻译语料库”,而非“由取样标准一致的单语语料库构成”[18],且通过Tmxmall Aligner实现句级对齐;“英语单语语料库”即以英语为原语的农科学术论文摘要语料库;“汉-英-英多向可比语料库”包含上述“翻译语料库”及“英语单语语料库”,且两者通过可比度计算在篇章层面进行匹配对齐,以实现汉语原语、英语译语及英语原创平行文本之间的多向可比。语料库建库的总体框架如图1所示。
图1 “农科学术论文摘要汉英语料库”总体设计
平行语料库可为语言特征的转换与对等研究、词汇提取与词典编纂、翻译教学以及相关实证研究提供语料基础,可比语料库则有助于考查和描述不同原创语之间,译语和原创语之间的系统性异同。本语料库建设采用平行语料库与可比语料库相结合的架构,以期增强与相关学科研究及教学活动的兼容度,扩大其潜在应用范围。
三、语料库建设思路
从语料收集的类型及涵盖范围来看,本农科学术论文摘要汉英语料库具有明确的选材标准,并注重选材的代表性和系统性,力求较为全面地反映特定领域的语言事实,具有同质性(homogeneity)、系统性(systematicness)及专用性(specificity)的特点[19]。鉴于性质、用途以及实际操作的可及性考虑,将该语料库的设计规模暂定为150万词左右的小型语料库,其设计研制过程主要涉及语料收集、语料加工、语料检索、管理与维护四个方面。
(一)语料采集
语料库是依据一定采样标准收集的,能够反映某种语言或语言变体在真实语境下使用情况的大规模电子文本集合,采样的标准和规范直接影响着语料的质量和语料库的使用效果。一般来说,语料采集需要遵循代表性和平衡性的原则,即既要保证所选语料能够体现语言整体或其指定部分的特性[20],又需考虑语料所属体裁、领域分布比率的均衡问题。
本语料库所选语料为学术论文摘要,设计意图在于较为系统地涵盖农科各领域最新研究成果和方向,较为全面地反映当前农科专门用途语言(汉、英)的语言特征。考虑到语料的代表性,语料收集将以《中国农业科学院院选核心期刊目录》(24)为期刊选取依据,“汉-英平行语料库”以农科类中文核心期刊,如:《中国农业科学》、《农业工程学报》、《土壤学报》、《作物学报》等为语料来源,收集近10年(2010-2019)相关研究中英文摘要;“英语单语语料库”则以农科类国际核心期刊,如:“Genome Research”,“Agricultural Systems”,“Plant Physiology”,“Journal Of Animal Science” 等为语料来源,收集近10年(2010-2019)相关研究英文摘要。
出于语料平衡性考虑,收集过程将采取分层抽样与简单随机抽样相结合的方法。依据语料库的库容标准(约150万词)及单个摘要文本的平均字数(200-250词左右),所需文本的抽样总量大致为6000-7500篇左右(包括具有翻译转换关系的文本对),结合抽样操作的便捷性,将中英核心期刊抽样数量定为各2400篇左右。参照学科二级子类划分及中国农业科学院给出的期刊分类,将文本抽样分层为综合类、作物科学类、植物保护类、畜牧类、农业资源环境类等12个部类,每个部类平均抽取约200篇;各部类200篇文本按照10年历时平均分布,每年抽取20篇;该20篇文章的来源期刊,按照其影响因子IF的分布,即:1≤IF<2、2≤IF<3、3≤IF<4、IF>4分为4层(根据各部类期刊IF值分布作具体调整)进行选取,每层随机抽取1种期刊,所刊论文按引用量抽取前5篇。以“英语单语语料库”2015年所选语料为例,具体抽样方案如表1、表2、表3所示。
表1 “英语单语语料库”2015年语料抽样总体分布部类数量部类数量综合类20应用微生物20作物科学20农业资源环境20畜牧类20农产品加工与质检20兽医类20农业工程与机械20植物保护20农业信息20土壤与肥料20农业经济与发展20
表2 “农业工程与机械”类文本抽样分布IF值所选期刊抽样数1≤IF<2IrrigationScience52≤IF<3JournalOfHydrology53≤IF<4Fuel5IF>4AppliedEnergy5
表3 期刊“Irrigation Science”论文抽样情况期刊名所选论文引用量IrrigationScienceSeasonalevolutionofcropwaterstressin-dexingrapevinevarietiesdeterminedwithhigh-resolutionremotesensingthermalimagery49Waterbalancesandevapotranspirationinwater-anddry-seededricesystems42Improvingtheprecisionofirrigationinapistachiofarmusinganunmannedair-bornethermalsystem36Soilsalinizationasathreattothesustain-abilityofdeficitirrigationunderpresentandexpectedclimatechangescenarios33Modelingsoilwaterdynamicsinadrip-irrigatedintercroppingfieldunderplasticmulch32
文章来源:《吉林农业科技学院学报》 网址: http://www.jlnykjxyxb.cn/qikandaodu/2021/0708/751.html