推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

高手必备|单语、双语和多语语料库全都有,干货满满!

   日期:2024-11-10     移动:http://yybeili.xhstdz.com/mobile/quote/60194.html

 语料库

高手必备|单语、双语和多语语料库全都有,干货满满!

本期为大家带来更多语料库相关

语料库的类型

在往期推送中,我们为大家介绍了语料库的基本概念,并为大家介绍了有中国特色的语料库,详情戳这里:

翻译必备 |  最好用的语料库了解一下,没有之一!

现代语料库的类型和分类标准复杂多样,如:按照语种数量,可将语料库分为单语、双语和多语语料库;按照翻译方向,可以分为单向语料库和双向语料库;按照语言使用程度,可以分为书面语语料库和非书面语语料库;按照对应方式,可以分为平行语料库和可比语料库。除此之外,还可以按照用途、介质形式、语体等分类依据将语料库在更多维度上进行分类。

    本期详细为大家介绍何为单语、双语和多语语料库?

语料库的简单分类

单语语料库(Monolingual Corpus):

语料仅为单一语言的语料库,如美国当代英语语料库。

双语语料库(Bilingual Corpus):

双语语料库的语料包含两种语言,若两种语言的文本互为译文且一一对应,则称该语料库为双语平行语料库。双语平行语料库常被用于机器翻译或计算机辅助翻译。

多语语料库(multi-lingual Corpus):

库内有三种及以上语种语料,若库内原语料文本有多个版本的译文文本,亦可称为一对多语料库。

下面让我们来看看,典型的单语、双语和多语语料库都有哪些吧?

NO.1

单语语料库

美国当代英语语料库(COCA):

   english-corpora.org/coca/

美国当代英语语料库是当今世界上最大的英语通用语料库,包含文本小说、口语、杂志、报纸、学术文章等文体。其时效性很强,一些新词也会收录在内。

英国国家语料库(BNC):

    natcorp.ox.ac.uk/

英国国家语料库是由英国牛津出版社、朗文出版公司、大英图书馆、牛津大学计算机中心等机构联合建立的大型语料库。以现代英式英语文本为主,口语和书面语并存。

媒体语言语料库(MLC):

ling.cuc.edu.cn/RawPub/

中国传媒大学有声媒体文本语料库是由中国传媒大学国家语言资源监测与研究有声媒体中心开发的开放语料库。包括2008至2013六年的34,039个广播、电视节目的转写文本,所有文本都进行了分词和词性标注,共计135,767,884词次。

法语词汇语料库(CNRTL):

    http://www.cnrtl.fr/

CNRTL(Centre National de Ressources Textuelles et Lexicales)由法国国家科学研究院(CNRS)于2005年建立,是一个汇集了大量语言资源和众多语言处理工具的平台,拥有庞大的法语词汇数据库。另外:此网站的法语词典功能也异常强大。

NO.2

双语语料库

中文语言资源联盟:

   http://www.chineseldc.org/

中文语言资源联盟(Chinese Linguistic Data Consortium,CLDC) 是由中国中文信息学会语言资源建设和管理工作委员会发起建立的中文语言语音资源库。含有英汉双语平行语料库,维吾尔语--汉语综合领域平行语料库等多个双语语料库

北京大学中国语言学研究中心:

   http://ccl.pku.edu.cn:8080/ccl_corpus/

由北京大学中国语言学研究中心开发并维护的纯学术性非盈利性网站。以交流语言学研究经验,传播语言学研究成果,推动语言学研究和发展为宗旨。北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。

NO.3

多语语料库

联合国多语言术语库:

   unterm.un.org/UNTERM/portal/welcome

联合国多语言术语库(UNTERM)是联合国内部官方多语种术语库,收集了源自于联合国大会、安全理事会、经济及社会理事会、托管理事会等主要机构文件中与各类全球议题相关的术语,比如气候变化、民主、难民、反恐、可持续发展目标、非殖民化等主题。提供联合国 6 种工作语言(英、法、俄、汉、阿、西)的术语对应查询服务。

联合国文件数据库:

documents.un.org/prod/ods.nsf/home.xsp

     即联合国正式文件系统,该系统囊括了1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议;以及1993年以来联合国印发的所有正式文件,在此之前的联合国的早期文件也正添加到系统中,此外还有由日本捐赠的3万多份数字化文件。

各语料库往往是多维度分类方式的组合叠加,具有不同的复杂分类属性。例如,“美国当代英语语料库”是单语、通用、未标注的文本语料库。

此外,语料库类型也可做为语料库命名的依据。一般而言,单语语料库都会指明其所属语种,双语或多语则会指明是平行或科比类型等。(王华树 《翻译技术教程》)

本期关于语料库的学习就到这里啦,下期见~

来源 ▏外国语言文化学院多语种智翻中心

采编 ▏刘雨君 杨恒瑞   美工 ▏杨恒瑞  

责编 ▏张意林 黄辉腾  主编 ▏徐非

本文地址:http://yybeili.xhstdz.com/quote/60194.html    物流园资讯网 http://yybeili.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号