推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

精彩回顾 | AIGC时代语料库专题沙龙干货来啦

   日期:2024-11-10     移动:http://yybeili.xhstdz.com/mobile/quote/60775.html

AIGC时代,翻译技术发展日新月异,已经成为翻译工作者提高翻译效率,保证翻译质量必须了解的有力辅助。语料库是语言服务行业的宝贵资产,是提高语言处理工作效率的重要途径。也许在未来,我们都会打造属于自己的语料资产,那么,该如何乘时代巨浪,建立更高效智能的语料库呢?

精彩回顾 | AIGC时代语料库专题沙龙干货来啦

8月30日,翻译技术研究院举办第十三次公益沙龙,特邀厦门云译科技有限公司语料技术部主管王伟榕老师为我们分享语料库构建语料对齐的相关知识。

接下来就跟随小编一起回顾当日沙龙的精彩片段吧~

语料库建设

在语料库构建阶段,王老师从语料来源搜寻、语料采集和语料处理三个方面介绍了语料库的构建流程。首先是语料来源搜寻方面,我们可以进行定向搜寻、批量搜寻,并对来源进行分类。在语料采集方面,我们可以根据语料来源的分类定制语料采集的方案,比如,对于标记出来的多元网站,我们可以使用通用爬虫将整个网站爬取下来,然后根据通用流程从中采集双语语料。对于辞典类或者格式比较工整的网站,我们可以定制化开发一些爬虫,去解析网站上指定的双语文本,对所需语料进行采集。采集到语料之后,就进入到了语料处理的环节。语料处理的工作主要涉及提取语料和消除噪音,噪音包括格式方面的不工整或语言类的错误等。所以我们需要在这个阶段进行语料对齐和语料过滤

语料对齐

在语料对齐阶段,王老师首先介绍了语料对齐的目的(缩短人工筛选和编辑时间,提高机器翻译模型的训练效果)和类别(篇章对齐和句对齐),随后讲解了语料对齐的技术,对齐技术主要涉及相似度的计算。在经过一些预处理后,我们可以把原文和译文篇章转换成两张句子一一对应的列表,然后计算句子之间的相似度,根据该相似度和我们要实现的对齐目的来设定对齐关系提取的方法

工具与平台应用

在工具与平台应用方面,王老师主要介绍了云译语料管理平台对齐工具的实践与应用。在这一阶段,王老师简要演示了云译对齐工具的应用,我们可以根据自己的对齐需要在该平台进行操作,并对对齐文本进行设置处理,例如句子的合并和拆分、上下移动等。云译语料管理平台是专业的语料管理平台和对齐工具,能够帮助我们实现语料库和语料对齐流程的自动化,降低成本并提高效率。

以上就是本次沙龙的精彩看点,希望您能收获满满~

本文地址:http://yybeili.xhstdz.com/quote/60775.html    物流园资讯网 http://yybeili.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号