精明的多样化系列-多样化到机器翻译
精明的新人团队对过去一年进行了盘点,发现许多自由笔译和口译人员的一个关键优先事项是多样化. 在不同的行业或不同的客户提供多种服务可以帮助永利登录网址在风暴来临时稳定下来. 分散投资可以帮助永利登录网址对冲困难时期的风险. 记住这一点, 永利登录网址邀请了一系列客座作者来撰写帮助他们的企业蓬勃发展的多样化服务产品, 希望能激励你拓展到可能适合你的新服务产品!
把握美国经济的脉搏.S. 对于合格的翻译和编辑来说,本地化行业应该是一个经济繁荣的时期. 的确,在美国全国语言联合委员会所说的“语言危机”时期,这个行业的运作听起来并不好. 分发给美国的材料.S. 在2021年2月的虚拟语言倡导日期间,立法者给出了令人震惊的统计数据:“90%的美国雇主依赖拥有世界语言技能的员工。, 三分之一依赖外语的雇主报告存在语言技能差距,四分之一的雇主因缺乏外语技能而失去业务。”(JNCL-NCLIS, 立法优先). 也就是说,与此同时,美国.S. 市场正因多年来在多语言教育方面缺乏投资而受到影响, 合格的语言专业人员需求量很大, 而市场所要求的角色在本质上变得越来越技术化. 在“将来时:在语言专业人士和智能系统之间日益紧张的关系中蓬勃发展”一文中,杰伊·马西亚诺指出, “到2030年,语言服务专业人员将很难辨认今天翻译人员的日常工作.”
在这种情况下,该行业的新来者具有特别的优势. 在斯莱特的简报会上 专业指南:翻译定价和采购, Anna Wyndham指出,有经验的本土化服务买家不太可能采用新的定价模式, 而来自科技行业和其他行业的新买家对基于与机器翻译完全集成的“人在循环”定价模式持更开放的态度,而且确实可能会期待这种定价模式. 同样的, 懂行的翻译行业新人更有可能接受机器翻译作为现实的角色, 而更多经验丰富的翻译人员可能不太愿意将机器翻译(MT)技术整合到他们的日常工作流程中. 不管是新手还是老手,他们现在都在寻求多样化,并希望他们的服务在未来几十年保持相关性,在学习曲线变得如此之大,以至于无法有效地将其排除在关键市场之外之前,最好将机器翻译纳入其中.
本文概述了在您的投资组合中包含的关键mt相关服务st21世纪的翻译家将自己重新塑造为语言技术专家. 作为语言技术专家, 您在翻译方面的专业知识使您成为MT-engine培训的资产, MT写作内容, 机器翻译(ppt)阶段的后期编辑. 本文以相反的顺序考虑这些服务, 从翻译人员最有可能执行的PEMT服务开始, 然后再向上游移动, 首先是为机器翻译写作,然后是训练机器翻译引擎. 对每种服务类型的讨论解决了常见的误解和关键能力,以便您可以开始开发将MT服务添加到您的专业领域所需的技能. 请查看其他参考资料部分以获得进一步的阅读,以继续探索这个动态的服务领域.
服务#1 -机器翻译后期编辑(ppt)
在The ATA播客的第49集, 《永利最新网址》,杰伊·马西亚诺(Jay Marciano)将机器翻译的后期编辑定义为“永利最新网址为提供高质量的翻译而对机器翻译输出进行审查和纠正的步骤”(Baird和Marciano)。. 的权利, Marciano认为,“后期编辑”这个术语为已经是后期编辑的角色增加了专门的含义. 总结, 传统的翻译不仅意味着创造全新的文本, 理解为“新单词”的翻译,,也是在片段层面编辑翻译记忆(TM)输出的行为, 所涉及的工作水平取决于要共享的贡献者的质量, 专有资源, 源段与TM内现有段的匹配程度, 一般从75%匹配到以上. 合并使用机器翻译预翻译的片段为人工后期编辑增加了另一种片段类型, 尽管术语“后期编辑”本身专门用于表示审查机器翻译输出的工作.
认为机器翻译的后期编辑比传统的人工翻译需要更少的技巧,这是自机器翻译出现以来在翻译领域流传的一种误解. 这种误解与几个因素有关. 其中一种过时的看法是,机器翻译产生的输出质量很差,重复性太大,人类无法对其进行审查. 旧的基于规则的模型或统计模型对于翻译性能相对于机构间语言圆桌会议(Interagency Language Roundtable, ILR)等级较低的内容确实表现得更好. ILR量表由5个等级组成, 2级及以下表示性能有限或最低, 三级及以上表示专业表现水平. 传统上, 基于规则的模型和统计模型最适合于与ILR等级2相对应的文本, 或者直接的文本,比如使用受控语言制作的指令集,几乎没有留下创造性解释的空间. ATA永利登录网址是一种职业中期永利登录网址,证明翻译人员(至少)达到了ILR等级的第3级, 旧的机器翻译模型根本无法与专业的人类在抽象语言特征的内容上竞争, 含义, 这些细微差别需要人类的大脑来分析. 然而, 机器翻译技术以光速发展, 即使机器翻译无法超越人工翻译的质量, 使用人工智能和神经机器翻译可以达到的流利程度和对应程度是惊人的. 对于那些喜欢研究人类和机器语言交集的人来说,这项工作中遇到的语言挑战也很有趣.
无论机器翻译引擎设计用于预翻译的内容有多复杂, 机器学习引擎远不能取代人类. 根据 ATA关于机器翻译的立场文件, 这是因为“计算机在计算某种翻译的可能性方面非常复杂, 但他们既看不懂原文,也看不懂目标文本, 语言还没有被一系列的计算所捕获.“虽然MT的结果一直在变好, 当需要确认任何精确度或抛光时, 一个专业的后期编辑是做这项工作的人. 根据 ISO 17100翻译服务。翻译服务的要求 国际标准化组织(ISO), 翻译人员的专业能力有:翻译, 源语和目的语的语言和语篇能力, 研究, 信息获取与处理, 和文化, 技术, 领域能力(3).1.3). 专业精神是在ISO 17100中为翻译岗位编辑添加的一项能力 ISO 18587 -翻译服务。机器翻译输出的后期编辑。要求. 这种专业性需要MT技术的知识, 机器翻译产生的常见语言错误, 以及计算机辅助翻译(CAT)工具, 以及进行语言分析的能力, 随着时间的推移,提供结构化的反馈以提高MT的输出, 并与术语管理体系互动(ISO 18587“后期编辑的5项能力和资格”).
为了应对机器翻译后期编辑带来的语言挑战,需要对关键的后期编辑概念以及这些概念与后期编辑规范的关系有透彻的了解. 回顾, 规范概述了购买者的需求和目标用户的期望,这些需求和期望改变了本地化服务的产生方式. 关于机器翻译, 所制作内容的价值主张将决定是否需要轻微的后期编辑或完整的后期编辑, 这是, 无论什么 TAUS MT后期编辑指南 指的是“足够好”或“人工翻译”的质量是否需要. 如果需要后期编辑, 比如在表达速度比流畅性和文体化更重要的情况下, 后期编辑器将在原始MT输出中进行最小程度的干预,以纠正不准确的呈现含义, 语法和拼写错误, 以及文化冒犯性的内容. 如果需要完整的后期编辑, 加强对术语一致性的检查, 产品名称, 文本的机械方面也被运用.
在轻型或完整的后期编辑模型中, 纪律是关键, 在后期编辑中, 纪律是通过使用最少的击键次数来进行必要的修改来展示的. 经验丰富的后期编辑可以迅速区分哪些片段足够好, 需要少量编辑的片段, 以及需要从头开始的部分. 本地化经理使用编辑后距离——或者原始翻译输出和编辑后内容之间变化的度量——来衡量翻译引擎和编辑后工作的整体质量,并识别编辑过度和编辑不足的情况. 根据eBay的西尔维奥·皮奇尼尼的说法, 较低的编辑距离可以作为质量和生产力的指标, 因为如果MT引擎和后期编辑器都受过良好的训练, 这将导致更短的编辑距离. 对于那些有兴趣从事后期编辑工作或培训后期编辑的人, Sharon O’Brien recommends the following curriculum in the 2002 paper “Teaching Post-editing: a proposal for course content”; “Introduction to Post-editing, 机器翻译技术概论, 受控语言创作导论, 高级术语管理, 高级语篇语言学, [和]基本编程技能”(103).
服务#2 -为机器翻译写作
在这个世界上,每天都有越来越多的数据被生成,而这些数据是人类无法翻译的, 其中很大一部分数据的作者可能根本就不是优秀的作者, 更不用说翻译内容的优秀作者了. 在包含MT的工作流中, 专业语言学家有机会介入,甚至在任何内容被导入到产生原始输出的引擎之前. 就像围绕人工翻译构建的工作流一样,如果源内容是为翻译而编写的,则会受益, 如果源内容是明确为此目的编写的,那么包含机器翻译的工作流将受益于效率和质量的提高. 人工翻译的本地化工作流程已经包含了源内容的复制编辑,以促进翻译过程中的顺利处理, 特别是在涉及多种目标语言的情况下. 这个拷贝编辑阶段减少了在工作流程中间进行澄清的需要,并通过在将源内容发送翻译之前识别和纠正源内容中的歧义和不一致,防止了由于误解和可理解性差而导致的大量返工.
一旦后期编辑对语言对中常见的错误有了很好的认识, 主题领域, 文本类型, 他们将更有能力为如何最好地为机器翻译写作定制建议, 以及某些文本类型和主题字段, 专业的建议可能只是MT是不够的. 在人工和机器翻译之前应该标记的歧义和不一致包括不明确的参考物, 同义词的使用, 长复合名词, 以及对同音异义词的误解, 在许多其他文本特征中. 下面提供了一些常见的翻译错误来源的例子.
- 参照物不清:A组与B组比较结果 they [A组,B组,A组 & B?[答案]C.
- 潜在的同义词用法:The 干燥过程 要花这么多天吗. 一旦 脱水的过程 完成了,下一步怎么办. 干燥和脱水是分开的过程,还是两者指的是同一过程?]
- 对同音异义词的误解:永利登录网址本季度的收益如下. [取决于上下文。, “收入”的最佳等价物可能是传达其中一种含义的等价物:支付, 利润, 返回, income, etc.]
当开始为MT写作时, 控制语言和通俗语言的原则也有很好的通用规则可以应用. 乌维Muegge的 控制语言优化统一翻译, 例如, 包括这样的指导方针,每句话只表达一个想法, 使用简单而完整的语法结构, 通过重述名词来限制代词的使用, and using articles so that nouns can be easily identified; and Plain Language Association International recommends that jargon be avoided and that simple words be employed (“什么是通俗易懂的语言?”). 控制语言和普通语言的规则可能意味着这些交流形式很容易使用, 但即使是识别这些原则所包含的无数文本特征也需要大量的研究, 实践, 和经验. 简化技术英语, 欧洲航空航天和国防工业协会的一种受控制的语言, 例如, 由九个不同类别的六十五条书写规则和一本近1000个认可单词的词典组成.
服务#3 -培训定制MT引擎
机器翻译的发明在很大程度上仍停留在程序员和工程师的领域. 尽管明显缺乏语言学家参与机器翻译的发展, 训练定制的机器翻译引擎需要如此多的高质量数据,在进行昂贵的工作之前,需要让语料库语言学家参与进来, 手动数据收集过程非常有意义. 语料库是为特定目的而选择的文本的集合. 一个通用的语料库将包括数百万个单词, 而由特定学科领域的专家撰写的专门文本的语料库可能只包含数十万个单词. 翻译和对齐片段的平行语料库是训练机器翻译引擎时最常见的问题, 是否基于规则的, 统计, 或者神经模型. 然而, 高质量的并行语料库需要很长时间来构建,并且在任何现成的格式中都很难找到. 因为高质量的平行语料库很难找到, 那些训练机器翻译引擎可能会转向类似的语料库, 或多种语言的相似文本的集合, 对于资源较少的语言.
在构建单语语料库时, 语言学家将能够识别最具代表性的数据的特征,为每个语料库收集数据,机器翻译引擎将在这些语料库上进行训练. 语料库可能包括一个由特定主题领域的专家在每种语言中编写的一般内容的技术语料库,以及一个特定于客户的每种语言专有产品文档的语料库. 由于机器翻译是使用人类产生的语言进行训练的,因此它复制了人类的偏见. 语言学家可以通过识别特定人群来帮助识别和减轻在大数据集中表现出来的种族和性别偏见, 地理区域, 或语料库中没有充分代表的语言方言. 他们可以通过从语料库中删除任何不适合使用的内容来提供帮助. Thus, 机器翻译用户不会因为机器翻译引擎产生的攻击性语言而感到被侮辱,机器翻译开发者也可以避免疏远机器翻译用户. 在《永利最新网址》发表的一篇题为《永利登录网址》的文章中,Salvador Ordorica举例说明了机器翻译中种族和性别偏见的突出表现以及如何克服这种偏见.
大多数想要成为本地化人员的人只需要看看他们指挥下的翻译记忆库,就可以开始练习管理平行语料库. 包含高质量内容的翻译记忆库非常抢手,但很难找到, 这使得高质量的tm非常有价值. 当一个人对TM做出贡献时, 每个部分都应该使用匿名的客户和项目标识符进行标记,以便以后可以根据需要隔离个别客户的数据, 按照任何保密协议,管理内容的使用所产生的. 如果多个客户端内容混合在一起,用于训练机器翻译引擎的整体tm将产生语言模式, 因此,制作与内容不同的副本也是一个需要考虑的挑战. 语言学家可以在风格和术语指导方面提供帮助,从而使翻译和翻译的区别成为可能. 如果有很多人对TM做出贡献, 保持所包含的人员数量及其标识符清楚地记录下来,并对受版权保护的资产进行适当的保护,包括根据源和目标部分的生产者的质量对内容进行评级以及撤销访问权限的能力, 必要时. Again, 采取这些预防措施,因为高质量的机器翻译使机器翻译引擎的培训更加有效, 因此,这些中药的价格非常高.
根据技能定价MT服务
总之, 向机器翻译服务多元化,这已经是人工翻译服务中几乎无处不在的一部分, 翻译人员应该掌握计算机辅助翻译工具的高级技能, 一般技术, 语言后期编辑, 将所提供的服务与规范中所传达的质量期望相匹配的能力, 以及掌握受控语言的知识, 语料库构建与分析, 大规模TM管理, 术语管理, 数据安全. 不管在MT工作所需的广泛能力, 需要注意的是,习惯了按字定价模式的传统买家倾向于将机器翻译的合并视为购买翻译服务的机会,并且比机器翻译定价模式有更大的折扣. 正如Slator在 专业指南:翻译定价和采购在美国,新买家意味着可能出现新的定价模式. 当与新买家合作时, 转向基于价值的定价模式,在可能的情况下更充分地补偿你丰富的专业知识. 最重要的是, 在设计时记住这一点, 实现, 和MT的回顾, 教鹦鹉说话是目标之一, 但是,如果你能教鹦鹉说正确的话,那就更有价值了.
工程咨询 & 进一步阅读的推荐资源
阿斯兰,Ş克拉. 机器学习中的9种数据偏差.《永利最新网址》,2021年3月22日 http://blog.taus.net/9-types-of-data-bias-in-machine-learning. 2021年4月12日访问.
ATA关于机器翻译的立场文件:一个复杂主题的清晰方法.永利登录网址,2018年8月. 13, http://lqow.dominatedgirls.net/client-assistance/machine-translation/. 2021年4月1日生效.
Baird, Matt和Jay Marciano. E49:展望后期编辑和机器翻译的未来.ATA播客,第49集,2020年9月24日, http://lqow.dominatedgirls.net/podcast/e49-a-look-into-the-future-of-post-editing-and-machine-translation/.
伯格,卡罗拉·F. 《永利最新网址》.永利登录网址,ATA 59th 2018年10月年会 http://ata-divisions.org/S_TD/wp-content/uploads/2018/11/ATA59_An_Introduction_to_Neural_Machine_Translation.pdf. 获得,2021年4月10日.
翻译绩效的ILR技能水平描述.“机构间语言圆桌会议,http://www.govtilr.org/Skills/AdoptedILRTranslationGuidelines.htm(连结至外部网站.). 2021年3月访问. 30.
ISO 17100:2015 (E), 翻译服务。翻译服务的要求, 国际标准化组织, Geneva, 瑞士, 2015, www.iso.org.
ISO 18587:2017, 翻译服务。机器翻译输出的后期编辑。要求, 国际标准化组织, Geneva, 瑞士, 2017, www.iso.org.
语文事业的立法重点-177th 国会. 全国语言与国际研究联合委员会, 2021年2月, 讲义.
Marciano,杰. 《永利登录网址》.” 纪事报,永利登录网址,2020年7月/ 8月,29-32; http://www.nxtbook.com/nxtbooks/chronicle/20200708/index.php. 2021年4月12日访问.
马萨多,伊莎贝拉等人. MT后期编辑指南. TAUS, 2016, http://info.taus.net/mt-post-editing-guidelines.
Muegge,乌维. 为统一翻译优化的受控语言(CLOUT). Bepress, 2002, http://works.bepress.com/uwe_muegge/88/.
O ' brien沙龙. 《永利登录网址》.欧洲机器翻译协会,2002.
Ordorica,萨尔瓦多. 机器翻译中避免偏见和歧视.《永利最新网址》,2021年3月1日 http://www.forbes.com/sites/forbesbusinesscouncil/2021/03/01/avoiding-bias-and-discrimination-in-machine-translation/. 2021年4月12日访问.
Picinini西尔维奥. “走向远方-编辑距离1.eBay博客,eBay Inc ..2019年8月8日 http://tech.ebayinc.com/research/going-the-distance-edit-distance-1/. 2021年3月31日. 参见“走向距离-编辑距离2” & 3.”
专业指南简介:定价和采购. Slator, 2021年4月7日,网络研讨会.
专业指南:翻译定价和采购. Slator, 2021年3月19日 http://slator.com/data-research/pro-guide-translation-pricing-and-procurement/. 2021年4月12日访问.
简化技术英文规范ASD-STE100. 欧洲航空航天和国防工业协会,2017年第7期. PDF.
“什么是通俗易懂的语言?国际通俗语言协会(Plain), 2021, http://plainlanguagenetwork.org/plain-language/what-is-plain-language/. 2021年4月12日访问.
zetsche, Jost, Lynne Bowker, Sharon O 'Brien和Vassilina Nikoulina. 《永利最新网址》.《永利登录网址》,永利登录网址,2020年11 / 12月,第XLIX卷,第6期. Print. 亦可透过以下途径取得: http://lqow.dominatedgirls.net/tools-and-technology/women-and-machine-translation/.
作者简介
阿莱布兰特 is a Spanish>English translator with an MA in Language, 威斯康星大学密尔沃基分校文学与翻译专业. 她的专业经验包括从事术语方面的工作, vendor, quality, 本地化项目管理. Alaina目前是蒙特雷MIIS翻译和本地化管理项目的专业实践助理教授. In 2017, 她创办了自己的公司“事后翻译”,提供本地化咨询和培训服务. Alaina是ASTM语言服务和产品国际委员会F43的成员秘书,也是国际标准化组织语言和术语技术委员会37的专家. 自2018年以来,她一直担任ATA翻译公司部门的助理管理员.
请留下评论