搜罗人才
本地化
回到专栏主页
幕后故事:语音合成
除了游戏本地化服务,我们的本地化以及音频团队还提供语音合成服务。我们都可能接触过语音合成(TTS)。您可能使用过在线文本朗读功能,或地图应用中的分路段导航语音服务。如果不从具体应用的时间算起,这项技术早在 1970 年代晚期被发明之后便很快踏上了发展之路。针对真实人声的机器模拟效果已早非当年可比。如今,我们所得到的模拟人声已变得更富有感情而且易懂。但这是怎么做到的呢?
我们的本地化语言项目经理 Micaela Bester 将为您揭开 TTS 服务的真面目。Micaela 负责为我们最大的客户管理所有的语言 TTS 作业项目。她在大学时期主修的便是语言学,当时就连她自己都没想到以后会从事这样的工作。
“我当时只想着要深入学术界或语言病理学,”她说道。“但我最后还是在意大利成了一名英语老师。”然后在突然之间,一个机会就这么落到了她的头上。那就是为谷歌工作,成为一名数据注解师。四年后她选择离开,并在爱尔兰的都柏林待了一段时间,谋求能在自己的职业路线方面获得改变。“幸运的是,我在 2019 年 12月发现了 PTW 这家公司,并成了一名项目经理,从而有幸与一些世界上最大的科技公司进行合作。”
一切便是从一项客户需求开始的。“那名客户联系了我们,说想要打造一款,比方说是针对印地语的语音辅助,” Micaela 解释道。“我们于是便开始招人。我们要求 HR 在所有一般渠道上发出消息。”大部分应征申请都来自发布了语言学岗位广告的专门招聘平台和资源,而且申请者大部分都是学生背景。“我们的团队招聘的一般都是些译员,但这些项目就不一样了;我们要的是音韵学者,是那些专修一门语言的语音的人。所以那次招人实在是既困难又小众。”
找到适格应聘者的成功率是很低的,所以相关流程着实需要花费一段时间。“我们还从那些认为自己能胜任的译员那里收到了大量的申请,但我们需要的是一套垂直度非常高的技能。”那些拥有合适技能水平的人经常都已经是全职工作状态了,所以他们也不可能会去找别的雇主。而本次工作是兼职的,而且是基于项目的,所以不是长期稳定的工作。“幸好在学界有一些人能在研究或别的事情之余抽出额外的时间来为我们工作。”
这会不会会影响项目时间线?“是的,我们已经完成了大部分主要语言的作业,因此要继续向那些发展中国家进行深入,所以寻找音韵学者就变得更加困难了。我们通常会在四个月内完成一个正常项目;现在则需要花费更长时间。”
在筛选流程中,成功适格的应聘者被要求向我们稍微展现一下他们自己的语言;即展现一些标准方言特征。“比方说,对澳大利亚英语的悉尼方言来讲,他们对 Chance 这个词的发音,在不同地方也都是不同的。”
他们还会被问及一些有关语言本身的问题。比如,哪些复辅音是“不规范”的?一个词是否可以用字母“str”开头,并举例说明?这种辅音连缀在英语中是可以的,但却不适用于其它语言。
脚本通常会由客户提供,但我们的语言学家必须负责校对;不仅是为了确保其语法正确,同时也要为诸如地址或专有名词的读音进行注释。
数字就是发音不同的最好例子:比如 1990 的应该读成“十九 + 九十”还是应该被读成“一千九百九十”呢?客户会负责制作脚本,但通常也都是从网络上搜集而来的。这些内容通常都是由完全随机,以及大量杂乱无章的句子所组成的。我们的语言学家不得不重写才能让它们具备可读性。
语言学家必须逐句使用音标,对各句的读音进行注释。他们将收到一份列表;在里面,声音将和用于代表那些声音的符号进行一一对应。然而,PTW 并没使用传统的国际音标字母或者 IPA。而后者正是一种用于指引读音的注音方式。
“这种方式并不是万能的,而且不方便键盘打字。我们最后选择使用了 SAMPA(语音评估式音标)。如果配音导演和项目经理能熟练运用,那么这种方式就能变得非常方便,” Micaela 解释道。SAMPA 是在 1980 年代晚期开发的计算机可读音标。
在脚本完成通读以及注释之后,我们的人声制作团队 SIDE 便会接手剩下的流程。我们将在选角步骤中搜罗配音人才,并使之与客户所要求的角色风格相匹配。配音导演将对一致性、持久性、清晰度、韵律以及方言特点是否重复等方面进行评估。
配音员必须是母语使用者,且拥有相应的口音。他们不一定非要是经验丰富的专业配音人员,但其所拥有的资质和技能水平必须使其能够专业地完成配音作业。
“而这也并非如你想象的这样,只是为了录制几个单独的词语这么简单,” Micaela 解释道。“当人们单独读出几个词语的时候,他们的发音往往会显得更加不自然。所以,大部分脚本都是以文句中常用的短语所组成的。”
老式的 TTS 系统并不能进行自然的发音,因为该系统是将词汇单独从句子中抠出来然后再拼接在一起进行模拟的,所以才会出现奇怪的人声效果。配音人员必须非常快速地进行视读。一般来讲,一万条对话的录制需要花费好几周时间才能完成。
配音导演将确保角色风格在整个制作过程中都能保持一致,且配音质量也必须保持一致。如果配音人员着凉感冒或者声音出现了些许的不同,那么录制作业也将暂停。
平均每天的录制时间是多少呢?“大概四小时吧。这主要是为了保护配音员的声带。”文件将在各个脚本完成录制的同时,以滚动的方式发送并进行处理;它们并不会在录制结束之后被放在一起进行处理。
“SIDE 会把文件上传给语言学家进行分析,” Micaela 补充道。“语言学家将对脚本本身进行检查,但同时也会查看它们的发音。相比于其他,我们所使用的工具就非常不错了。”它们还会对其他音频问题进行听辨,但后期制作团队通常也会在将文件提交给语言学家之前解决查清这些问题。
一旦文件检查完成,它们将被提交给客户,并由他们的专有算法进行处理。“这有点像是某种黑箱。全部都是靠机器学习。到那时,我们就要对所有数据说再见了。应用将学习合成文本;这是一种训练模型。声音合成将进行内部的测试和检查,直到达到满意标准为止。如果查出错误,或声音听起来不太好,那么就会对相应文件进行重新录制从而解决问题。”
这里最具有挑战的部分是什么?“那就多了,比如在全球搜罗那些自由职业者什么的,” Micaela 笑道。“深入与之前存在巨大差异的语言也是我们接下来遇到的严重阻碍。并非所有语言都和英语拥有相似体系的。系统并不能很好地应对语气。在没有词典的情况下,我们必须从头进行打造。”
语音合成对于我们的日常来讲已经司空见惯,同时新的应用也会越来越多。虽然其操作流程乍看就与我们上面讨论的差不多,但我们显然还得开发诸多新的手段才能应对我们目前还未接触到的其他语言。
但这些挑战在要求 Micaela 进行积极思考和研究的同时,也促使她能够不断深入地进行这项工作。她非常期待能在继续为 PTW 工作的同时,加深其对世界上各种语言的理解。