本地化测试
回到专栏主页
什么是语音合成系统?
语音文字转换(TTS)合成系统可将文本直接转换成语音,从而用于语音辅助技术当中。在 PTW/SIDE,我们会对数据进行收集和编译,并将其用于我们大型技术客户的 TTS 系统之中。
为了建立 TTS 的合成模型,我们的客户需要音频、匹配文本以及一些额外有关文本的信息,诸如一些单个词汇的发音等等。所有的这些数据点将被输入用来训练模型,从而使其能够自动输出语音并以准确且清晰的形式朗读出来。TTS 可用于智能手机和智能音箱,以及具有视力障碍人群的辅助技术之中。同时还可用于火车站和机场,以及不断增加的其它运用场景之中。
TTS 数据项目的第一阶段就是要招募合格的语言学家。其主要先决条件便是他们必须主修形式语言学,特别是语音和音韵学。他们必需拥有(包括大学项目)使用国际音标(IPA)或类似工具对单词读法进行转译的经验。我们所招募语言学家还必需是相关语言的母语使用者。
潜在候选人还必需通过由客户所设计的以大量音标发音所构成的筛选测试,以及一场面试。
许多语言都具有非常巨大的地区差异性。不过,为了符合 TTS 系统的使用要求,我们还必须尽可能具体地对相同语言的特殊支系进行筛选。语言学家在选取目标方言以进行数据收集的过程中所需考虑的问题有:
TTS 系统还需要对目标语言进行语言定义。我们的语言学家将帮助对语言中可能存在的音位组(专属的发音)以及那些由标准发音所构成的组合(音位结构)进行明确和定义。
系统将使用该信息和训练数据(音频和匹配文本),从而了解如何将其中的文办转化为发音。我们的目标是建立一个可自动将任何文本转化为发音的数据模型。不幸的是,这并不是一件简单的事情。语言学家门经常需要将词汇的发音清楚地进行转化,特别是那些非常用的词汇,外来语或者那些并不按照常用发音规则进行拼写的词汇。所有的这些拼写和发音都将被收入一个特殊的词典当中,而这就是发音词典。
TTS 数据项目的下个阶段就是要准备一份脚本,从而供配音演员进行清楚的朗读并录音。此脚本的目的就是要获取所有该语言所包含的音位组合。我们还需要确保该脚本的阅读简便性。最后,脚本中的每个词汇都必需通过发音检查并被收录在词典之中,从而确保模型能获得高质量的训练数据。
TTS 数据项目倒数第二个阶段就是录制音频。为了达到这个目的,我们需要寻找一名能够以母语朗读目标方言的配音演员。他们必需还是一名不错的视读者,因为脚本中的各行台词都无法提前进行预览。
被选中的配音演员将随后录制我们事先准备好的脚本,我们还将在词典中针对发音进行任何必要的更新(例如,如果配音演员习惯以一种特定方式来阅读一个词,我们就会尽可能确保词典中的相应发音能被更新至与演员发音相近的程度)。
SIDE 将专门负责对工作室提供认证并在全世界范围内组织专门用于 TTS 录制的团队。我们目前已在超过 40 个地区和语言中进行了配音和录制工作。
TTS 的配音和录制与其它类型的旁白制作是非常不一样的。每行台词都必须非常严格地进行朗读,甚至需要使用一致的音调和音量。朗读还应尽量显得自然且不过分包含感情。这是为了确保能够提供一致的训练数据,从而使 TTS 语音能够提供一种流畅的合成语音。
我们的语言学家必需对录音进行评估以确保这些音频能够与文本完全匹配,同时确保配音演员发音的正确,使之符合我们词典当中的记录。在这个阶段,我们将在必要时对词典的条目进行更新。
由于一切都是在客户端工具中完成的,因此评估阶段结束时就不会存在任何数据泄露情况。一旦我们完成音频质量和准确性评估,SIDE 便会结束处理流程,使客户团队得以对这些新的音频文件进行使用。TTS 正越来越成为技术公司将辅助功能融于其工作过程中的重要一环,而 SIDE 也乐见其成。制定您的专属策略,将类似于 TTS 的技术融入您的工作当中并使其发挥效用。同时我们也将针对 SIDE 在 TTS 方面可对您业务所产生的作用方面为您提供免费的咨询服务。