人材の確保
ローカライズ
LABメインページに戻る
制作の舞台裏:テキスト・トゥ・スピーチ
私たちのローカライズチームおよび音声チームはゲームローカライズサービスを提供していますが、並行してテキスト・トゥ・スピーチのサービスも提供しています。オンライン上のテキストを合成音声で読み上げる機能や、地図アプリケーションの曲がり角ごとに方向を音声で指示する機能など、皆さんもテキスト・トゥ・スピーチ(TTS)の技術をどこかで体験しているはずです。1970年代後半に誕生したTTS技術は、様々な用途において進歩し続けています。とはいえ、当時の合成音声は人間の声に機械的に似せた不気味なものでした。ですが、最近私たちが耳にするものはより温かみがあり、理解しやすいものになっています。こうした合成音声の進歩は、どのように成し遂げられたのでしょうか?
ローカライズ担当の言語プログラムマネージャー、Micaela BesterにTTSのプロセスについて説明してもらいましょう。Micaelaは、私たちの大手クライアント向けの言語的TTS作業のすべてをマネジメントしています。彼女は大学で言語学を専攻していましたが、その当時はTTSを開発するというような仕事はありませんでした。
「私の選択肢は、学問の道に進むか、言語聴覚士になるかだけでした」と彼女は言います。「結局、私はイタリアで英語を教えることになりました」そんな彼女の前に突然降って湧いたのが、Googleのデータアノテーションという仕事でした。彼女はアイルランドのダブリンでの勤務を経て、変化を求めて4年後に退職します。「幸運にも私は2019年12月にPTWと出会い、プログラムマネージャーとして世界最大級のハイテク企業と仕事をするようになりました」
まずはクライアントからのリクエストを受けるところから作業プロセスが始まります。「例えば、ヒンディー語のアシスタント音声を作りたい、とクライアントから連絡が来ます」とMicaelaは説明します。「依頼を受けた後、まずやることは人材の募集です。人事に頼んで、様々なチャンネルで募集をかけてもらいます」応募者の多くは専門の求人サイトや資料で情報を得ています。通常、アカデミックな言語学の職務を募集しているようなところです。「通常、私たちのチームが募集するのは翻訳者ですが、このようなプロジェクトでは音韻学の専門家、つまりその言語の音声を研究している人が必要になります。ニッチな分野なため、人材を探すのは大変です」
目的に合った方から連絡をいただく確率は低いので、このプロセスには時間がかかることもあります。「自分もできると考えている翻訳者からの応募も多いのですが、実際は非常に特殊なスキルなんです」適切な能力を持つ人はすでにフルタイムで雇用されていることが多いので、それ以上の仕事を求めている人はあまりいません。また、この仕事はパートタイムでプロジェクトベースのため、常に仕事があるというわけでもありません。「研究の合間などに時間が余っている研究者の方などにオススメです」
人材確保に時間がかかることで、プロジェクトのスケジュールに影響することもあるのでしょうか?「そうですね、主要な言語のプロジェクトはもう終わっていますから、発展途上国の言語へ進出していくにあたって、音韻学の専門家の確保が難しくなっています。以前は通常のプロジェクトなら4か月で終了していましたが、今はもっと時間がかかります」
選考の過程で連絡をいただいた方には、母語について標準語の特徴などを少し質問させていただきます。「例えば、英語においてオーストラリアのシドニー方言を扱う場合は、地域によって発音が異なる“chance”などの単語についてお聞きします」
また、言語そのものに関しても伺います。例えば、その言語内に存在しない子音の連続についてや、「str」という文字で始まる単語はあるか? といった質問をします。このような子音の連続は英語には存在しますが、他の言語では必ずしもあるとは限りません。
スクリプトは大半の場合クライアントが作成したものですが、必ず言語スペシャリストが校正を行います。文法的に正しいかどうかだけでなく、話し方や固有名詞などの発音に注釈をつけなければならないためです。
例えば、数字を発音するときには注釈が重要です。「1990」の発音は「ナインティーン・ナインティ」なのか、それとも「ワンサウザンド・ナインハンドレット・ナインティ」と発音すべきなのかといった問題です。クライアントが作成するスクリプトは、ウェブから収集したものがほとんどです。そのようなものはランダムで意味をなさない文章で構成されているため、読みやすいように言語スペシャリストが書き直しを行います。
言語スペシャリストは、それぞれの文章がどのように発音されるか音声記号を使って変換を行います。それぞれの音とその音を表す記号の対応表を作るのです。発音の目安にするという目的では、古くから国際音声記号(IPA)が知られていますが、PTWではIPAを使用しません。
「IPAはすごく便利というわけではなく、キーボード上でも打ちにくいです。その代わり私たちはSAMPA(音声評価法音声記号)を使用します。ボイスディレクターやプロジェクトマネージャーは、SAMPAに慣れていると助かります」とMicaelaは言います。SAMPAは、1980年代後半にコンピューターで解析できるように開発された発音記号です。
スクリプトのサニタイズとアノテーションが完了すると、音声制作のスペシャリストであるSIDEがプロセスを引き継ぎます。キャスティングは、クライアントの要望に合うスタイルの声優を探すことからスタートします。ボイスディレクターは、一貫性、持久力、発音、韻律、方言の特殊性を再現できるかどうかを基準に選定を行います。
声優を選定する際は、ネイティブスピーカーであり、かつ求めているアクセントを備えていることが必須です。必ずしも有名な声優である必要はありませんが、プロの声優のほうが求められる品質やスキルにマッチする傾向にあります。
「それから、皆さんの想像とは違い、一語ずつ単に録音していくわけではありません」とMicaelaは語ります。「個々に読み上げる場合には、発音が不自然になりがちです。そのため、ほとんどのスクリプトは文章レベルの一般的な言い回しで構成されています」
古いTTSシステムが不自然な発音に聞こえていたのは、文章から単語を切り貼りして音声を作成していたため、音声におかしなエフェクトがかかってしまうからでした。音声収録を行う声優は、スクリプトを初見で即座に読み上げなければなりません。通常は、1万ライン程度のセリフを数週間かけて収録します。
ボイスディレクターは、全体を通して常に話し方のスタイルや声質を一定に保つように指示を出します。声優が風邪気味だったり、声が違っていたりすると、収録は中断することになります。
1日の平均的な収録セッション時間はどのくらいですか?「約4時間ですね。これは主に声優の声帯を守るためです」各ファイルは、それぞれのスクリプトが収録されるたびに順次処理するために送られます。収録終了時にまとめて処理されるわけではありません。
「SIDEは言語スペシャリストにファイルを分析してもらっています」とMicaelaは続けます。「言語スペシャリストは、スクリプトそのものだけでなく、発音もチェックします。私たちが使用するツールは、他と比べてもかなり優秀だと思いますよ」また、言語スペシャリストに音声の問題についても聞きますが、そのような問題は専門家の側へ届く前にポストプロダクションのチームが発見することがほとんどです。
チェックが終了しクライアントに届いたファイルは、クライアントが独自のアルゴリズムで処理します。「アルゴリズムはブラックボックスで、すべて機械学習で処理されます。その時点ですべてのデータとはお別れになります。アプリケーションがテキストを合成するために学習を行いますが、それに使用するのが学習モデルです。音声合成は、納得がいくまで社内でテストしてチェックします。間違いが見つかったり、ボイスの調子が悪かったりすると、何度か録り直して問題を解決します」
このポジションのやりがいは何ですか?「たくさんありますね。世界中のフリーランサーをまとめ上げることでしょうか」とMicaelaは笑って言います。「全く異なる言語のプロセスへと移っていくのは大きなハードルです。すべての言語の機能が英語と同じというわけではありません。また、トーンに対応するシステムは整っていません。辞書が存在しないので、一から作らなければならないのです」
テキスト・トゥ・スピーチは日常生活で既に当たり前になっており、今後も用途は広がっていくことでしょう。その実行プロセスはこれまで述べてきたように単純なように思われますが、まだ手をつけていない世界のあらゆる言語に対応するためには、新たな方法を生みださなければなりません。
ですが、積極的に考え、研究しなければならないチャレンジがあるからこそ、Micaelaは仕事に没頭できるのです。MicaelaはPTWでの仕事を通じて、世界中の言語に対する理解を深めていきたいと考えています。