人才招募
在地化
回到LAB主頁
幕後花絮:語音合成
除了為 遊戲在地化 提供服務外,我們的在地化及音訊團隊同時也提供語音合成的相關服務。絕大多數人都或多或少與語音合成(text-to-speech)有所接觸。你可能曾在網路上偶然聽過語音合成將文字一字一句地唸出,又或是出遊時,某個地圖應用程式曾出聲為你提供逐向導航。不管語音合成的特定用途為何,這項自1970年代末期誕生的技術在現代已經有了大幅度的躍進。拙劣而詭異地模仿著人聲的機械音時代已經過去了;現在,我們熟悉的是更容易理解、也更具人性的語音合成。不過,它是如何進步至此的?
這需要在地化成員之一的語言專案經理Micaela Bester為我們解答。她管理著與我們最大合作夥伴相關的所有語音合成業務。Micaela在大學時專攻語言學,而她目前的職位在當時只會被認為是無稽之談。
「我只能從任教或言語治療兩者中做出抉擇。」她回憶道:「最後我在義大利教起了英文。」然而某一天,Micaela獲得了一份在Google任職資料標註師的工作。她在四年後離職 前往愛爾蘭都柏林,尋求一個改變的契機。「我很幸運地在 2019年12月 作為專案經理進入PTW,並開始與一些世界上最龐大的科技企業進行來往。」
一切始於客戶的一個請求。「客戶聯繫了我們,並提出希望能夠建構出虛擬的助理語音,比方說一個使用印地語的助理語音。」Micaela解釋道:「我們需要從招募人才開始,於是我們請人資在各個管道上廣發徵才資訊。」發布在 語言學相關的專板或專區 的徵才資訊吸引了許多人前來應徵,畢竟他們平常接觸到的幾乎只有教職類的職缺。「一般來說,我們的團隊會更傾向招聘翻譯人才,但這不是我們在這些專案裡需要的專業。我們需要的是音韻學家,研究特定語言及其語音的學者。這個要求有點過分嚴苛,要找到適合的人才並不容易。」
找到適任者的成功率很低,因此光是徵才就耗費許多時間。「我們收到眾多翻譯從業者投遞的履歷。他們認為自己能夠勝任,然而實際上,我們需要的專業技能非比尋常。」而符合條件的人才通常已經被其他公司聘僱為正職人員,也就不必尋求兼差作為收入來源。這是一份配合專案的兼職工作,並非穩定的長期工讀。「這比較適合那些偶爾有閒暇時間的在校研究人員,或工作性質比較相似的人。」
這個問題是否會影響專案進度?「是的。我們已經完成了絕大多數主要通用語言的語音合成,而隨著專案的推進,在開發中國家招募音韻學人才,只會讓任務更顯艱難。以往我們在四個月內就能夠完成一個專案;到了現在,我們需要的時間只會更長,不會更短。」
在面試的過程中,符合條件的應徵者會被要求更深入地介紹自己的語言,像是標準方言的特色等。「以雪梨的澳洲英語為例,你會注意到話者在『chance』等詞彙上使用的口音;這些詞彙會因為地域的不同,而有不同的發音或口音。」
他們同時也會被詢問與該語言本身有關的問題:哪些複輔音是「不被允許」的?一個單字是否能夠以「str」三個字母起手?這個複輔音在英語中是被允許的,但在其他語言中則不然。
雖然文案一般都由客戶提供,但還是需要請語言學專家再校訂過,在確保文案裡的語句正確無誤之餘,將名字、名稱或地址等用詞的發音標註清楚。
數字就是一個需要標註發音的典型案例;「1990」究竟該讀作「一九九零」還是「一千九百九十」?客戶提供的文案又經常是從網路擷取、拼貼的成果。語言學家需要梳理這些隨機又莫名其妙的句子,並將其重新撰寫成有意義的文字。
此外,他們也需要逐字逐句地標註詞句的音標。語言學家被要求使用一系列的符號與其對應的發音來標示一切。而PTW內使用的音標系統並非國際音標(IPA)。
「國際音標不是那麼泛用,對鍵盤使用者而言也不是很友善;我們選擇使用音標字母評估法(SAMPA)。當配音執導和專案經理熟悉它時,它能夠發揮的效用更大。」Micaela如此解釋。音標字母評估法於1980年代末被發明,是一種電腦可讀的音標符號。
文案在經過梳理與標註後, 音訊製作 專家 SIDE 就會接手下一階段的流程。找到合適的配音人員是這個階段的首要目標;配音人員的聲音必須滿足客戶對於角色提出的要求。配音指導會針對配音人員的一致性、耐力、發音與其韻律,以及是否能夠成功複製方言的特性等多個方面進行評估。
被選中的配音人員必須是擁有特定口音的母語人士。他們不一定要是經過專業訓練的配音人員,但相較之下,專業人士更能夠展現出足以勝任的配音技巧與品質。
「有些人可能認為,配音只是單純錄製幾個單字而已,但其實遠遠不只如此。」Micaela緊接著揭露:「人在一字一句地說話時,發音會顯得不太自然;因此,大部分的文案內容都是由近似於語句的片語組成。」
早期的語音合成系統之所以聽上去僵硬無比,就是因為系統將一個個單字從句子裡擷取出來後,又再回頭把單字黏貼成一個句子,從而導致入耳的聲效變得相當詭異。而配音人員必須掌握快速視讀的技巧;他們經常被要求在短短幾週內完成10,000句對話的錄製。
配音執導則需要確保配音人員的角色在錄製過程中保持一致,也需要確保配音人員的聲音品質能夠維持穩定。如果配音人員不慎感冒,或是因為其他原因使得聲音聽起來有些微不同,排定的錄製就會被迫延期。
平均一日的錄製時程會花費多少時間?「為了不過度消磨配音人員的聲帶,一天只會錄製大約四個小時。」錄好的音訊檔案會被逐批送去後製,而非等到所有的錄製工作都結束後才一次送出。
「SIDE會先把檔案送到語言學家手裡。」Micaela繼續說道:「而他們會檢查錄製內容和文案是否一致,以及是否存在發音上的問題。跟其他同業相比,我們對資源的掌控與使用更富績效。」語言學家也會留意檔案本身有無問題,不過在此之前,音訊的問題通常已經先由後製團隊排除了。
檔案在經過檢驗後,就會交由客戶所擁有的演算法進行最後的再製。「這個說起來有點黑箱作業,但其實它就是機器學習。在這個階段,我們就已經跟所有的檔案跟資料分手了。客戶的程式會經由訓練模型學習如何合成指定的文本;合成的語音會在內部經過反覆測試,直到滿足所有測試條件為止。如果客戶發現音訊檔案中有錯或是品質不如預期,我們就會需要協調重新錄製那些資料。」
這個職位會需要面臨哪些重大的挑戰?「滿多的,其中還包括領導散落在世界各處的兼職人員。」Micaela笑了笑,「涉獵完全不同語系的語言是則是另一大挑戰,畢竟不是所有的語言都和英語有相似之處。我們目前使用的系統可能無法處理音調的標示,而我們手邊也沒有相應的詞庫。所以只能靠自己白手起家了。」
語音合成在人們的日常生活中已經佔有一席之地,而且更多相關的應用程式可能會在日後崛起。即使綜上所述,進行語音合成的過程看上去並不繁複,但其他尚未觸及的語言可能需要另闢蹊徑才能達到同樣的效果。
而正是這些亟需積極研究、構思的挑戰讓Micaela仍然揣懷著工作的熱忱。在PTW任職,讓她對繼續拓展世界上各種語言的知識充滿期待。