在地化品質保證
回到LAB主頁
什麼是語音合成系統(Text-To-Speech)?
語音合成系統 (TTS) 能將書寫文字轉換為語音,用於語音助理技術。在 PTW / SIDE ,我們收集整理數據,使用於我們的大型科技公司客戶的 TTS 系統。
要製作一個 TTS 合成系統模型,我們的客戶會需要語音、比對文字、以及一些其他的文字說明,例如某個特定的詞該如何發音。這些資料點都是用來訓練模型的輸入資料,使模型可以自動輸出語音,正確讀出文字。TTS 被運用在智慧型手機、智慧音箱、視障人士輔助科技、火車站或機場,以及其他越來越多的運用。
準備 TTS 資料專案的第一個階段為招募合格的語言學家。候選人的必備條件為學習過正規的語言學,尤其是語音學及音韻學。他們必須有使用國際音標 (IPA) 或類似系統轉換單字發音的經驗 (即使是大學研究專題)。招募的語言學家也必須是該語言的母語人士。
潛在的候選人必須通過客戶設計的甄選——主要包含發音聽寫測試及面試。
許多語言在不同地區有相當的差異。然而,以 TTS 系統的目的來說,盡可能精確地定義特定語種是必要的。語言學家在進行資料收集時,選擇目標方言應該考量的問題包括:
一個 TTS 系統也需要該語言的語言定義。我們的語言學家能協助定義一組語言中允許的音素 (獨特的聲音),還有哪些聲音組合是有效的 (語音組合法)。
這套系統會使用這個資料及訓練數據 (語音及比對文字) 學習將文字轉換成音素。我們的目標是打造一個能夠自動發音任何出現單字的模型。只可惜,不是每次都那麼容易。通常語言學家需要精準轉換單字的發音,尤其較不普遍的單字、外來語或拼法不遵循一般發音規則的單字。所有這些拼法及發音會被收錄在一個叫做發音辭典的特殊字典裡。
TTS 資料專案的下一個階段為準需朗讀的腳本,並由配音員錄製。這個腳本的目的為捕捉所有語言中允許的音素組合。我們也要確保腳本是容易閱讀的。最後,腳本中的每一個單字都有了自己的發音,檢查完成並轉換至發音字典裡,確保此模型接收高品質的訓練資料。
TTS 資料專案的倒數第二個階段為錄製語音。為此,我們需要找到能夠自然說出目標方言的配音員。因為不會事先看到腳本,他們也必須是出色的視覺閱讀者。
選定的配音員會錄製我們篩選好的腳本,我們會再視需要更新辭典裡的發音 (舉例來說,如果配音員固定用一種特定方式發音某個單字,我們會確保更新辭典中的發音,以盡可能地吻合)。
SIDE 專門為世界各地的 TTS 錄製建立團隊、認證錄音室。我們用超過40種語言和地方選角及錄製聲音。
TTS 的選角和錄音與其他種類的旁白配音相距甚遠。 每一行都必須嚴謹,甚至要以反射性、一致的語調和音量讀出。朗讀應自然且沒有過多的表演性質。這是為了確保均勻訓練數據,使 TTS 說出的合成語音更加流暢。
我們的語言學家必須評估錄音,確保語音跟文字相符,以及配音員的發音正確對應到我們收錄在辭典中的發音。在這個階段,我們可以視需要更新辭典裡的紀錄。
一切都是使用客戶的工具來完成,因此在最後的評估階段不會有資料冒用的問題。等我們評估完成語音的品質及準確度,SIDE 就會離開這個製程,客戶團隊也準備可以使用他們的新語音檔案了。TTS 漸漸成為科技公司將無障礙功能納入工作的重要一環,SIDE 很高興能夠參與其中。 將 TTS 這類的東西納入工作的策略可能會很棘手,我們免費提供諮詢,讓你了解一起跟 SIDE 製作 TTS 對你的企業來說大概是什麼樣子。