Service de synthèse vocale de texte

En coulisses : La synthèse vocale de texte

En plus de nos services de localisation de jeux, nos équipes de localisation et d'audio fournissent également des services de synthèse vocale. Nous avons tous une certaine expérience de la synthèse vocale (TTS pour text-to-speech). Vous avez peut-être déjà entendu un texte en ligne lu à voix haute par l'ordinateur ou une application de cartographie vous lire des indications détaillées. Quelle que soit son utilisation, la technologie a progressé depuis ses débuts à la fin des années 1970. L'époque des simulacres mécaniques et inquiétants de voix humaines est révolue. De nos jours, ce qui émane des haut-parleurs est beaucoup plus chaleureux et compréhensible. Mais comment cela est-il possible?

Micaela Bester, responsable du programme linguistique, localisation, nous éclaire sur le processus de TTS. Micaela gère tout le travail linguistique de TTS pour notre plus gros client. Elle a étudié la linguistique à l'université, à une époque où il n'existait aucun emploi de ce type.

« J'avais le choix entre le monde universitaire et l'orthophonie, explique-t-elle. J'ai fini par enseigner l'anglais en Italie. » Puis, soudainement, une chance lui est offerte de travailler pour Google en tant qu'annotatrice de données. Elle quitte cet emploi au bout de quatre ans, après un passage à Dublin en Irlande, désireuse de changement. « J'ai eu la chance de découvrir PTW en décembre 2019 et j'ai commencé en tant que gestionnaire de programme, travaillant avec certaines des plus grandes entreprises technologiques au monde. »

La recherche de talents

Le processus commence par une demande. « Le client nous contacte et nous dit qu'il veut concevoir une voix d'assistant en hindi, par exemple, explique Micaela. Nous commençons par le recrutement. Il faut demander aux ressources humaines de publier des annonces dans tous les canaux habituels. » La plupart des candidats proviennent de sites d'emploi et de ressources spécialisés où sont annoncés les postes à pourvoir en linguistique, généralement de nature universitaire. « Nos équipes recherchent normalement des traducteur·rice·s, mais pour ces projets, ce n'est pas ce que nous voulons; nous voulons des phonologues, qui étudient les sons de la parole dans une langue donnée. C'est très spécifique et il est difficile de trouver des gens. »

Le taux de réussite pour trouver des personnes qualifiées est faible, de sorte que le processus peut prendre du temps. « Nous recevons beaucoup de candidatures de traducteur·rice·s qui pensent pouvoir faire le travail, mais il s'agit d'un ensemble de compétences très spécifiques. » Les personnes ayant les bonnes compétences sont souvent déjà employées à temps plein, elles ne cherchent donc pas de travail supplémentaire. Cet emploi est à temps partiel et sur la base de projets, ce n'est donc pas un travail stable. « C'est idéal pour les personnes qui évoluent dans le milieu universitaire qui ont parfois du temps libre entre les recherches, etc. »

Cela affecte-t-il les délais des projets? « Oui, après avoir déjà produit la plupart des langues principales, nous nous déplaçons de plus en plus vers les pays en développement, et il est donc plus difficile de trouver des phonologues. Avant, nous étions capables de terminer un projet classique en quatre mois; désormais, cela prend plus de temps. »

Au cours du processus de sélection, il est demandé aux personnes retenues de nous en dire un peu plus sur leur propre langue; les caractéristiques du dialecte standard. « Par exemple, pour le dialecte anglais australien de Sydney, on écoute des mots comme “chance” qui se prononce différemment selon les régions. »

On leur pose également des questions sur la langue en elle-même. Par exemple, quels groupes de consonnes sont “illégaux”? Un mot peut-il commencer par les lettres “str”, par exemple? Ce groupe est légal en anglais, mais il ne l’est pas nécessairement dans d'autres langues.

L'écriture du script

Le script a souvent déjà été généré par le client, mais les linguistes doivent le relire, non seulement pour s'assurer qu'il est grammaticalement correct, mais aussi pour annoter la prononciation d'éléments tels que les adresses ou les noms propres.

Les nombres sont un bon exemple d'exigences différentes en matière de prononciation : “1990” doit-il être prononcé “dix-neuf cent quatre-vingt-dix” ou “mille neuf cent quatre-vingt-dix”? Le client produit le script, généralement en récoltant des données sur Internet. Il est composé de phrases complètement aléatoires, la plupart du temps en charabia, que les linguistes doivent réécrire pour les rendre lisibles.

Les linguistes doivent transcrire la façon dont chaque phrase est prononcée, en utilisant un alphabet phonétique. On leur donne une liste, une correspondance entre les sons et les symboles qu'ils doivent utiliser pour représenter ces sons. Cependant, PTW n'utilise pas l'alphabet phonétique international classique, qui est une notation phonétique utilisée pour guider la prononciation.

« Ce n'est pas très utile, et ce n'est pas très pratique à écrire avec un clavier. Nous utilisons le SAMPA (Speech Assessment Methods Phonetic Alphabet). Il est utile que le directeur vocal et le chef de projet le connaissent bien » explique Micaela. Le SAMPA a été développé à la fin des années 1980 pour être lisible par ordinateur.

L'enregistrement du script

Une fois le script éclairci et annoté, nos spécialistes de la production vocale chez SIDE prennent en charge le processus. La phase de casting commence par la recherche de talents vocaux, correspondant au style de personnage demandé par le client. Le directeur vocal évalue la cohérence, l'endurance, l'énonciation, la prosodie et la possibilité de reproduire les particularités du dialecte.

Les locuteur·rice·s doivent être natif·ve·s et avoir l'accent souhaité. Il ne doit pas nécessairement s'agir d'un talent confirmé, mais les qualités et les compétences requises tendent à se retrouver chez les personnes dont le métier est de parler.

« Et il ne s'agit pas d'un simple enregistrement de mots isolés, comme on pourrait le croire, révèle Micaela. Lorsque les gens lisent des mots isolés, ils ont tendance à les prononcer de manière non naturelle. La majeure partie du script est composée d'expressions communes. »

Les anciens systèmes TTS n'ont jamais donné un son naturel, car ils fonctionnaient en coupant des mots dans des phrases pour ensuite les recoller ensemble, ce qui produit des effets vocaux étranges. Le talent doit lire à vue très rapidement. En général, 10 000 lignes de dialogue sont enregistrées en quelques semaines.

Le directeur vocal s'assure que le style du personnage est respecté pendant toute la durée de la production et que la qualité de la voix reste constante. Si le talent a un petit rhume ou un son de voix un peu différent, les enregistrements sont suspendus.

Quelle est la durée moyenne d'une session d'enregistrement typique? « Environ quatre heures. Principalement pour préserver les cordes vocales. » Les fichiers sont envoyés pour être traités au fur et à mesure que les scripts sont enregistrés; ils ne sont pas tous traités en même temps à la fin de l'enregistrement.

« SIDE envoie les fichiers aux linguistes pour analyse, poursuit Micaela. Les linguistes vérifient le script, mais aussi la prononciation. Les outils dont nous disposons sont plutôt bons, comparés à d'autres. » Ils cherchent également à repérer les problèmes audio, mais l'équipe de postproduction les détecte généralement avant qu'ils n'arrivent aux linguistes.

Le traitement des données

Une fois les fichiers vérifiés, ils sont livrés au client pour être traités par leurs algorithmes propriétaires. « C'est un peu comme une boîte noire. C'est de l'apprentissage automatique. On dit adieu à toutes les données à ce moment-là. L'application apprend à synthétiser le texte; c'est un modèle d'apprentissage. La synthèse vocale est testée et vérifiée en interne jusqu'à ce qu'elle soit satisfaisante. Si des erreurs sont repérées, ou si la voix sonne mal à l'écoute, alors des ré-enregistrements sont effectués pour régler les problèmes. »

Quels sont les aspects les plus difficiles de ce poste? « Il y en a beaucoup, notamment le fait de trouver des linguistes indépendant·e·s dans le monde entier, dit Micaela en riant. Aller vers des langues très différentes est notre prochain grand défi. Toutes les langues ne fonctionnent pas comme l'anglais. Les systèmes ne sont pas conçus pour gérer le ton. Aucun lexique n'existe, nous devons donc en construire un de toutes pièces. »

La synthèse vocale est déjà courante dans notre vie quotidienne, et d'autres applications verront probablement le jour. Si le processus d'exécution semble simple, comme nous l'avons vu plus haut, il est clair que de nouvelles méthodologies doivent être développées pour servir toutes les langues du monde sur lesquelles nous n'avons pas encore travaillé.

Mais ces défis, qui nécessitent une réflexion et une recherche actives, sont ce qui maintient Micaela engagée dans son travail. Elle est impatiente de continuer à développer sa compréhension des langues du monde grâce à son travail chez PTW.

ARTICLES CONNEXES : Localisation

Passerelle vers le marché des jeux coréen

Localisation, AQL et assistance aux joueurs : Comment préparer votre jeu pour le marché taïwanais

Les tenants et les aboutissants de la terminologie des jeux vidéo dans la localisation