Localisation assurance-qualité (LQA)
Retour au Labo
Qu'est-ce que la synthèse vocale de texte?
Les systèmes de synthèse vocale (TTS pour text-to-speech) permettent de transformer un texte écrit en paroles pour une utilisation dans la technologie des assistants vocaux. Chez PTW/Side, nous recueillons et éditons des données pour les utiliser dans les systèmes de TTS de nos clients dans le secteur de la technologie.
Pour construire un modèle de synthèse vocale, nos clients ont besoin d'audio, du texte correspondant et de quelques informations supplémentaires à propos du texte, telles que la manière dont certains mots en particulier doivent être prononcés. Toutes ces données sont des entrées utilisées pour entraîner un modèle qui peut automatiquement produire de la parole et lire un texte à haute voix correctement. La TTS est employée pour les téléphones intelligents et les enceintes intelligentes, les technologies d'assistance pour les personnes atteintes de déficience visuelle, dans les gares et les aéroports, et pour un nombre croissant d'applications.
La première étape d'un projet de données TTS consiste à recruter des linguistes qualifiés. Le prérequis principal pour les candidats est d'avoir étudié la linguistique formelle, notamment la phonétique et la phonologie. Ils doivent avoir de l'expérience (même s'il ne s'agit que d'un projet universitaire) en matière de transcription de la prononciation des mots au moyen de l'alphabet phonétique international (API) ou d'un alphabet similaire. Les linguistes doivent également être des locuteurs natifs de la langue pour laquelle nous recrutons.
Les candidats doivent passer un examen de sélection conçu par le client - lequel consiste essentiellement en des transcriptions de prononciations - et un entretien.
De nombreuses langues varient largement selon les régions. Cependant, pour ce qui concerne les systèmes de TTS, il est important de définir une variante spécifique aussi précisément que possible. Les questions que les linguistes devraient se poser pour sélectionner un dialecte cible pour le recueil de données sont notamment :
Un système de TTS exige également une définition linguistique de la langue en question. Nos linguistes aident à définir l'ensemble des phonèmes (sons uniques) permis dans la langue, ainsi que les combinaisons de sons valides (phonotactiques).
Le système utilise ces informations et les données d'entraînement (audio et texte correspondant) pour apprendre comment convertir les lettres en phonèmes. Notre objectif est d'obtenir un modèle qui peut automatiquement prononcer tous les mots qu'il rencontre. Malheureusement, ce n'est pas toujours aussi simple. Les linguistes doivent souvent transcrire la prononciation des mots explicitement, notamment pour les mots moins communs, les emprunts aux langues étrangères, ou les mots dont l'orthographe ne respecte pas les règles habituelles de prononciation. Toutes ces orthographes et prononciations sont consignées dans un dictionnaire spécial, appelé lexique de prononciation.
L'étape suivante d'un projet de données de TTS consiste à préparer un script qui sera lu à haute voix et enregistré par un·e acteur·trice. L'objectif d'un tel script est de saisir toutes les combinaisons permises dans la langue. Nous devons également nous assurer que le script soit facilement lisible. Enfin, la prononciation de chaque mot du script est vérifiée et transcrite dans le lexique, pour garantir que le modèle reçoivent des données d'entraînement de grande qualité.
L'avant-dernière étape dans un projet de données de TTS est d'enregistrer l'audio. Pour cela, il nous faut trouver un·e acteur·trice dont la langue maternelle est le dialecte cible. Il/elle doit également être bon·ne lecteur·trice à vue, car les lignes de script ne sont pas apprises à l'avance.
L'acteur·trice sélectionné·e enregistrera ensuite le script que nous aurons précédemment édité, et nous mettrons à jour toutes les prononciations nécessaires dans le lexique (si l'acteur·trice prononce régulièrement un mot d'une certaine manière, par exemple, nous nous assurons que les prononciations soient mises à jour dans le lexique pour correspondre au plus près).
SIDE est spécialisé dans la certification de studios et la constitution d'équipes dédiées aux enregistrements de TTS dans le monde entier. Nous avons recruté et enregistré des voix dans plus de 40 langues et sites.
La distribution artistique et l'enregistrement pour la TTS diffère des autres types de voix hors champ. Chaque ligne de texte doit être lue avec une diction parfaitement homogène, sur un ton et à un volume constants. La lecture doit aussi être naturelle et non sur-jouée. Ainsi, les données d'entraînement resteront-elles uniformes, ce qui permettra d'obtenir un discours synthétisé plus homogène produit par la voix de TTS.
Ensuite, nos linguistes doivent évaluer les enregistrements pour garantir que l'audio corresponde au texte, et que les prononciations de l'acteur·trice soient correctes et correspondent à celles qui sont consignées dans notre lexique. C'est à cette étape qu'il est possible de mettre à jour les entrées du lexique si nécessaire.
Comme tout est réalisé avec les outils du client, il n'y a pas de transmission de données à la fin de l'étape d'évaluation. Une fois que nous avons procédé à l'évaluation de la qualité et de l'exactitude de l'audio, SIDE se retire du processus et l'équipe du client est prête à utiliser ses nouveaux fichiers audio. La TTS est de plus en plus utilisée par les sociétés technologiques pour intégrer des fonctions d'accessibilité dans leur travail, et SIDE est heureux de faire partie de ce processus. Élaborer une stratégie pour incorporer une fonction telle que la TTS dans votre travail peut s'avérer délicat, et nous offrons une consultation gratuite pour vous donner un aperçu de ce qu'une collaboration en matière de TTS avec SIDE pourrait représenter pour votre entreprise.