La synthèse et la reconnaissance de la parole sont les deux faces de l’analyse informatisée de la parole. La synthèse vocale est la création de la parole humaine par un ordinateur ; par exemple, un ordinateur lisant un texte écrit. La reconnaissance vocale est la création d’informations informatiques à partir de mots parlés, comme la dictée d’un papier à un ordinateur. Bien que les deux processus ne soient pas directement liés, la synthèse et la reconnaissance de la parole reposent toutes deux sur la capacité d’un ordinateur à comprendre la parole et l’inflexion humaines. Une méthode est la sortie et l’autre est l’entrée.
Les processus utilisés par la synthèse vocale et la reconnaissance sont très similaires, même si le produit final est différent. Le processus se compose de deux parties, une partie avec interaction humaine et une sans. La partie humaine, c’est quand les mots humains entrent dans le programme ; la partie non humaine est lorsque le programme interagit avec l’entrée.
Un programme de synthèse vocale prendra en entrée humaine sous la forme d’un langage humain dactylographié ou écrit. Le programme lira la langue et déterminera ce qu’est chaque mot, en utilisant le placement des phrases et la ponctuation pour déterminer l’inflexion. Lorsqu’un mot peut être prononcé de plusieurs façons, comme dans le cas de « live », le programme recherche des mots proches et des indices de contexte pour déterminer quel mot est réellement utilisé. Les mots iront ensuite à la deuxième partie du programme, où ils seront prononcés à haute voix.
Dans un programme de reconnaissance vocale, le processus est inverse. L’entrée provient d’un locuteur humain prononçant des mots dans un ordinateur. L’ordinateur écoutera chaque mot et comparera le modèle généré par la voix du locuteur à une bibliothèque de sons et de mots possibles. Il détermine ensuite le mot le plus probable et l’envoie à la deuxième partie du système. Cette partie imprime en fait les mots à l’écran, de la même manière que le programme de synthèse prononce les mots.
Étant donné que chaque locuteur a un son légèrement différent, les programmes de synthèse et de reconnaissance vocales ont souvent une grande marge d’erreur. L’une des façons dont les gens combattent ces erreurs consiste à utiliser des profils de parole individualisés. Un locuteur unique verra son discours analysé par le programme pour trouver ses schémas vocaux spécifiques. Lorsqu’il trouve des erreurs dans la traduction informatique, il peut les corriger spécifiquement. Les corrections sont analysées et stockées par le programme afin que lorsque le mot gênant revient, le programme le traduira correctement.
Il existe une large application pour les programmes de synthèse vocale et de reconnaissance. Dans le domaine médical, ces programmes permettent à des personnes de communiquer qui, autrement, n’en seraient peut-être pas capables. Ces programmes ont une large application dans les entreprises en tant que moyen plus rapide de traduire des rapports et des documents. La reconnaissance vocale est également une méthode courante de configuration des dispositifs mains libres dans les automobiles, permettant aux gens de parler au téléphone de manière plus sûre tout en conduisant.