Plusieurs techniques de reconnaissance vocale sont utilisées pour capturer les mots prononcés et les convertir en données pouvant être utilisées par un logiciel. Il existe trois grandes façons d’analyser le discours dans le but de déterminer ce qui est dit. Le premier est appelé discours discret, ce qui signifie qu’un seul mot est prononcé à la fois. La seconde est connue sous le nom de discours connecté, et les mots doivent être prononcés d’une certaine manière pour être compris. Enfin, il y a la parole continue, qui est la façon dont la plupart des gens parlent normalement.
L’algorithme le plus couramment utilisé pour tous les types de techniques de reconnaissance vocale est le modèle de Markov caché (HMM). Ce système implique de grands arbres de données de phonèmes, ou sons et syllabes de base, qui sont divisés par la probabilité statistique d’un son suivant l’autre. En comparant chaque phonème à un nœud dans l’arborescence de données de sons, le mot complet réel peut être déterminé avec un taux de précision élevé dans une période de temps relativement courte.
Un problème difficile à surmonter avec certaines techniques de reconnaissance vocale est d’isoler le début et la fin d’un mot. Cette tâche est compliquée par le bruit de fond dans la pièce et le fait que certaines syllabes ont une signature sonore qui ressemble à une pause entre les mots. Pour cette raison, les techniques de reconnaissance vocale discrètes et connectées sont les plus précises.
Un autre facteur qui sépare les différentes techniques de reconnaissance vocale est la question du vocabulaire logiciel. Un logiciel qui interprète la parole peut soit avoir un vocabulaire très limité avec une grande précision, soit un vocabulaire étendu qui doit être adapté aux modèles de parole individuels d’un utilisateur spécifique. Lorsqu’un programme utilise la méthode HMM d’assemblage de mots, moins il y a de mots compris, plus le programme peut être précis. C’est la méthode que la plupart des systèmes téléphoniques automatisés utilisent pour déchiffrer les numéros ou les réponses aux questions.
Les techniques de reconnaissance vocale qui comprennent un large vocabulaire sont généralement conçues pour interagir avec très peu ou un seul utilisateur. C’est parce que le programme doit être formé pour comprendre les modèles de discours de la personne qui parle. La formation consiste à lire des paragraphes de texte prédéfinis dans le logiciel. Les mots lus étant connus, le programme est capable de construire un modèle statistique de phonèmes spécifiques à l’utilisateur. Cela donne au programme une bien meilleure chance de comprendre l’utilisateur, mais cela peut également empêcher le programme de comprendre les personnes avec lesquelles il ne s’est pas entraîné.
La plus difficile des techniques de reconnaissance vocale est l’interprétation de la parole continue ou naturelle. De nombreuses personnes ont tendance à associer des mots et à parler à des vitesses différentes, de sorte que la précision des programmes qui traduisent la parole continue est inférieure à celle des autres méthodes. Pourtant, il existe des programmes qui peuvent traduire ce type de discours, certains d’entre eux utilisant la logique floue et les réseaux de neurones pour aider à reconnaître les modèles et isoler les mots.