Qu'est-ce que la reconnaissance vocale automatique ?

La reconnaissance vocale automatisée (ASR) est une technologie conçue pour permettre à la langue parlée d’être numérisée, stockée et manipulée. Il est principalement utilisé dans le traitement de texte et la traduction, mais est également inclus dans des programmes conçus pour la réduction de l’accent et l’orthophonie. Elle a également des applications limitées dans le domaine de la sécurité à des fins d’identification vocale.

La reconnaissance vocale automatisée a fait ses débuts dans les années 1950 et la recherche a été financée conjointement par les communautés de la défense et du renseignement. La technologie nécessaire pour le rendre utile n’existait pas à l’époque et les premiers travaux ne se sont pas avérés fructueux. Au fur et à mesure que la technologie progressait, le développement de la reconnaissance vocale automatisée s’est déplacé vers des utilisations non militaires telles que la fourniture d’un accès informatique aux personnes handicapées et le traitement de texte verbal.

Le type le plus élémentaire de reconnaissance vocale automatisée est la saisie discrète. Il s’agit d’une méthode simple dans laquelle chaque mot et phrase est prononcé avec une pause entre eux. Il fait parler l’utilisateur d’une manière guindée, mettant l’accent sur l’énonciation de chaque mot individuel. Adaptée aux processeurs plus lents et aux programmes moins avancés, cette méthode est très précise mais très lente dans sa mise en œuvre.

Le développement d’ordinateurs plus rapides et d’une programmation plus complexe a conduit au système de parole continue, qui permet à l’orateur de parler selon une méthode normale avec des phrases complètes et une cadence régulière. Ce programme dépendant du locuteur apprend comment l’utilisateur parle en tant qu’individu, puis modèle ses prédictions pour le choix des mots en fonction du locuteur réel. Cette connaissance rend le programme très précis, mais seulement pour l’individu qu’il a appris à comprendre.

Il existe également des technologies indépendantes et adaptatives qui fonctionnent avec n’importe quel utilisateur. Ces programmes intègrent des sous-programmes complexes avec des caractéristiques prédictives qui analysent les phonèmes par rapport à une grande base de données, puis produisent le texte. Ce type de programme s’adapte lorsqu’une entrée défectueuse est corrigée par l’utilisateur, puis il fait l’inférence appropriée la prochaine fois qu’il rencontre ce mot. Cette méthode n’est pas aussi précise que le système dépendant de l’utilisateur, en raison de la nature disparate de la conversation entre les utilisateurs. La plupart des logiciels modernes incluent une technologie dépendante, indépendante et adaptative, et ils bénéficient d’un taux de reconnaissance de plus de 90 %.

La technologie de reconnaissance vocale automatisée est rencontrée tous les jours. Les banques et autres entreprises l’utilisent dans les communications téléphoniques, permettant au client de formuler des questions et de parcourir les différentes options de menu. Les sténographes judiciaires utilisant des silencieux vocaux sont capables d’éliminer le bruit de fond dans la salle d’audience et de fournir une transcription parfaite des procédures judiciaires. Enfin, dans un retour à son objectif initial, les unités militaires ont utilisé la reconnaissance vocale automatisée dans des phrasélateurs bidirectionnels qui permettent une traduction instantanée sur le champ de bataille.