sábado, 20 de octubre de 2012

Los conflictos entre usuarios y los diccionarios de pronunciación de las síntesis de voz

Los usuarios con discapacidad visual severa habitualmente utilizan para acceder a sus dispositivos electrónicos un producto de apoyo conocido como lector de pantalla. Este tipo de software utiliza habitualmente una voz sintética para transmitir al usuario ciego la información del dispositivo.
Estas voces sintéticas o síntesis de voz suelen utilizar un diccionario de reglas y un conjunto fonético apropiado para el idioma del usuario. Incluso hay distintas versiones de un mismo idioma según la región como por ejemplo inglés de Estados unidos, británico o australiano así como español de España, de Méjico o español de Estados unidos.

Problemas de dicción y pronunciación
Algunos fabricantes de voces sintéticas utilizan locutores para grabar las voces originales y, tras un laborioso proceso de digitalización y análisis, se obtiene un cuadro fonético para crear los sonidos base para pronunciar los diversos contenidos textuales.
Algunas voces sintéticas son famosas por su calidad pero también las hay famosas por sus errores de dicción. Estos errores pueden originarse por un problema del locutor o por un error en el análisis previo de la información sonora. Por ejemplo, es conocido un error en una de las voces de la empresa Acapela group a la hora de pronunciar el monema type. En lugar de pronunciar tipe o táip se podía escuchar un silbido. Esto se debió a un error de asignación para el valor ype o type al que asignaron los fabricantes un tiempo concreto de la grabación en el que el locutor silbó para grabar posibles elementos para aportar emotividad a la síntesis de voz utilizando grabaciones de carcajadas, lloros, silbidos y demás.
Otro gran problema de pronunciación se origina en el diccionario de pronunciación que incluyen muchas voces. Este servicio es incluido por los fabricantes para aportar un poco de inteligencia a su síntesis de voz. El problema es que normalmente no hay un mecanismo para desactivar este diccionario de pronunciación interno y encontramos que algunos lectores de pantalla, al encontrar las siglas VB refiriéndose a Visual Basic la síntesis de voz pronuncia visto bueno. Otro problema conocido es el de signos de puntuación o caracteres no alfabéticos. Por ejemplo, es conocido el problema en OSX a la hora de pronunciar el carácter arroba (@), en lugar de pronunciar el carácter en castellano pronuncia algo parecido a alas.
Por último indicar un grave problema relacionado con la pronunciación de siglas, números romanos expresiones matemáticas imposibles o palabras en otros idiomas. Algunos ejemplos de estos problemas podemos encontrarlos a la hora de recorrer la agenda de contactos, por ejemplo, Carlos Vicente,al tener un nombre muy largo sólo se mostrará en la agenda como Carlos V y el lector de pantallas pronunciará Carlos quinto. Una versión de una voz sintética para Windows dejaba de funcionar si encontraba una expresión matemática imposible como era el ordinal femenino de 0 (0 ª). Podía pronunciar primera, segunda, tercera, … pero la expresión cerera no existe. Una voz sintética para Linux era incapaz de pronunciar, utilizando la voz en inglés o español, ciertas palabras en alemán u holandés donde se encontraban varias consonantes consecutivas sin ningún tipo de vocal. La síntesis de voz terminaba por marcar un error de ejecución y cerraba el lector de pantallas.

Soluciones a estos problemas
En un primer lugar el usuario puede transmitir al fabricante de la voz sintética y del lector de pantallas el problema. En el caso de no hacer caso como sucede con Apple, Freedom scientific o Acapela, podemos personalizar nuestro propio diccionario de pronunciación.
Los lectores de pantalla más avanzados suelen incluir una característica de personalización para el usuario para la corrección de errores de pronunciación. Así el nombre Jonathan podría pronunciarse correctamente como Yónathan.

Fuente: Blog Programar a ciegas

No hay comentarios:

Publicar un comentario