Los screen readers leen los elementos textuales visualizados y convierten los datos en una emisión de voz sintética o envían las correspondientes señales para su traducción a un dispositivo braille, que emite el texto correspondiente en formato táctil.
En la emisión de voz artificial los tonos se generan con ayuda de sintetizadores, como, por ejemplo, Elo o eSpeak. Estas aplicaciones recurren a diccionarios integrados en los que también aparece la pronunciación de la mayoría de palabras, pero raramente puede crearse un lenguaje que suene natural de esta manera. Hay que tener en cuenta que la entonación de una misma palabra puede variar en función de su significado dentro de un contexto o de su posición sintáctica.
En este sentido, también pueden surgir problemas en torno a la entonación de las preguntas, pues las subidas y bajadas tonales influyen en la interpretación. Por ejemplo, “es la hora” o “¿es la hora?” son dos oraciones distintas, cuya diferencia de significado en la lengua hablada se pone de manifiesto mediante la entonación. Para que el sintetizador de voz pueda reproducir correctamente la segunda frase, esta debe incluir al final de una subida de voz, pues de lo contrario el usuario la interpretará de forma errónea como una afirmación.
En la síntesis de voz son especialmente relevantes las siguientes características cualitativas:
- Acentuación de palabras. El sintetizador no solo tiene que pronunciar correctamente palabras aisladas, sino también adaptar la acentuación a su posición en la frase.
- Transición de las sílabas. Si el sintetizador compone la lengua a partir de sílabas, las transiciones deben diseñarse con fluidez para crear palabras comprensibles.
- Entonación de la frase. Si las subidas y bajadas de tono son relevantes para el significado de la frase (algo que se marca con la puntuación en la lengua escrita), el sintetizador debe ser capaz de reproducirlo.
- Velocidad del habla. El sintetizador debe intentar imitar el ritmo natural de la lengua para que el usuario obtenga una impresión auditiva natural.
- Velocidad de lectura. La velocidad de lectura también es importante para el usuario. En el mejor de los casos, la establece él mismo.
- Pausas. Los elementos de formato como párrafos y saltos de línea deben marcarse como pausas en la conversación para que sea fácil registrar el principio y el final de cada fragmento.
La investigación en lingüística computacional ha hecho muchos avances en los últimos años. El sistema Tacotron 2 de Google ofrece resultados muy parecidos a la calidad del habla humana. Los desarrollos más recientes se han podido llevar a cabo gracias a la capacidad autónoma de aprendizaje de los sintetizadores modernos. En términos generales, el programa aprende el lenguaje humano como un niño pequeño y “compone” la lengua a partir de documentos lingüísticos. Llama sobre todo la atención que Tacotron 2 sea relativamente resistente a los errores ortográficos y sepa hacer frente a la puntuación y a la acentuación de las frases (por ejemplo, con la tecla Mayús). No obstante, la síntesis del habla carece de emocionalidad y Tacotron 2 también tiene dificultades con las palabras extranjeras.
Todavía queda por ver cuándo este sintetizador y productos similares de la competencia estarán disponibles para un público más amplio y si podrán utilizarse en español. Mientras tanto, los lectores de pantalla para ciegos y personas con visibilidad reducida siguen empleando los sintetizadores de voz habituales que todavía siguen sonando como máquinas.