Esta página se tradujo automáticamente con la API de traducción de Google Cloud.
Algunas páginas se pueden leer mejor en su totalidad.
La tecnología de texto a voz (TTS) convierte el texto en voz con sonido natural. Se puede usar para ayudarlo a leer texto o para crear voces realistas para sus personajes en juegos o videos. La tecnología TTS también se está utilizando para crear libros de audio o para proporcionar descripciones de audio de imágenes para personas ciegas o con problemas de visión.
AWS Polly es un servicio TTS que utiliza algoritmos de aprendizaje profundo para convertir texto en voz realista. Polly admite varios idiomas y voces, por lo que puede crear un discurso en su propio idioma o en otro idioma.
Polly es fácil de usar. Simplemente envíe el texto que desea convertir a voz a la API de Polly, y Polly lo convierte en un archivo de audio que puede descargar o reproducir en su aplicación.
Polly es un servicio TTS escalable que puede manejar grandes volúmenes de tráfico. Puede usar Polly para crear voz a escala, sin tener que preocuparse por la planificación de la capacidad o la administración de la infraestructura del servidor.
Polly utiliza un algoritmo de aprendizaje profundo para convertir texto en voz. El algoritmo se entrena en un conjunto de datos de habla humana real, por lo que puede aprender a imitar los patrones del habla humana.
Polly admite varios idiomas y voces. Cada voz tiene su propio conjunto de características, como tono, velocidad y acento. Puede seleccionar una voz que sea apropiada para su aplicación.
Polly convierte el texto en voz una palabra a la vez. Primero divide el texto en una serie de fonemas y luego asigna los fonemas a los sonidos correspondientes en la voz seleccionada.
Polly puede generar voz a partir de texto en tiempo real, o puede generar voz a partir de texto pregrabado.
Polly tiene una serie de ventajas sobre los sistemas TTS tradicionales:
Habla con sonido natural: Polly utiliza algoritmos de aprendizaje profundo para generar un habla que suene natural y humana.
Compatibilidad con varios idiomas y voces: Polly admite una amplia gama de idiomas y voces, por lo que puede crear discursos en su propio idioma o en otro idioma.
Escalable: Polly es un servicio TTS escalable que puede manejar grandes volúmenes de tráfico. Puede usar Polly para crear voz a escala, sin tener que preocuparse por la planificación de la capacidad o la administración de la infraestructura del servidor.
Polly no es perfecta. Estos son algunos de los inconvenientes de usar Polly:
Precisión: Polly no es 100 % precisa. El algoritmo de aprendizaje profundo que utiliza Polly para generar voz no es perfecto y, en ocasiones, comete errores.
Costo: Polly es un servicio de pago por uso, por lo que se le cobrará por la cantidad de caracteres que convierta a voz.
Latencia: Polly tarda en generar voz. La cantidad de tiempo que lleve dependerá de la longitud del texto y la complejidad de los algoritmos utilizados.
Polly es un servicio de pago por uso. Se le cobrará por la cantidad de caracteres que convierta a voz. El precio depende de la voz que selecciones y de la región en la que estés usando Polly.
Para comenzar con Polly, primero debe crear una cuenta de AWS. Luego, puede crear una voz de Polly utilizando la Consola de administración de AWS.
Una vez que haya creado una voz, puede usar la API de Polly para convertir texto a voz. La API de Polly es un servicio web al que puede llamar desde su propia aplicación.
Polly se puede utilizar para una amplia gama de aplicaciones, que incluyen:
Texto a voz: puede usar Polly para convertir texto en voz. Esto se puede usar para crear libros de audio o para proporcionar descripciones de audio de imágenes para personas ciegas o con problemas de visión.
Conversión de voz a texto: puede usar Polly para convertir voz en texto. Esto se puede usar para crear transcripciones de discursos o para crear subtítulos para videos.
Experiencias inmersivas: puedes usar Polly para crear voces realistas para tus personajes en juegos o videos.