Festival ofrece un marco general para la construcción de sistemas de síntesis de voz, así como con ejemplos de varios módulos. En su conjunto se ofrece el texto completo a voz a través de una API de números: desde el nivel del shell, aunque un intérprete de comandos Scheme, como C ++ biblioteca, desde Java, y una interfaz de Emacs. Festival es multilingüe (actualmente Inglés (británico y americano), y español), aunque Inglés es el más avanzado. Otros grupos liberan nuevos lenguajes para el sistema. Y herramientas y documentación para construir nuevas voces completas están disponibles a través del proyecto FestVox de Carnegie Mellon (http://festvox.org)
El sistema está escrito en C ++ y utiliza el Edinburgh Herramientas de voz Biblioteca para la arquitectura bajo nivel y tiene un esquema (SIOD) intérprete de comandos basada por el control. La documentación se da en la FSF texinfo formato que puede generar, un manual impreso, archivos de información y HTML.
Festival es software libre. Festival y las herramientas del habla se distribuyen bajo una licencia de tipo X11 que permite el uso comercial y no comercial sin restricciones por igual.
Demostración en línea
Hay dos demostraciones en línea de Festival, donde se puede sintetizar sus propias frases:Versión actual
La versión 2.4 está disponible para su descarga. Esta es la versión más reciente disponible para su uso libre y sin restricciones.
Nuevo en esta versión:
- HTS Actualizado y motores CG
- Soporte para nuevos compiladores
- Corrección de errores en abundancia.
- La compatibilidad hacia atrás con el Festival 1.4.3
- Inglés (británico y americano), el texto español y galés a voz
- Idioma Externamente configurable módulos independientes:
- phonesets
- léxicos
- reglas letras-a sonido
- tokenizing
- parte del discurso de marcado
- entonación y duración
- Sintetizadores de forma de onda:
- Multisyn motor de selección de unidad
- HTS motor de síntesis paramétrica
- Motor de síntesis paramétrica Clustergen
- Motor de selección de unidad Clunits
- difono basado: LPC emocionados residual (y PSOLA no para distribución)
- El apoyo de base de datos MBROLA.
- distribuido bajo una licencia de tipo X11 gratis
- Portable (Unix) Distribución
- Documentación en línea
- Marcado SABLE, interfaces de Emacs, cliente / servidor, de secuencias de comandos.
Personal actuales
- Alan W Negro (CMU)
- Rob Clark (CSTR)
- Korin Richmond (CSTR)
- Junichi Yamagishi (CSTR)
- Keiichiro Oura (Nitech)
- Simon King (CSTR)
Personal del pasado
- Paul Taylor
- Richard Caley
- Heiga Zen
Manual
El manual 2.4 está disponible aquí.Listas de correo
Festival de las listas de correo relacionadas se pueden encontrar aquí.Otros recursos
- Las herramientas para construir voces multisyn como se describe en Clark, Richmond & King 2004 están disponibles aquí.
- SpeechRecorder es una herramienta para la grabación de datos de audio en un Mac.
Futuro
Festival está siendo constantemente mejorado y ha añadido que en la continuación de nuestra investigación en la síntesis de discurso en CSTR.


0 Comentarios:
Publicar un comentario
Suscribirse a Comentarios de la entrada [Atom]
<< Página Principal