[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: traductor de voz a escritura!



El Martes, 20 de Junio de 2006 10:45, TXIUAUA@telefonica.net escribió:
> ----Mensaje original----
> De: aritz.beraza@gmail.com
> Recibido: 20/06/2006 10:25
> Para: <debian-user-spanish@lists.debian.org>
> Asunto: Re: traductor de voz a escritura!
>
> >El resto es por ejemplo una base de datos con archivos de audio con
>
> cientos
>
> >o miles de palabras pronunciadas por un centenar de personas
>
> diferentes.
>
> >El problema es que esto es muy caro, y es un proceso bastante manual
> >(normalmente, se hace leer una frase o un numero de palabras
>
> sueltas,
>
> >luego alguien separa la frase en archivos de audio con sus palabras,
>
> y
>
> >luego por cada archivo de audio hay que especificar en que instantes
> >empieza y termina la palabra y otra informacion que facilite las
>
> cosas al
>
> >programa de entrenamiento. Lo normal es que tras esto, se genere un
> >diccionario que es lo que usa el sistema para reconocer palabras.
>
> Perdón por como salga este mensaje, este webmail es una ...
>
> Se me ocurre: En vez de palabras ¿no es más fácil reunir letras
> sueltas,

Para entrenar se suelen usar frases, lecturas de textos y cosas similares, 
como se dividan luego es otra cosa. Como he dicho en otro mail, si el 
vocabulario a reconocer es pequenyo, lo mas rapido y sencillo es reconocer 
palabras entreas (es decir, generar un modelo para cada palabra y luego el 
programa compara lo que recibe con los modelso de la palabras). Para 
vocabularios largos se usan alofonos (algo asi como fonemas). Esto 
requiere mas trabajo.

> fonemas y sílabas?
> Luego es cuestión de ajustar los "tiempos" entre sonido y sonido, para
> separar las palabras.
>

Separar en fonemas/alofonos no es trivial, no puedes cortar un fragmento de 
audio de una palabra y decir "entre aqui y aqui esta diciendo la 
letra 'b'" por que lo que esta diciendo realmente es la letra b 
condicionada por su entorno, y el hablante y sus condiciones, sin tener 
encuenta que hay periodos de transicion al pasar de pronunciar un sonido 
al siguiente.

Es bastante complejo el tema del reconocimiento del habla. Desde el que 
tomar como informacion de entrada (contra lo que pueda pensar la gente, no 
se usa el sonido sino la informacion frecuencial), Hasta el como se modela 
luego la informacion, los mecanismos de decision, son muy complejos. Una 
idea de la complejidad la da que incluso en los potentes ordenadores de 
hoy en dia, los motores de reconocmiento avanzados no funcionan en tiempo 
real.

Hay un paper, de Rabiner et Al muy bueno, que es una introduccion a la 
speech recognition (creo que el titulo es introduction to speech 
recognition, si alguien le interesalo mirare). Se hace una introduccion 
delos modelos matematicos usados (cadenas de markov ocultas) y luego se 
explica todo lo que tiene y hace un sistema de reconocimiento del habla. 
Muy interesante (mas que nada por que este cuatrimestre lo tuve que leer 
para crear mi proyecto, un sistema que reconocia los numeros del 0 al 9, 
ya os adelanto que el porcentaje de acierto rondaba el 70% :( ).

En fin, todo un mundo.
Saludos
Aritz Beraza [Rei]
-- 
Aritz Beraza Garayalde [Rei]   [http://www.ayanami.es] 
- No enviarás correos en HTML a La Lista.
- No harás top-posting, responderás siempre debajo del mail original.
- No harás Fwd, a La Lista, siempre reply.

Attachment: pgpStLtaJvzu5.pgp
Description: PGP signature


Reply to: