[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: traductor de voz a escritura!



El Martes, 20 de Junio de 2006 2:17 AM, Aritz Beraza Garayalde [Rei] escribió:
> El Martes, 20 de Junio de 2006 10:45, TXIUAUA@telefonica.net escribió:
> > ----Mensaje original----
> > De: aritz.beraza@gmail.com
> > Recibido: 20/06/2006 10:25
> > Para: <debian-user-spanish@lists.debian.org>
> > Asunto: Re: traductor de voz a escritura!
> >
> > >El resto es por ejemplo una base de datos con archivos de audio con
> >
> > cientos
> >
> > >o miles de palabras pronunciadas por un centenar de personas
> >
> > diferentes.
> >
> > >El problema es que esto es muy caro, y es un proceso bastante manual
> > >(normalmente, se hace leer una frase o un numero de palabras
> >
> > sueltas,
> >
> > >luego alguien separa la frase en archivos de audio con sus palabras,
> >
> > y
> >
> > >luego por cada archivo de audio hay que especificar en que instantes
> > >empieza y termina la palabra y otra informacion que facilite las
> >
> > cosas al
> >
> > >programa de entrenamiento. Lo normal es que tras esto, se genere un
> > >diccionario que es lo que usa el sistema para reconocer palabras.
> >
> > Perdón por como salga este mensaje, este webmail es una ...
> >
> > Se me ocurre: En vez de palabras ¿no es más fácil reunir letras
> > sueltas,
>
> Para entrenar se suelen usar frases, lecturas de textos y cosas similares,
> como se dividan luego es otra cosa. Como he dicho en otro mail, si el
> vocabulario a reconocer es pequenyo, lo mas rapido y sencillo es reconocer
> palabras entreas (es decir, generar un modelo para cada palabra y luego el
> programa compara lo que recibe con los modelso de la palabras). Para
> vocabularios largos se usan alofonos (algo asi como fonemas). Esto
> requiere mas trabajo.
>
> > fonemas y sílabas?
> > Luego es cuestión de ajustar los "tiempos" entre sonido y sonido, para
> > separar las palabras.
>
> Separar en fonemas/alofonos no es trivial, no puedes cortar un fragmento de
> audio de una palabra y decir "entre aqui y aqui esta diciendo la
> letra 'b'" por que lo que esta diciendo realmente es la letra b
> condicionada por su entorno, y el hablante y sus condiciones, sin tener
> encuenta que hay periodos de transicion al pasar de pronunciar un sonido
> al siguiente.
>
> Es bastante complejo el tema del reconocimiento del habla. Desde el que
> tomar como informacion de entrada (contra lo que pueda pensar la gente, no
> se usa el sonido sino la informacion frecuencial), Hasta el como se modela
> luego la informacion, los mecanismos de decision, son muy complejos. Una
> idea de la complejidad la da que incluso en los potentes ordenadores de
> hoy en dia, los motores de reconocmiento avanzados no funcionan en tiempo
> real.
>
> Hay un paper, de Rabiner et Al muy bueno, que es una introduccion a la
> speech recognition (creo que el titulo es introduction to speech
> recognition, si alguien le interesalo mirare). Se hace una introduccion
> delos modelos matematicos usados (cadenas de markov ocultas) y luego se
> explica todo lo que tiene y hace un sistema de reconocimiento del habla.
> Muy interesante (mas que nada por que este cuatrimestre lo tuve que leer
> para crear mi proyecto, un sistema que reconocia los numeros del 0 al 9,
> ya os adelanto que el porcentaje de acierto rondaba el 70% :( ).
>
> En fin, todo un mundo.
> Saludos
> Aritz Beraza [Rei]

Muchas gracias por responder, y reitero mi interes en esta materia.

Haber si he entendido, grabar la voz, es el inicio, Esto se podria grabar 
como, me refiero al formato?. Luego tendriamos, fonemas, sonidos graves o 
agudos, otros sonidos.
Ahora bien, aqui podria usarse algun alfabeto fonetico, algo que escriba como 
se escucha y que no compare con nada? Seria esto posible?



Reply to: