El Martes, 20 de Junio de 2006 06:49, consultores1 escribió: > El Viernes, 16 de Junio de 2006 9:48 AM, consultores1 escribió: > > El Viernes, 16 de Junio de 2006 3:22 AM, Aritz Beraza Garayalde [Rei] > > > > escribió: > > > El Viernes, 16 de Junio de 2006 01:06, consultores1 escribió: > > > > Hola > > > > > > > > Estoy iniciando un pequeno proyecto y me gustaria hacerlo en > > > > Debian. El asunto es: 1 microfono direccionable inalambrico de > > > > alta fidelidad que reciba la voz, en una reunion por ejemplo ; la > > > > mande a una laptop viejita y la muestre en pantalla como texto; se > > > > requiere que funcione en varios idiomas. > > > > > > Olvidate de usar un portatil viejito. Sobretodo si quieres que > > > soporte varios idiomas a la vez. (De hecho no se si existe algun > > > programa que sea capaz de discernir que idioma usa el interlocutor > > > para cambiar el diccionario). > > > > > > > Es un proyecto para sordos y se realizara como ayuda comunitaria. > > > > Actualmente, una persona esta a la par del sordo y escribe lo que > > > > escucha, lo que inmediatamente sirve para saber de que se trata. > > > > La otra forma es que se usa un microfono directo al aparato en la > > > > oreja del susodicho, pero esta forma tiene el inconveniente de que > > > > hay que pasarse el microfono y cuando la cosa se calienta, se > > > > olvidan de pasarlo! > > > > > > > > Por supuesto que ya aparecieron los lagartos proponiendo > > > > ViaVoz+Ws+maquinas de $2,500.00: pero me gustaria intentar con > > > > Debian y por eso les pregunto. > > > > > > Creo que comercialmente disponibles el dragon naturally speaking y > > > el viavoice son los dos sistemas de reconocimiento de habla mas > > > avanzados. Ninguno de ellos dispnibles en debian. Ambos tienen algo > > > que necesitaras: Diccionarios especificos. > > > > > > En linux tienes sphinx, un buen "motor". No es en si un sistema de > > > reconocimiento de habla completo, pero con sphinx3 (por que sphinx4 > > > necesita java y eso significa mas consumo de recursos) y un > > > vocabulario podrias tener el sistema funcionando (el ejecutable para > > > convertir en texto lo que llegue por el microfono ya viene de > > > serie). > > > > > > Tu problema sera el vocabulario (los modelos lexicos y acusticos del > > > castellano me imagino que estaran disponibles en alguna parte). Pero > > > un vocabulario minimamente extenso (5000-20000 palabras) con > > > palabras especificas como las que se usan en las conversaciones en > > > las que piensas usarlo, va a ser mas complicado, y seguramente > > > tendreis que crearlo. > > > > > > Lo del microfono es otro problema. Quieras o no, va a entrar mucho > > > ruido, sobretodo si se entra en una discusion acalorada, y eso es > > > matador en los sistemas de reconocimiento de habla. El microfono (y > > > la tarjeta de audio) son _muy_ importantes. Un sistema ideal usaria > > > un microfono por persona. Estilo el parlamento, cuando alguien va a > > > hablar, pulsa su microfono. El sistema usa la entrada del resto de > > > microfonos para cancelar el ruido y las conversaciones paralelas que > > > puedan producirse. Pero supondre que esto es inviable. > > > > > > > Como no tenemos nada claro, cualquier idea o sugerencia nos > > > > vendria muy bien. > > > > > > Pasate por la web del proyecto sphinx > > > http://cmusphinx.sourceforge.net/html/cmusphinx.php > > > > > > mirate la informacion del tutorial y el resources to buils a system. > > > Mirate tambienel manual. Con esto tienes todo lo necesario para > > > montarte tu sistema. pero si estas vago... > > > > > > Tienes perlbox voice http://www.perlbox.org/ que usa sphinx2 para el > > > reconocimiento del habla. (aparte de tener otras utilidades) no lo > > > he probado. > > > > > > Ya te aviso que de todas formas vas a tener que entrenarlo mucho. > > > (y entrenarlo es bastante costoso), por que la mayoria de modelos y > > > diccionarios que he encontrado son para el ingles. > > > > > > Saludos > > > Aritz Beraza [Rei] > > > > Infinitas gracias Aritz, por responder, segun lo que dices, se puede > > realizar, luego te cuento. > > > > hasta pronto. > > Hola Aritz y a todos. > > He investigado un poco y solamente he encontrado trabajos muy buenos > basados en la informacion que me distes, orientados a convertir texto a > voz. (KMouth, KSayit, Kttsmgr y otros) Agrego, que los programas citados > estan en Etch. > La mayoria de aplicaciones de text2speech usan festival como motor en linux. Lo unico es que le programan un frontend para que sea mas facil de usar. > Me llama la atencion que no encuentro nada terminado para convertir voz > a texto! Sabe alguien, cual podria ser la dificultad? > Como intente explicar en mi primer mail, en linux tienes los motores que hacen la conversion, te falta armar el resto. El resto es por ejemplo una base de datos con archivos de audio con cientos o miles de palabras pronunciadas por un centenar de personas diferentes. El problema es que esto es muy caro, y es un proceso bastante manual (normalmente, se hace leer una frase o un numero de palabras sueltas, luego alguien separa la frase en archivos de audio con sus palabras, y luego por cada archivo de audio hay que especificar en que instantes empieza y termina la palabra y otra informacion que facilite las cosas al programa de entrenamiento. Lo normal es que tras esto, se genere un diccionario que es lo que usa el sistema para reconocer palabras. Diccionarios de estos gratis y disponibles para descarga por internet solo he encontrado de ingles, no de castellano. Y como indique en el primero, el problema es que para entornos especificos no suele servir un diccionario general sino que hay que usar uno especifico. Por ejemplo, para el entorno empresarial, tendrias que usar un diccionario con vocablos habituales en el mundo de las finanzas, marketing, recursos humanos, etc. En todo esto es donde los sistemas comerciales como Via Voice o Dragon Naturally speaking ganan la partida, pues tienen soporte para multiples idiomas, y adicionalmente puedes comprar diccionarios temticos (se que existen al menos uno con vocablos de medicina y otro orientado a empresas). > Yo no se mucho de esto, pero segun veo, seria de grabar la voz y > convertirla en texto. Gracias anticipadas, se agradece cualquier > informacion. La conversion es un proceso muy complejo. Por ejemplo, que usas realmente para reconocer palabras? * Palabras: Se usanmodelos de las palabras a reconocer en sistemas donde se han de reconocer unos centenares como mucho de palabras. * Fonemas, alofonos, etc: Para grandes vocabularios, usar palabras como unidad basica de reconocimiento es inviable. Piensa que se tendria que tener a muchas personas pronunciando todos los modelos centenares de veces, si tienes un vocabulario de 80000 palabras estamos hablando de 8 millones o mas de repeticiones!!!. Por eso se usan unidades mas pequenyas como fonemas alofonos y otras. El problema es que cada fonema suena diferente segun su posicion en la palabra (no suena igual la b a principio de palabra que la b entre una m y una r, que a final de palabra). Por no mencionar que incluso un mismo interlocutor pronuncia diferente segun su estado de animo y/o circunstancias personales. Esto hace que el reconocmiento sea ambiguo. Para eliminar incertidumbre, se usan otros sistemas de respaldo, como por ejemplo un modelo de lenguaje que permite a partir de las palabras ya reconocidas, estimar la probabilidad de que la siguiente palabra). Si el sistema ha reconocido los vocablos "de la", el modelo de lenguaje deberia indicar que la siguiente palabra deberia ser un nombre, asi que si el reconocedor duda entre varias palabras, esta informacion hara que las que no sean nombre sean practicamente descartadas. Los modelos de lenguaje si que son mas faciles de obtener. Resumiendo, en linux tienes las herramientas, te faltan los datos. Puedes crearlos tu (si te lo propones en unos pocos meses puedes tener un sistema con una tasa de error decente) o intentar buscar algo ya hecho, pero si no es en ingles, la cosa esta dificil. Saludos Aritz Beraza [Rei] -- Aritz Beraza Garayalde [Rei] [http://www.ayanami.es] - No enviarás correos en HTML a La Lista. - No harás top-posting, responderás siempre debajo del mail original. - No harás Fwd, a La Lista, siempre reply.
Attachment:
pgp54xbyYRMQu.pgp
Description: PGP signature