Matias Eduardo Bordone Carranza
2017-04-20 20:53:32 UTC
Buenas gente, tengo ganas de terminar un proyecto que empece en algun
momento sobre grabaciones de voces de personas y posiciones bucales y para
eso necesito extraer los formantes de fragmentos de audio, obvio que
quisiera hacer esto utilizando python, preferirÃa hacerlo utilizando solo
librerÃas estandard de python como sypy y numpy. Estuve googleando bastante
pero no encuentro algo mas o menos sencillo.
Alguien tiene experiencia en esto? Me puede tirar un centro un link un algo
como para empezar?
A esto me refiero yo con formante de audio
https://es.wikipedia.org/wiki/Formante
Lo ideal para mi seria tomar un archivo .wav y generar un archivo cvs con
los siguientes encabezados.
Time: Comienzo del intervalo (tomando como referencia el tiempo del archivo
original)
Etic: Etiquetas asignadas al segmento (en este caso fonética)
Int: db intensidad de presión del aire (asociado con la energÃa y la
amplitud de la onda)
Pitch(Hz): Altura en frecuencia
Zcross: Número de veces que pasa la onda por el 0 en el intervalo.
F1 a F4 (Hz): Frecuencia de la Formante n, las formantes son las
Frecuencias donde esta
concentrada la mayor parte de la energÃa de la onda cuando se descompone la
onda .Las
formantes están contadas de abajo para arriba, siendo la formante uno la
que tiene menor
frecuencia y 4 la de mayor frecuencia.
Abrazos y de nuevo gracias.
momento sobre grabaciones de voces de personas y posiciones bucales y para
eso necesito extraer los formantes de fragmentos de audio, obvio que
quisiera hacer esto utilizando python, preferirÃa hacerlo utilizando solo
librerÃas estandard de python como sypy y numpy. Estuve googleando bastante
pero no encuentro algo mas o menos sencillo.
Alguien tiene experiencia en esto? Me puede tirar un centro un link un algo
como para empezar?
A esto me refiero yo con formante de audio
https://es.wikipedia.org/wiki/Formante
Lo ideal para mi seria tomar un archivo .wav y generar un archivo cvs con
los siguientes encabezados.
Time: Comienzo del intervalo (tomando como referencia el tiempo del archivo
original)
Etic: Etiquetas asignadas al segmento (en este caso fonética)
Int: db intensidad de presión del aire (asociado con la energÃa y la
amplitud de la onda)
Pitch(Hz): Altura en frecuencia
Zcross: Número de veces que pasa la onda por el 0 en el intervalo.
F1 a F4 (Hz): Frecuencia de la Formante n, las formantes son las
Frecuencias donde esta
concentrada la mayor parte de la energÃa de la onda cuando se descompone la
onda .Las
formantes están contadas de abajo para arriba, siendo la formante uno la
que tiene menor
frecuencia y 4 la de mayor frecuencia.
Abrazos y de nuevo gracias.
--
--
"Si tú tienes una manzana y yo tengo una manzana e intercambiamos las
manzanas, entonces tanto tú como yo seguiremos teniendo una manzana. Pero
si tú tienes una idea y yo tengo una idea e intercambiamos ideas, entonces
ambos tendremos dos ideas."
George Bernard Shaw
--
"Si tú tienes una manzana y yo tengo una manzana e intercambiamos las
manzanas, entonces tanto tú como yo seguiremos teniendo una manzana. Pero
si tú tienes una idea y yo tengo una idea e intercambiamos ideas, entonces
ambos tendremos dos ideas."
George Bernard Shaw