Untitled Document

¿Por qué comprime tanto el mp3?

Las peculiaridades de la audición humana evitan que oigamos todo el sonido que existe en la realidad. Para entender el proceso de enmascaramiento frecuencial, conozcamos primero cómo es el proceso de audición en nuestro oído.

El sonido se introduce a través de la oreja y choca con el tímpano haciéndolo vibrar. La vibración es recibida por tres huesos articulados en cadena y controlados por dos pequeños músculos que trasmiten el movimiento al estribo, que en su extremo se une con la ventana oval. La ventana oval es el lugar por donde penetra el sonido (oído interno) a la cóclea o caracol. Los movimientos del estribo producen desplazamientos del líquido en el oído interno que estimulan las terminaciones nerviosas o células ciliadas, lugar donde realmente comienza el proceso auditivo. Las células nerviosas estimuladas, envían la señal por el nervio auditivo hasta los centros del cerebro, donde el estimulo eléctrico es procesado.

En la coclea se encuentra la membrana basilar. Si estiramos esta membrana, se puede observar que cada punto tiene una frecuecia de resonancia diferente, la frecuencia de resonancia va disminuyendo a medida que avanzamos por la membrana basilar desde la ventana oval. Es decir, nuestro oído funciona como un analizador de espectros, cada frecuencia excita un nervio determinado.

Esto no es rigurosamente cierto, ya que si penetra en nuestro oído un tono puro no sólo se excitan los nervios correspondientes a esa frecuencia sino también, aunque con menor intensidad, los nervios adyacentes que se corresponden con frecuencias mayores y menores. La amplitud de la excitación a lo largo de la membrana basilar cuando oímos un tono puro define lo que llamamos curvas de enmascaramiento para ese tono puro.

En las siguientes animaciones, se puede escuchar a la vez un tono de 200 Hz con amplitud constante y un tono de 500 Hz que va aumentando su amplitud desde 0 hasta un máximo, que se encuentra 3 dB por debajo del tono de 200 Hz . Al principio escuchamos únicamente el tono de 200 Hz, que es el enmascarador, llegando un momento en el que el tono de 500 Hz empieza a escucharse. Presta atención para ver cuándo ocurre este fenómeno. Y si lo hacemos al revés, ¿cuándo se deja de escuchar el tono más agudo?

La curva que se muestra en ambas animaciones corresponde con la curva de enmascaramiento para ese tono de 200 Hz escuchado a 60 dB. Es decir todas las frecuencias cuyas amplitudes queden por debajo de dicha curva serán enmascaradas por el tono de 200 Hz mostrado. ¿Crees necesario almacenar en un archivo de audio esas frecuencias si no las vamos a oír?