prueba ABX es un método para comparar dos opciones de estímulos sensoriales para identificar diferencias detectables entre ellos. A un sujeto se le presentan dos muestras conocidas (muestra A , la primera referencia y muestra B , la segunda referencia) seguidas de una muestra desconocida X que se selecciona aleatoriamente de A o B. El sujeto debe identificar la X como una A o B. Si X no se puede identificar de manera confiable con un valor p bajo en un número predeterminado de ensayos, la hipótesis nula no se puede rechazar y no se puede demostrar que exista una diferencia perceptible entre A y B.
Las pruebas ABX pueden realizarse fácilmente como pruebas doble ciego , eliminando cualquier posible influencia inconsciente del investigador o el supervisor de la prueba. Debido a que las muestras A y B se proporcionan justo antes de la muestra X, la diferencia no debe distinguirse de la suposición basada en la memoria a largo plazo o la experiencia pasada. Por lo tanto, la prueba ABX responde si, en circunstancias ideales, se puede encontrar una diferencia perceptiva.
Las pruebas ABX se usan comúnmente en evaluaciones de métodos de compresión de datos de audio digital ; la muestra A suele ser una muestra sin comprimir, y la muestra B es una versión comprimida de A. Los artefactos de compresión audibles que indican una deficiencia en el algoritmo de compresión se pueden identificar con pruebas posteriores. Las pruebas ABX también se pueden usar para comparar los diferentes grados de pérdida de fidelidad entre dos formatos de audio diferentes a una tasa de bits determinada .
Las pruebas ABX se pueden utilizar para escuchar los componentes de entrada, procesamiento y salida, así como el cableado: prácticamente cualquier producto de audio o diseño de prototipo.
Historia [ editar ]
La historia de las pruebas y nombres de ABX se remonta a 1950 en un artículo publicado por dos investigadores de Bell Labs, WA Munson y Mark B. Gardner, titulado Estandarización de pruebas auditivas . [1]
El propósito del presente documento es describir un procedimiento de prueba que se ha mostrado prometedor en esta dirección y dar descripciones de los equipos que se han encontrado útiles para minimizar la variabilidad de los resultados de las pruebas. El procedimiento, que hemos llamado la prueba "ABX", es una modificación del método de comparaciones pareadas. A un observador se le presenta una secuencia temporal de tres señales para cada juicio que se le pide que haga. Durante el primer intervalo de tiempo, escucha la señal A, durante el segundo, la señal B y finalmente la señal X. Su tarea es indicar si el sonido que se escucha durante el intervalo X es más parecido al intervalo A o más parecido al de B intervalo. Para una prueba de umbral, el intervalo A es silencioso, el intervalo B es señal y el intervalo X es silencioso o señal.
La prueba ha evolucionado a otras variaciones, como el control del sujeto sobre la duración y la secuencia de las pruebas. Un ejemplo de ello fue el comparador ABX de hardware en 1977, construido por la compañía ABX en Troy, Michigan, y documentado por uno de sus fundadores, David Clark. [2]
Refinamientos a la prueba A / B
La primera experiencia del autor con pruebas de audibilidad doble ciego fue como miembro del SMWTMS Audio Club a principios de 1977. Se proporcionó un botón que seleccionaba al azar el componente A o B. Al identificar uno de estos, el componente X se vio obstaculizado en gran medida por no teniendo los conocidos A y B disponibles para referencia.
Esto se corrigió utilizando tres botones interbloqueados, A, B y X. Una vez que se seleccionó una X, seguiría siendo esa A o B particular hasta que se decidiera pasar a otra selección aleatoria.
Sin embargo, otro problema rápidamente se hizo obvio. Siempre hubo un retardo de transición de relé audible cuando se cambia de A a B. Sin embargo, al pasar de A a X, faltaría el retardo de tiempo si X fuera realmente A y presente si X era realmente B. Esta señal extraña fue eliminada por insertar un tiempo de deserción de longitud fija cuando se realizó cualquier cambio. El tiempo de abandono se seleccionó para que fuera de 50 ms, lo que produce un ligero clic constante al tiempo que permite una comparación subjetiva instantánea.
La compañía ABX ahora está inactiva y los comparadores de hardware en general como ofertas comerciales se han extinguido. Existe una gran cantidad de herramientas de software, como el complemento Foobar ABX para realizar comparaciones de archivos. Pero las pruebas de equipos de hardware requieren la construcción de implementaciones personalizadas.
Pruebas de hardware [ editar ]
Dos comparadores ABX de QSC en un bastidor móvil
El equipo de prueba ABX que utiliza relés para alternar entre dos rutas de hardware diferentes puede ayudar a determinar si hay diferencias de percepción en los cables y componentes. Se pueden comparar las rutas de transmisión de video, audio y digital. Si la conmutación está controlada por un microprocesador, es posible realizar pruebas doble ciego.
Las comparaciones de audio a nivel de altavoz y de nivel de línea se podrían realizar en un dispositivo de prueba ABX que se ofrezca en venta como el comparador ABX por QSC Audio Products desde 1998 hasta 2004. Otras soluciones de hardware han sido fabricadas en forma privada por individuos u organizaciones para pruebas internas.
Confianza [ editar ]
Si solo se realizara un ensayo ABX, las suposiciones aleatorias incurrirían en un 50% de probabilidad de elegir la respuesta correcta, al igual que lanzar una moneda. Para hacer una declaración que tenga cierto grado de confianza , se deben realizar muchos ensayos. Al aumentar el número de ensayos, la probabilidad de afirmar estadísticamente la capacidad de una persona para distinguir A y B aumenta para un nivel de confianza dado. Un nivel de confianza del 95% se considera estadísticamente significativo . [3] La compañía QSC, en el manual del usuario del comparador ABX, recomendó un mínimo de diez pruebas de audición en cada ronda de pruebas. [4]
Resultados requeridos para un nivel de confianza del 95% [5] [6]
Número de intentos | 10 | 11 | 12 | 13 | 14 | 15 | dieciséis | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 |
Numero minimo correcto | 9 | 9 | 10 | 10 | 11 | 12 | 12 | 13 | 13 | 14 | 15 | 15 | dieciséis | dieciséis | 17 | 18 |
QSC recomendó que no se realicen más de 25 ensayos, ya que la fatiga del sujeto puede establecerse, lo que hace que la prueba sea menos sensible (es menos probable que revele la capacidad real de discernir la diferencia entre A y B). [4] Sin embargo, se puede obtener una prueba más sensible combinando los resultados de varias de esas pruebas utilizando individuos separados o pruebas del mismo sujeto realizadas entre los descansos. Para un gran número de ensayos N totales, se puede reclamar un resultado significativo (uno con un 95% de confianza) si el número de respuestas correctas excede. Las decisiones importantes normalmente se basan en un mayor nivel de confianza, ya que un "resultado significativo" erróneo se reclamaría en una de 20 de estas pruebas simplemente por casualidad.
Pruebas de software [ editar ]
Los reproductores de audio foobar2000 y Amarok son compatibles con las pruebas ABX basadas en software, este último utiliza un script de terceros. Lacinato ABX es una herramienta de prueba de audio multiplataforma para Linux, Windows y Mac de 64 bits. Lacinato WebABX es una herramienta ABX de audio de navegador cruzado basada en la web. aveX es un software de código abierto desarrollado principalmente para Linux que también proporciona monitoreo de prueba desde una computadora remota. El parche ABX es una implementación ABX para Max / MSP . Se puede encontrar más software ABX en el sitio web de PCABXarchivado . Herramienta de evaluación de audio web Una herramienta de evaluación de audio basada en navegador, para ejecutar muchas pruebas diferentes, incluyendo AB o ABX, no requiere codificación, ya que hay una GUI basada en navegador para crear evaluaciones de prueba.
Posibles fallas [ editar ]
ABX es un tipo de prueba de elección forzada . Las elecciones de un sujeto pueden ser válidas, es decir, el sujeto realmente trató honestamente de identificar si X parecía más cercano a A o B. Pero los sujetos no interesados o cansados podrían elegir al azar sin siquiera intentarlo. Si no se detecta, esto puede diluir los resultados de otros sujetos que tomaron la prueba con atención y someten el resultado a la paradoja de Simpson, lo que da como resultado resultados resumidos falsos. Simplemente mirando los totales de resultados de la prueba ( m de n respuestas correctas) no puede revelar las ocurrencias de este problema.
Este problema se agudiza si las diferencias son pequeñas. El usuario puede frustrarse y simplemente aspirar a terminar la prueba votando al azar. En este sentido, las pruebas de elección forzada, como ABX, tienden a favorecer resultados negativos cuando las diferencias son pequeñas si no se usan los protocolos adecuados para protegerse contra este problema.
Las mejores prácticas requieren tanto la inclusión de controles como la selección de sujetos: [7]
Una consideración importante es la inclusión de condiciones de control apropiadas. Típicamente, las condiciones de control incluyen la presentación de materiales de audio intactos, introducidos de manera impredecible para los sujetos. Es la diferencia entre el juicio de estos estímulos de control y los potencialmente deteriorados lo que permite concluir que las calificaciones son evaluaciones reales de los impedimentos.
3.2.2 Post-selección de sujetos
Los métodos posteriores a la selección pueden dividirse aproximadamente en al menos dos clases; uno se basa en inconsistencias en comparación con el resultado promedio y otro se basa en la capacidad del sujeto para realizar identificaciones correctas. La primera clase nunca es justificable. Cuando se realiza una prueba de audición subjetiva con el método de prueba recomendado aquí, la información requerida para la segunda clase de post-screening está disponible automáticamente. Un método estadístico sugerido para hacer esto se describe en el Anexo 1. '
Los métodos se utilizan principalmente para eliminar sujetos que no pueden realizar las discriminaciones apropiadas. La aplicación de un método posterior a la selección puede aclarar las tendencias en un resultado de prueba. Sin embargo, teniendo en cuenta la variabilidad de las sensibilidades de los sujetos a diferentes artefactos, se debe tener precaución.
Otros defectos incluyen la falta de capacitación de los sujetos y la familiarización con la prueba y el contenido seleccionado:
4.1 Fase de familiarización o entrenamiento.
Antes de la calificación formal, se debe permitir a los sujetos que se familiaricen completamente con las instalaciones de prueba, el entorno de la prueba, el proceso de calificación, las escalas de calificación y los métodos de su uso. Los sujetos también deben familiarizarse con los artefactos en estudio. Para las pruebas más sensibles, deben exponerse a todo el material que calificarán más adelante en las sesiones formales de calificación. Durante la familiarización o el entrenamiento, los sujetos deben estar preferiblemente juntos en grupos (por ejemplo, que consiste en tres sujetos), de modo que puedan interactuar libremente y discutir los artefactos que detectan entre sí.
Otros problemas pueden surgir del equipo ABX en sí, como lo describe Clark, [2] donde el equipo proporciona una indicación , lo que permite al sujeto identificar la fuente. La falta de transparencia del accesorio ABX crea problemas similares.
Dado que las pruebas auditivas y muchas otras pruebas sensoriales dependen de la memoria a corto plazo , que dura solo unos segundos, es fundamental que el dispositivo de prueba permita al sujeto identificar segmentos cortos que puedan compararse rápidamente. Las fallas y fallos en los aparatos de conmutación también deben eliminarse, ya que pueden dominar o interferir con los estímulos que se están probando en lo que se almacena en la memoria a corto plazo del sujeto.
Alternativas [ editar ]
Algorítmico Audio Evaluación de compresión [ editar ]
Dado que las pruebas ABX requieren seres humanos para la evaluación de los códecs de audio con pérdida, requiere mucho tiempo y es costoso. Por lo tanto, se han desarrollado enfoques más baratos, por ejemplo , PEAQ , que es una implementación del ODG .
En MUSHRA , al sujeto se le presenta la referencia (etiquetada como tal), un cierto número de muestras de prueba, una versión oculta de la referencia y una o más anclas. Una escala de CLASIFICACIÓN de 0-100 permite calificar diferencias muy pequeñas.
Pruebas de discriminación [ editar ]
Se utilizan métodos generales alternativos en las pruebas de discriminación , como la comparación pareada, el dúo-trío y la prueba de triángulos . De estos, las pruebas de dúo-trío y triángulo están particularmente cerca de las pruebas de ABX. Esquemáticamente:
- Duo-trio
- AXY: uno conocido, dos desconocidos (uno es igual a A, otro es igual a B), la prueba es cuál es el desconocido: X = A (e Y = B) o Y = A (y X = B).
- Triángulo
- XXY: tres incógnitas (dos son A y una es B o una es A y dos son B), prueba que es la impar: Y = 1, Y = 2 o Y = 3.
En este contexto, las pruebas ABX también se conocen como "dúo-trío" en el modo de "referencia equilibrada"; ambos conocidos se presentan como referencias, en lugar de uno solo.
No hay comentarios:
Publicar un comentario