lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

 Principios básicos del diseño de experimentos.

Resumen de los pricipales conceptos.

En esta sección se hace un resumen de la terminología común utilizada en la teoría de los modelos de diseño de experimentos:

bulletUnidad experimental: son los objetos, individuos, intervalos de espacio o tiempo sobre los que se experimenta.
bulletVariable de interés o respuesta: es la variable que se desea estudiar y controlar su variabilidad.
bulletFactor: son las variables independientes que pueden influir en la variabilidad de la variable de interés.
bulletFactor tratamiento: es un factor del que interesa conocer su influencia en la respuesta.
bulletFactor bloque: es un factor en el que no se está interesado en conocer su influencia en la respuesta pero se supone que ésta existe y se quiere controlar para disminuir la variabilidad residual.
bulletNiveles: cada uno de los resultados de un factor. Según sean elegidos por el experimentador o elegidos al azar de una amplia población se denominan factores de efectos fijos o factores de efectos  aleatorios.
bulletTratamiento: es una combinación específica de los niveles de los factores en estudio. Son, por tanto, las condiciones experimentales que se desean comparar en el experimento. En un diseño con un único factor son los distintos niveles del factor y en un diseño con varios factores son las distintas combinaciones de niveles de los factores.
bulletObservación experimental: es cada medición de la variable respuesta.
bulletTamaño del Experimento: es el número total de observaciones recogidas en el diseño.
bulletInteracción de factores: existe interacción entre dos factores FI y FJ si el efecto de algún nivel de FI  cambia al cambiar de nivel en FJ. Esta definición puede hacerse de forma simétrica y se puede generalizar a interacciones de orden tres o superior.
bulletOrtogonalidad de factores: dos factores FI y FJ con niveles, respectivamente, son ortogonales si en cada nivel de FI el número de observaciones de los Jniveles de FJ están en las mismas proporciones. Esta propiedad permite separar los efectos simples de los factores en estudio.
bulletDiseño equilibrado o balanceado: es el diseño en el que todos los tratamientos son asignados a un número igual de unidades experimentales.

 Principios básicos en el diseño de experimentos.

Al planificar un experimento hay tres tres principios básicos que se deben tener siempre en cuenta:
      — El principio de aleatorización.
      — El bloqueo.
      — La factorización del diseño.
Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para asignar los tratamientos a las unidades experimentales sin preocuparse de qué tratamientos considerar. Por el contrario, la factorización del diseño define una estrategia eficiente para elegir los tratamientos sin considerar en absoluto como asignarlos después a las unidades experimentales.
Aleatorizar
“Aleatorizar todos los factores no controlados por el experimentador en el diseño experimental y que puden influir en los resultados serán asignados al azar a las unidades experimentales”.
Ventajas de aleatorizar los factores no controlados:
• Transforma la variabilidad sistemática no planificada en variabilidad no planificada o ruido aleatorio. Dicho de otra forma, aleatorizar previene contra la introducción de sesgos en el experimento.
• Evita la dependencia entre observaciones al aleatorizar los instantes de recogida muestral.
• Valida muchos de los procedimientos estadísticos más comunes.
Bloquear
“Se deben dividir o particionar las unidades experimentales en grupos llamados bloques de modo que las observaciones realizadas en cada bloque se realicen bajo condiciones experimentales lo más parecidas posibles.
A diferencia de lo que ocurre con los factores tratamiento, el experimentador no está interesado en investigar las posibles diferencias de la respuesta entre los niveles de los factores bloque”.
Bloquear es una buena estrategia siempre y cuando sea posible dividir las unidades experimentales en grupos de unidades similares.
La ventaja de bloquear un factor que se supone que tienen una clara influencia en la respuesta pero en el que no se está interesado, es la siguiente:
• Convierte la variabilidad sistemática no planificada en variabilidad sistemática planificada.
Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias de aleatorizar y de bloquear en un experimento.
Ejemplo 2.1.
Se desea investigar las posibles diferencias en la producción de dos máquinas, cada una de las cuales debe ser manejada por un operario.
En el planteamiento de este problema la variable respuesta es “la producción de una máquina (en un día)”, el factor-tratamiento en el que se está interesado es el “tipo de máquina” que tiene dos niveles y un factor nuisance es el “operario que maneja la máquina”. En el diseño del experimento para realizar el estudio se pueden utilizar dos estrategias para controlar el factor “operario que maneja la máquina”.
Aleatorizar: se seleccionan al azar dos grupos de operarios y  se asigna al azar cada grupo de operarios a cada una de las dos máquinas. Finalmente se evalúa la producción de las mismas.
Bloquear: se introduce el factor-bloque “operario”.  Se elige un único grupo de operarios y todos ellos utilizan las dos máquinas.
¿Qué consideraciones se deben tener en cuenta al utilizar estas dos estrategias? ¿Qué estrategia es mejor?
La factorización del diseño.
“Un diseño factorial es una estrategia experimental que consiste en cruzar los niveles de todos los factores tratamiento en todas las combinaciones posibles”.
Ventajas de utilizar los diseños factoriales:
• Permiten detectar la existencia de efectos interacción entre los diferentes factores tratamiento.
• Es una estrategia más eficiente que la estrategia clásica de examinar la influencia de un factor manteniendo constantes el resto de los factores.





 Algunos diseños experimentales clásicos.

Un diseño experimental es una regla que determina la asignación de las unidades experimentales a los tratamientos. Aunque los experimentos difieren unos de otros en muchos aspectos, existen diseños estándar que se utilizan con mucha frecuencia. Algunos de los más utilizados son los siguientes:

2.6.1 Diseño completamente aleatorizado.

El experimentador asigna las unidades experimentales a los tratamientos al azar. La única restricción es el número de observaciones que se toman en cada tratamiento. De hecho si ni es el número de observaciones en el i-ésimo tratamiento, = 1,...,I, entonces, los valores n1,n2,...,nI determinan por completo las propiedades estadísticas del diseño. Naturalmente, este tipo de diseño se utiliza en experimentos que no incluyen factores bloque.
El modelo matemático de este diseño tiene la forma:
Respuesta = Constante + Efecto
tratamiento + Error

2.6.2 Diseño en bloques o con un factor bloque.

En este diseño el experimentador agrupa las unidades experimentales en bloques, a continuación determina la distribución de los tratamientos en cada bloque y, por último, asigna al azar las unidades experimentales a los tratamientos dentro de cada bloque.
En el análisis estadístico de un diseño en bloques, éstos se tratan como los niveles de un único factor de bloqueo, aunque en realidad puedan venir definidos por la combinación de niveles de más de un factor nuisance.
El modelo matemático de este diseño es:

Respuesta = Constante+  Efecto
bloque+  Efecto tratamiento + Error
El diseño en bloques más simple es el denominado diseño en bloques completos, en el que cada tratamiento se observa el mismo número de veces en cada bloque.
El diseño en bloques completos con una única observación por cada tratamiento se denomina diseño en bloques completamente aleatorizado o, simplemente,diseño en bloques aleatorizado.
Cuando el tamaño del bloque es inferior al número de tratamientos no es posible observar la totalidad de tratamientos en cada bloque y se habla entonces dediseño en bloques incompletos.

2.6.3 Diseños con dos o más factores bloque.

En ocasiones hay dos (o más) fuentes de variación lo suficientemente importantes como para ser designadas factores de bloqueo. En tal caso, ambos factores bloque pueden ser cruzados o anidados.
Los factores bloque están cruzados cuando existen unidades experimentales en todas las combinaciones posibles de los niveles de los factores bloques.
Diseño con factores bloque cruzados. También denominado diseño fila-columnase caracteriza porque existen unidades experimentales en todas las celdas(intersecciones de fila y columna).
El modelo matemático de este diseño es:

Respuesta = Constante + Efecto
bloque fila+ Efecto bloque columna+
Efecto tratamiento + Error
 
Los factores bloque están anidados si cada nivel particular de uno de los factores bloque ocurre en un único nivel del otro factor bloque.
Diseño con factores bloque anidados o jerarquizados. Dos factores bloque se dicen anidados cuando observaciones pertenecientes a dos niveles distintos de un factor bloque están automáticamente en dos niveles distintos del segundo factor bloque.
 En la siguiente tabla puede observarse la diferencia entre ambos tipos de bloqueo. 

Bloques Cruzados
Bloques Anidados











Bloque 1

Bloque 1
123

123
1***

1*
Bloque 22***

2*
3***

3*

Bloque 24*

5*

6*

7*

8*

9*
Tabla 2.1:Plan esquemático de experimentos con dos factores bloque

2.6.4 Diseños con dos o más factores.

En algunas ocasiones se está interesado en estudiar la influencia de dos (o más) factores tratamiento, para ello se hace un diseño de filas por columnas. En este modelo es importante estudiar la posible interacción entre los dos factores. Si en cada casilla se tiene una única observación no es posible estudiar la interacción entre los dos factores, para hacerlo hay que replicar el modelo, esto es, obtener observaciones en cada casilla, donde es el número de réplicas.
El modelo matemático de este diseño es:
Generalizar los diseños completos a más de dos factores es relativamente sencillo desde un punto de vista matemático, pero en su aspecto práctico tiene el inconveniente de que al aumentar el número de factores aumenta muy rápidamente el número de observaciones necesario para estimar el modelo. En la práctica es muy raro utilizar diseños completos con más de factores.
Un camino alternativo es utilizar fracciones factoriales que son diseños en los que se supone que muchas de las interacciones son nulas, esto permite estudiar el efecto de un número elevado de factores con un número relativamente pequeño de pruebas. Por ejemplo, el diseño en cuadrado latino, en el que se supone que todas las interacciones son nulas, permite estudiar tres factores de niveles con solo k2 observaciones. Si se utilizase el diseño equilibrado completo se necesitan k3observaciones.

2.6.5 Diseños factoriales a dos niveles.

En el estudio sobre la mejora de procesos industriales (control de calidad) es usual trabajar en problemas en los que hay muchos factores que pueden influir en la variable de interés. La utilización de experimentos completos en estos problemas tiene el gran inconveniente de necesitar un número elevado de observaciones, además puede ser una estrategia ineficaz porque, por lo general, muchos de los factores en estudio no son influyentes y mucha información recogida no es relevante. En este caso una estrategia mejor es utilizar una técnica secuencial donde se comienza por trabajar con unos pocos factores y según los resultados que se obtienen se eligen los factores a estudiar en la segunda etapa.
Los diseños factoriales 2k son diseños en los que se trabaja con  factores, todos ellos con dos niveles (se suelen denotar -). Estos diseños son adecuados para tratar el tipo de problemas descritos porque permiten trabajar con un número elevado de factores y son válidos para estrategias secuenciales.
Si es grande, el número de observaciones que necesita un diseño factorial 2k es muy grande (= 2k). Por este motivo, las fracciones factoriales 2k-p son muy utilizadas,  éstas son diseños con  factores a dos niveles, que mantienen la propiedad de ortogonalidad de los factores y donde se suponen nulas las interacciones de orden alto (se confunden con los efectos simples) por lo que para su estudio solo se necesitan  2k-p observaciones (cuanto mayor sea menor número de observaciones se necesita pero mayor confusión de efectos se supone).
En los últimos años Taguchi ha propuesto la utilización de fracciones factoriales con factores a tres niveles en problemas de control de calidad industrial.

No hay comentarios:

Publicar un comentario