Introducción.
Como ya se indicó en el capítulo previo el diseño de experimentos estudia la forma de realizar comparaciones lo más homogéneas posibles que permitan detectar cambios en el proceso de interés e identificar los factores influyentes.
En este contexto el problema más sencillo que se puede presentar es el de detectar la influencia de un factor que tiene dos niveles en una variable de interés (diseño de experimentos con un factor a dos niveles). Este problema es exactamente el mismo que el problema de comparar las medias de dos poblaciones.Problema que bajo la hipótesis de normalidad de las poblaciones se resuelve por el contraste de la t. La generalización de este problema es contrastar la igualdad de las medias de los I niveles de un factor, esto es, estudiar la influencia de un factor con I niveles en la variable de interés.
Para resolver este problema se utiliza la técnica del Análisis DE la VArianza: ADEVA (en inglés, ANalysis Of VAriance: ANOVA) introducida por R. A. Fisher en los años treinta. El análisis de la varianza es la herramienta fundamental para el estudio de una variable de interés a partir de observaciones que dependen de varios factores.
El ANOVA es la herramienta básica para el análisis de los modelos estadísticos de Diseño de Experimentos y Regresión Lineal, porquepermite descomponer la variablidad de un experimento en componentes independientes que pueden asignarse a diferentes causas.
|
En este capítulo se estudia el diseño de experimentos más simple: el diseño completamente aleatorizado. Este modelo de diseño tiene un único factor con I niveles y las unidades experimentales se asignan al azar a los tratamientos. En este modelo los tratamientos son los niveles del factor y no se incluyen factores bloque.
Un procedimiento sencillo para aleatorizar un diseño completamente aleatorizado es el siguiente: se denota
ni: el número de observaciones que recibirán el i-ésimo tratamiento,
I: el número total de tratamientos,
n =
i = 1Ini : el número total de observaciones.
Se codifican los tratamientos de 1 a I y se etiquetan las unidades experimentales de 1 a n. Se siguen los siguientes pasos:
- Paso 1:
- Crear una columna con n1 unos, n2 doses,...., nI I’es; los valores de esta columna representan a los tratamientos.
- Paso 2:
- Crear una segunda columna con n números aleatorios (uniformes en [0,1]) con dígitos suficientes para evitar empates.
- Paso 3:
- Reordenar simultánemente ambas columnas de modo que los números aleatorios se ordenen en forma ascendente. De esta forma se consigue que las etiquetas de los tratamientos estén en orden aleatorio.
- Paso 4:
- Asignar la unidad experimental t al tratamiento cuya etiqueta esté en la fila t.
Modelo matemático del diseño completamente aleatorizado.
Se denota- Yit : la variable aleatoria que representa el valor de la respuesta en la t-ésima observación del i-ésimo tratamiento. En adelante se utilizará la notación Y itpara referise a la variable e yit para referirse a una observación concreta.
i: la respuesta real del i-ésimo tratamiento. Es decir, a la respuesta que se obtendría siempre con el i-ésimo tratamiento si se ejecutase el experimento en,exactamente, las mismas condiciones.
it : la variable aleatoria que representa la distancia de la t-ésima observación del i-ésimo tratamiento a su valor real. Por tanto
it agrupa la contribución de las fuentes de variación menores y no planificadas. Esta variable se denomina error o error experimental.
Para cada t = 1,...,ni, i = 1,...,I, el modelo matemático del diseño es: Si en este modelo se denota(3.1) se obtiene la siguiente forma alternativa del modelo(3.2) es una constante que representa la respuesta media de la variable Y, y
i representa la variación (positiva o negativa) de la media del nivel i respecto a la media de la respuesta:
i =
i -
. Los parámetros
i se llaman efectos.Examinar las diferencias entre niveles equivale a examinar las diferencias entre los parámetros
i en el modelo (1.1 ) o entre los parámetros
i en el modelo (1.2 ):
Si se utiliza el segundo modelo, se exige la condición: Si hay el mismo número de datos en cada nivel(3.3) , esta condición es
El modelo (3.1) es un modelo lineal. En su estudio se suponen las siguientes hipótesis:(3.4) - La varianza es de la respuesta es constante (homocedasticidad),equivalentemente, V ar
=
2, j = 1,...,ni, i = 1,...,I.
- La distribución de la respuesta es normal,equivalentemente,
ij ~ N
, j = 1,...,ni, i = 1,...,I.
- Las observaciones Y ij son independientes. Bajo las hipótesis de normalidad, esto equivale a que Cov(Y ij,Y kh) = 0, si i
k o j
h.
En función de los errores esta hipótesis es “losij son independientes”, que bajo normalidad, equivale a que Cov
= 0, si i
k o j
h.
En resumen,El siguiente ejemplo ayuda a entender el modelo de diseño de experimentos completamente aleatorizado.Ejemplo 3.1.“Una empresa desea estudiar la productividad media por hora en el montaje de un mecanismo electrónico en las tres fábricas que tiene: FA, FB y FC. Para ello se ha tomado una muestra de la productividad por hora en cada fábrica. La recogida de datos se ha aleatorizado y nada presupone que existan factores con influencia en los resultados obtenidos.” (Este ejemplo se desarrolla en la sección 3.6.)Planteamiento del problema.Se está interesado en saber si en la “variable de interés” influye el “factor” en estudio. Esto es, se quiere contrastar si la media de la productividad de montaje es la misma en las tres fábricas.Variable de interés: productividad media por hora en el montaje de un mecanismo electrónico.Factor: fábrica en la que se realiza el montaje. El factor en estudio tiene tres niveles: FA, FB, FC.Hipótesis del estudio:• Las tres muestras son muestras aleatorias simples de las correspondientes poblaciones.• La productividad de las tres fábricas siguen una distribución normal.• La productividad de las tres fábricas tienen la misma varianza.Estimación de los parámetros.
Los parámetros del modelo se estiman por el método de máxima-verosimilitud que bajo la hipótesis de normalidad es equivalente a obtenerlos por el método de mínimos cuadrados.3.3.1 Estimadores por máxima-verosimilitud.
De la hipótesis de normalidad se sigue quei,j
La función de verosimilitud esTomando logaritmos neperianos se obtiene la función soportepara obtener el máximo de la función Lse deriva la misma respecto a
i y
2 y se iguala a cero, de donde se obtienen
ecuaciones, cuya resolución proporciona los siguientes estimadores:
(3.5) (3.6) donde si2 es la varianza de los resultados del nivel i,En la práctica el estimadorMV 2 no se suele utilizar porque es sesgado
3.3.2 Estimadores por mínimo-cuadráticos.
Un método alternativo de estimación de los parámetros es el método de estimación mínimo cuadrática, que consiste en seleccionar como estimadores los valores de los parámetros que minimizan la suma de los cuadrados de los errores. Esto es, se trata de seleccionar valores1,...,
I que minimicen la siguiente función de Ivariables:
por tanto se quiere calcular1,...,
I tales que
El problema de minimización anterior conduce a un sistema de I ecuaciones (denominadas ecuaciones normales) cuyas soluciones únicas son para cadai =
+
i,
(3.7) Por tanto, los estimadores que se utilizarán son los siguientes(3.8) Si se utiliza el modelo (3.2), los estimadores son(3.9) (3.10) La bondad de los estimadores mínimo-cuadráticos la establece un resultado clave en los problemas de modelización lineal estadística, el Teorema de Gauss-Markov, según el cual,En base a las hipótesis del modelo es fácil deducir que la distribución de los estimadores dados (3.8) es la siguiente“Para todo modelo lineal con errores normales, independientes y varianza común2, los estimadores mínimo-cuadráticos son únicos, insesgados y de varianza mínima”.
(3.11) 3.3.3 Estimación puntual de la varianza.
En cualquier modelo estadístico, se denomina residuo a la diferencia entre un valor observado y el valor previsto por el modelo. Esto es,(3.12) En el modelo actual, para todo j = 1,...,ni e i = 1,...,I se tiene:(3.13) coni los estimadores mínimo-cuadráticos dados (3.8).
En el modelo de diseño de experimentos completamente aleatorizado hay n =i = 1Ini residuos eij. Existen las siguientes I relaciones entre ellos
Por ello se dice que los residuos del modelo tienen n - I grados de libertad.A partir de los residuos se obtiene la suma de residuos al cuadrado, suma de cuadrados residual o variabilidad no explicada (scR), dada por(3.14) El valor concreto scR es una realización particular de la variable aleatoria SCR (el resultado que se obtiene a partir de la muestra seleccionada)El valor concreto scR es una realización particular de la variable aleatoria SCR. Esta variable es,
Un sencillo cálculo algebraico permite obtener la relación:coni2 la varianza muestral corregida del i-ésimo tratamiento,
Comoi2 es un estimador insesgado de la varianza del error
2, el valor esperado de SCR es:
Por tanto, un estimador insesgado de2 es:
(3.15) que se denomina, indistintamente, varianza residual o error cuadrático medio o varianza dentro de los tratamientos.De las hipótesis del modelo se deduce que Intervalos de confianza para los parámetros del modelo.(3.16)
A partir de la distribución dada en (3.16) se puede calcular un intervalo de confianza al (1 -) para la varianza
2 del modelo. Este intervalo viene dado por:
(3.17) donden-I2
es un número que verifica que P
=
, siendo
una variable aleatoria con distribución chi-cuadrado con n - I grados de libertad.
El intervalo dado en (3.17 ) no es simétrico. En algunos casos también se utiliza el siguiente intervalo de confianzaLos intervalos de confianza dei se obtienen a partir de la distribución dada en (3.11 ). Dado que se desconoce el parámetro
2, de (3.11 ) y (3.16 ) se deduce que
(3.18) Que permite calcular el siguiente intervalo de confianza simétrico dei al (1 -
)
(3.19) donde tn-Ies un número que verifica que P
=
, siendo
una variable aleatoria con distribución t con n - I grados de libertad.
No hay comentarios:
Publicar un comentario