AMIGOS PARA SIEMPRE: Conceptos básicos de Inferencia Estadística

Introducción.

Como ya se indicó en el capítulo previo el diseño de experimentos estudia la forma de realizar comparaciones lo más homogéneas posibles que permitan detectar cambios en el proceso de interés e identificar los factores influyentes.

En este contexto el problema más sencillo que se puede presentar es el de detectar la influencia de un factor que tiene dos niveles en una variable de interés (diseño de experimentos con un factor a dos niveles). Este problema es exactamente el mismo que el problema de comparar las medias de dos poblaciones.Problema que bajo la hipótesis de normalidad de las poblaciones se resuelve por el contraste de la t. La generalización de este problema es contrastar la igualdad de las medias de los I niveles de un factor, esto es, estudiar la influencia de un factor con I niveles en la variable de interés.

Para resolver este problema se utiliza la técnica del Análisis DE la VArianza: ADEVA (en inglés, ANalysis Of VAriance: ANOVA) introducida por R. A. Fisher en los años treinta. El análisis de la varianza es la herramienta fundamental para el estudio de una variable de interés a partir de observaciones que dependen de varios factores.

El ANOVA es la herramienta básica para el análisis de los modelos estadísticos de Diseño de Experimentos y Regresión Lineal, porquepermite descomponer la variablidad de un experimento en componentes independientes que pueden asignarse a diferentes causas.

En este capítulo se estudia el diseño de experimentos más simple: el diseño completamente aleatorizado. Este modelo de diseño tiene un único factor con I niveles y las unidades experimentales se asignan al azar a los tratamientos. En este modelo los tratamientos son los niveles del factor y no se incluyen factores bloque.

Un procedimiento sencillo para aleatorizar un diseño completamente aleatorizado es el siguiente: se denota

n_i: el número de observaciones que recibirán el i-ésimo tratamiento,

I: el número total de tratamientos,

n =

_{i = 1}^In_i : el número total de observaciones.

Se codifican los tratamientos de 1 a I y se etiquetan las unidades experimentales de 1 a n. Se siguen los siguientes pasos:

Paso 1:

Crear una columna con n₁ unos, n₂ doses,...., n_I I’es; los valores de esta columna representan a los tratamientos.

Paso 2:

Crear una segunda columna con n números aleatorios (uniformes en [0,1]) con dígitos suficientes para evitar empates.

Paso 3:

Reordenar simultánemente ambas columnas de modo que los números aleatorios se ordenen en forma ascendente. De esta forma se consigue que las etiquetas de los tratamientos estén en orden aleatorio.

Paso 4:

Asignar la unidad experimental t al tratamiento cuya etiqueta esté en la fila t.

Modelo matemático del diseño completamente aleatorizado.

Se denota

: Y_it : la variable aleatoria que representa el valor de la respuesta en la t-ésima observación del i-ésimo tratamiento. En adelante se utilizará la notación Y _itpara referise a la variable e y_it para referirse a una observación concreta.
: _i: la respuesta real del i-ésimo tratamiento. Es decir, a la respuesta que se obtendría siempre con el i-ésimo tratamiento si se ejecutase el experimento en,exactamente, las mismas condiciones.
: _it : la variable aleatoria que representa la distancia de la t-ésima observación del i-ésimo tratamiento a su valor real. Por tanto _it agrupa la contribución de las fuentes de variación menores y no planificadas. Esta variable se denomina error o error experimental.

Para cada t = 1,...,n_i, i = 1,...,I, el modelo matemático del diseño es:

determínista Yit = mi + eit, aleatorio aleatorio

(3.1)

Si en este modelo se denota

mi = m + ai,i = 1,...,I,

se obtiene la siguiente forma alternativa del modelo

determínista ---- Yit = m+ ai + eit, aleatorio aleatorio

(3.2)

es una constante que representa la respuesta media de la variable Y, y

_i representa la variación (positiva o negativa) de la media del nivel i respecto a la media de la respuesta:

_i =

_i -

. Los parámetros

_i se llaman efectos.Examinar las diferencias entre niveles equivale a examinar las diferencias entre los parámetros

_i en el modelo (1.1 ) o entre los parámetros

_i en el modelo (1.2 ):

mi - mk = ai- ak, i,k = 1,...,I.

Si se utiliza el segundo modelo, se exige la condición:

I sum na = 0. i=1 i i

(3.3)

Si hay el mismo número de datos en cada nivel

, esta condición es

I sum ai = 0, i=1

(3.4)

El modelo (3.1) es un modelo lineal. En su estudio se suponen las siguientes hipótesis:

La varianza es de la respuesta es constante (homocedasticidad), $2 V ar (Yij) = s , j = 1,...,ni, i = 1,...,I,$

equivalentemente, V ar = ², j = 1,...,n_i, i = 1,...,I.
La distribución de la respuesta es normal, $( 2) Yij ~ N m + ai,s , j = 1,...,ni, i = 1,...,I,$

equivalentemente, _ij ~ N, j = 1,...,n_i, i = 1,...,I.
Las observaciones Y _ij son independientes. Bajo las hipótesis de normalidad, esto equivale a que Cov(Y _ij,Y _kh) = 0, si ik o jh.
En función de los errores esta hipótesis es “los _ij son independientes”, que bajo normalidad, equivale a que Cov = 0, si ik o jh.

En resumen,

( 2) Yij ~ N m + ai,s A i,j, son independientes ( ) ,||^ eij ~ N 0,s2 A i,j, son independientes

El siguiente ejemplo ayuda a entender el modelo de diseño de experimentos completamente aleatorizado.

Ejemplo 3.1.

“Una empresa desea estudiar la productividad media por hora en el montaje de un mecanismo electrónico en las tres fábricas que tiene: FA, FB y FC. Para ello se ha tomado una muestra de la productividad por hora en cada fábrica. La recogida de datos se ha aleatorizado y nada presupone que existan factores con influencia en los resultados obtenidos.” (Este ejemplo se desarrolla en la sección 3.6.)

Planteamiento del problema.

Se está interesado en saber si en la “variable de interés” influye el “factor” en estudio. Esto es, se quiere contrastar si la media de la productividad de montaje es la misma en las tres fábricas.

Variable de interés: productividad media por hora en el montaje de un mecanismo electrónico.

Factor: fábrica en la que se realiza el montaje. El factor en estudio tiene tres niveles: FA, FB, FC.

Hipótesis del estudio:

• Las tres muestras son muestras aleatorias simples de las correspondientes poblaciones.

• La productividad de las tres fábricas siguen una distribución normal.

• La productividad de las tres fábricas tienen la misma varianza.

Estimación de los parámetros.

En el modelo matemático (3.1) hay I + 1 parámetros a estimar:

m1,m2,...,mI y s2.

Análogamente, en el modelo (3.2) hay I + 1 parámetros a estimar:

m, a ,a ,...,a y s2, 1 2 I-1

el parámetro

_I se deduce de la condición (3.3).

Los parámetros del modelo se estiman por el método de máxima-verosimilitud que bajo la hipótesis de normalidad es equivalente a obtenerlos por el método de mínimos cuadrados.

3.3.1 Estimadores por máxima-verosimilitud.

De la hipótesis de normalidad se sigue que

{ } ( 2) --1---- 1(yij--mi)2 Yij ~ N mi,s ==> f (yij) = V~ 2ps2 exp - 2 s2 .

La función de verosimilitud es

{ } ( 2) prod ( 2)- n/2 prod 1(yij--mi)2 l m, s = f (yij) = 2ps exp - 2 s2 . i,j i,j

Tomando logaritmos neperianos se obtiene la función soporte

( 2) ( 2) n- ( 2) -1-- sum I sum ni 2 L m,s = lnl m,s = - 2 ln s - 2s2 (yij- mi) , i=1 j=1

para obtener el máximo de la función L

se deriva la misma respecto a

_i y

² y se iguala a cero, de donde se obtienen

ecuaciones, cuya resolución proporciona los siguientes estimadores:

ni ^m = y = 1- sum y , i = 1,...,I. i;MV i. ni ij j=1

(3.5)

sum I sum ni sum I ( ) ^s2MV = 1- (yij- yi.)2 = ni s2i. n i=1j=1 i=1 n

(3.6)

donde s_i² es la varianza de los resultados del nivel i,

sum ni ( sum ni ) s2i = 1- (yij- yi.)2 = -1 y2ij - (yi.)2 nij=1 ni j=1

En la práctica el estimador

_MV² no se suele utilizar porque es sesgado

( ) E ^s2MV = --n--s2 /= s2. n - I

3.3.2 Estimadores por mínimo-cuadráticos.

Un método alternativo de estimación de los parámetros es el método de estimación mínimo cuadrática, que consiste en seleccionar como estimadores los valores de los parámetros que minimizan la suma de los cuadrados de los errores. Esto es, se trata de seleccionar valores

₁,...,

_I que minimicen la siguiente función de Ivariables:

sum I n sum i 2 sum I sum ni Y (m1, ... ,mI) = (yit - mi) = e2it, i=1 t=1 i=1 t=1

por tanto se quiere calcular

₁,...,

_I tales que

sum I n sum i Y (^m1,...,^mI) = (yij- ^mi)2 i=1 j=1 I ni = min sum sum (y - m )2 = min Y (m ,...,m ). m1,...,mI i=1 j=1 ij i m1,...,mI 1 I

El problema de minimización anterior conduce a un sistema de I ecuaciones (denominadas ecuaciones normales) cuyas soluciones únicas son para cada

_i =

_i,

n 1- sum i ^mi;mc = yi.= ni yij, i = 1,...,I. j=1

(3.7)

Por tanto, los estimadores que se utilizarán son los siguientes

sum ni ^mi = yi.=-1 yij, i = 1,...,I. ni j=1

(3.8)

Si se utiliza el modelo (3.2), los estimadores son

I ni ^m = 1- sum sum y = y- n it .. i=1 t=1

(3.9)

a^ = y- - y-, i = 1,... ,I i i. ..

(3.10)

La bondad de los estimadores mínimo-cuadráticos la establece un resultado clave en los problemas de modelización lineal estadística, el Teorema de Gauss-Markov, según el cual,

“Para todo modelo lineal con errores normales, independientes y varianza común

², los estimadores mínimo-cuadráticos son únicos, insesgados y de varianza mínima”.

En base a las hipótesis del modelo es fácil deducir que la distribución de los estimadores dados (3.8) es la siguiente