lunes, 20 de julio de 2015

Conceptos básicos de Inferencia Estadística

Diseños con una fuente de variación. 

 Análisis de un caso de diseño con un factor fijo.

En esta sección se analiza con detalle un problema de un diseño de experimentos completamente aleatorizado. El enunciado del problema es el dado en el Ejemplo 3.1.
Ejemplo 3.1.
“Una empresa desea estudiar la productividad media por hora en el montaje de un mecanismo electrónico en las tres fábricas que tiene: FA, FB y FC. Para ello se han recogido los datos que aparecen en la tabla. La recogida de datos se ha aleatorizado y nada presupone que existan factores con influencia en los resultados obtenidos.”
Factor: FábricaFAFBFC
Y : Product/hora
4'5
4'4
4'7
4'3
4'7
4'5
4'3
4'8
4'9
3'8
3'8
4'3
4'6
4'9
4'2
4'2
4'8
5'1
4'6
4'4
4'9
4'6
4'4
5'2
4'2
4'5
4'7
4'1
4'9
3'8
4'2
4'7
5'1
4'8
4'6
3'6
4'1
3'7
4'3
4'6
4'2
4'6
4'6
4'3
4'7
4'3
4'2
4'2
4'0
4'5
4'0
4'1
3'9
4'2
Número datos162018
Mediay A. = 4'43y B. = 4'56y C. = 4'25
Desviación TípicasY/A = 0'338sY/B = 0'423sY/C = 0'270
 y .. = 4'419sY = 0'371 

Estimación de los parámetros.

Se obtienen las siguientes estimaciones
         '
^m = y..= 4 418 (media muestral de los 54 datos de la muestra),
    0'728148
s2 =-------- = 0'1348 (varianza muestral de los 54 datos de la muestra),
       54
     0'728148
^s2 = --------= 0'1374 (cuasi- varianza muestral).
       53
Teniedo en cuenta el modelo ajustado
       sum 3  sum ni 2  '
scR  =       eit = 6 3673,
      i=1 t=1
        6'3673
^s2MV  =  ------= 0'1179 (estimador m áximo -verosí mil),
         54
      6'3673
s^2R =  ------=  0'1248 (varianza residual).
        51
Las medias en cada una de las fábricas son:
m^A  = yA.= 4'4312 (media muestral de los 16 datos de la fá brica A),
             '
m^B  = yB.= 4 5600 (media muestral de los 20 datos de la fá brica B),
^mC = yC.=  4'2500 (media muestral de los18 datos de la fábrica C).

Intervalos de confianza.

Un intervalo de confianza al 95% para la media de la fábrica A es
^m  ± t51 (0'975).  V~ ^sR-= 4'4312± 2'008 .0'3533/4 = (4'2538;4'6086).
 A                nA
Un intervalo de confianza al 95% para la varianza s2 es
  2  '       (n---I)s^2R--   2   '
x 51(0 025) <    s2     < x51(0975),
             '                 '
0'0873 = 51.0-1248-< s2 < 51-.01248-=  0'1920.
          72'8578           33'145
Tabla ANOVA del modelo

Tabla ANOVA
Fuentes de variación
Suma de cuadradosGrados de libertadVarianzas
Entre fábricas (scT)0'914120'4570
Residual (scR)6'3673510'1248
Total (scG)6'3673530'1373
Para contrastar la hipótesis nula de que “el factor fábrica no influye en la variable productividad”: H0  =_  mA = mB = mC = m
El estadístico del contraste es
    0'4570
^F = -'---- = 3'661 ~ F2,51.
    0 1248
La tabla de la proporciona un valor = 0'0327Por tanto se rechaza la influencia del factor fábrica para a = 0'05 y se acepta para a = 0'01Ver la Figura 3.1.
Figura 3.1. p-valor del contraste.
El coeficiente de determinación es
  2   0'9141-   '
R  =  7'2814 = 0 1255.
El factor explica el 12’55% de la variabilidad total.

Intervalo de confianza para la diferencia de medias.

Se calcula un intervalo de confianza al 90% para la diferecia de medias entre la productividad de la fábrica B y la de la fábrica C (h   = m  -  m )
  BC     B    C.
Utilizando el estadístico dado en (3.25 ) se obtiene
                 (          )        V ~ -1---1-    (    )
h  =   mB - mC  (-  4'56- 4'25 ± 0'353.   --+  ---.t51 0'95
                  '     '     ( '   '  )20   18
   ==>   mB - mC  (-  0 31± 0 19 = 012,0 50 .
A partir de este estadístico pivote (con distribución t) se puede hacer el siguiente test de hipótesis
{
   H0 : mB - mC = 0 <==>  mB = mC
   H1 : mB - mC /= 0 <==>  mB /= mC
Utilizando los resultados anteriores se obtiene
         yB.-  yC.      0'31
^dBC =  -- V~ ---------=  -'----=  2'70 ~ t51.
       ^sR  -1-+  -1-   01148
           nB    nC
El valor = 0'0047 y se rechaza claramente la igualdad de medias de las fábricas B y C.
Comparando las medias de los niveles dos a dos se obtienen los siguientes grupos homogéneos:
      • Fábrica A y Fábrica B.

      • Fábrica A y Fábrica C.


Efectos aleatorios.

En lo expuesto en este capítulo se supone que el factor tratamiento del modelo de diseño completamente aleatorizado es de  efectos fijos, esto es, los niveles del factor son seleccionados específicamente por el experimentador ya que el interés del experimento se centra en conocer los efectos sobre la respuesta de estos niveles particulares. En este caso los efectos del factor (ai) son “constantes” desconocidas (parámetros). Los modelos conteniendo únicamente efectos fijos se denominan también modelos de efectos fijos.
En muchas situaciones el experimentador tiene interés en un factor con un número elevado de “posibles niveles” y para realizar el experimento es necesario seleccionar una muestra de ellos al azar. En este caso el factor es de efectos aleatorios y, en el modelo matemático del diseño los factores son variables aleatorias idénticamente distribuidas según la distribución de la población de niveles. Los modelos con factores de efectos aleatorios se denominan modelos de efectos aleatorios. En estos modelos el interés radica en medir la variabilidad existente en la totalidad de los efectos de la población de niveles. El objetivo es distinto del caso de efectos fijos y, por consiguiente, la planificación y análisis difiere en ambos modelos.
Hay modelos de diseños de experimentos con factores fijos y factores aleatorios que se denominan modelos mixtos.
En esta sección se estudia el modelo de diseño completamente aleatorizado con el factor de efectos aleatorios. Se supone que la población de niveles es infinita o lo suficientemente grande como para ser considerada como tal, en caso contrario es necesario aplicar correcciones para poblaciones finitas en la formulación matemática del modelo.
Ejemplo 3.2.
Una marca de coches está interesada en controlar la variabilidad en el consumo de los coches que fabrica de un  determinado modelo y para ello somete a un número de coches a una prueba que consiste en que los coches hagan un recorrido predeterminado y se calcule el consumo realizado. Las causas más probables de esta variabilidad son dos: los coches utilizados (no todos tienen el mismo consumo) y los conductores que hacen la prueba.
Pueden considerarse dos situaciones:
[1] Los conductores que participan en el experimento son personal de la empresa acostumbrado a realizar este tipo de pruebas y se cree que su influencia es casi nula, de modo que casi con total seguridad el problema radica en las unidades de coche fabricadas que se están provando. El factor tratamiento es “los coches” y los niveles son todos los coches fabricados y que se podrían fabricar en el futuro. Teóricamente esta población de niveles es infinita y se puede suponer que los coches elegidos entre los últimos fabricados son una muestra aleatoria de todas los fabricados. El efecto del coche sobre el consumo es un efecto aleatorio y se modela mediante una variable aleatoria.
[2] Se sabe que hay muy pocas diferencias entre los coches fabricados o están son mínimas, y se supone que su influencia en el consumo es prácticamente nula. Por otra parte, la fábrica de coches ha querido hacer una prueba de consumo de carácter realista y ha elegido como conductores para hacer la prueba a personas de la ciudad donde está ubicada con la única condición de que tengan el carnet de conducir. Por tanto cabe esperar que el origen de la variabilidad debe encontrarse en los conductores. La ciudad es relativamente grande y el número de conductores es elevado, por este motivo los operarios seleccionados para hacer la prueba son una pequeña muestra de todos los conductores de la ciudad. Asumido que el grupo seleccionado es representativo de la población, éste puede considerarse una muestra aleatoria de la población total de conductores. De nuevo el factor “conductor” es un factor de efectos aleatorios y se debe utilizar un diseño de una vía completamente aleatorizado. En su planificación, habrá que seleccionar al azar una muestra de tamaño de la población de niveles del factor tratamiento aleatorio y, a continuación, asignar al azar las unidades experimentales a los niveles seleccionados. Aquí, para conseguir una potencia específica en las pruebas de hipótesis, hay que determinar con antelación el valor apropiado de I, además del tamaño muestral de cada nivel.

 

3.7.1 El modelo matemático de un factor aleatorio.

Para un diseño completamente aleatorizado con niveles seleccionados al azar de un factor tratamiento T, el modelo de un factor aleatorio es
        determinista
  Yit  =     m    + Ti + eit
aleatorio             aleatorio
(3.32)
para = 1,...,I, = 1,...,niLas Ti son variables aleatorias i.i.d. con distribución N(0,st2), y los eij son variables aleatorias i.i.d. con distribución N(0,s2)Siendo las ti y los eij mutuamente independientes.
Comparando el modelo de efectos aleatorios con el modelo de efectos fijos, se observa que la forma de ambos modelos y las hipótesis sobre el error son exactamente iguales. La única diferencia está en la modelización del efecto tratamiento. Dado que el i-ésimo nivel del factor tratamiento t observado en el experimento ha sido seleccionado aleatoriamente de una población infinita, su efecto observado es el resultado de la variable aleatoria ti. La media de la población de los efectos del tratamiento es la constante m y, por tanto, se justifica que la media de las ti sea cero. El parámetro de interés es ahora st2. Su importancia es fundamental: si todos los efectos de la totalidad de niveles del factor tratamiento son iguales, entonces st2 = 0. Si, por el contrario, existen niveles con efectos muy diferentes, entonces st2 es grande.  
La independencia entre ti y eij implica que el factor tratamiento no tiene incidencia sobre cualquier fuente de variación que haya sido englobada en el error.
Comparando el modelo de efectos fijos y efectos aleatorios, se tiene:



Efectos FijosEfectos Aleatorios



Modelo
yij = m + ai + eijyij = m + ti + eij



 sum  = 1Iai = 0ti  (-  N(0,s2)
    t



Los efectos son
parámetros desconocidosvariables aleatorias



Influyen en
la respuesta mediaen la variabilidad



Objetivo
estimar aiestimar st2



Los niveles
son predeterminadosse eligen al azar



El contraste
H0 : ai = 0 A iH0 : st2 = 0



En el modelo con factor aleatorio se tiene:  
E (Yij) = E (m) + E (ti)+ E (eij) = m,


V ar (Yij) = Var (ti) + Var (eij)+ 2Cov (ti,eij) = s2t + s2,
(3.33)
ya que por la independencia de ti y eij, la Cov(ti,eij) = 0.
Por tanto
        (         )
Yij ~ N  m,s2t + s2 .
(3.34)
Los dos términos de la varianza de Y ijst2 y s2 se denominan componentes de la varianza.
Al contrario que en el modelo de efectos fijos, las observaciones pertenecientes a un mismo tratamiento son correladas:
Cov (Yij,Yis) = Cov (m + ti + eij,m+ t i + eis) = Var (ti) = s2
                                                        t
Estimación de s2.
Por la similitud entre los modelos de una vía de efectos aleatorios y de efectos fijos y realizando un sencillo cálculo matemático puede probarse que la varianza residual  residual   obtenida en (3.15) para el modelo de efectos fijos también es un estimador insesgado de s2 en el modelo de efectos aleatorios.

E (SCR)    =   (n- I)s2
                                            sum I n sum i (       )
          ==>   ^S2 = SCM   R = SCR-- = --1--        Yij- Y-i. 2,     (1.40)
               R             n - I   n - I i=1 j=i
              ^2                    2
              SR es un estimador de s .
(3.35)
Estimación de st2.
Se puede utilizar scmT para obtener un estimador de st2Un sencillo desarrollo matemático permite obtener
 I
                                    2   sum   2
                                   n - i=1ni
E (SCM  T) = c s2T + s2, donde  c = -n(I--1)-.
(3.36)
Si todos los ni son iguales (ni r, para todo i), entonces Ir r. Por tanto,
E (SCM  T) = rs2T + s2, con  r =
ni, i = 1,...,I.
(3.37)
De lo anterior se deduce que SCMT es un estimador insesgado de cst2 s2 (no de st2).
Y de (3.35) y (3.36) se deduce que
     (SCM  T - SCM  R ) ^S2T =
-------c-------  es un estimador insesgado de s2T.
(3.38)
Finalmente, de (3.33), (3.35) y (3.38) se deduce que un estimador insesgado de la varianza de Y, s2, es
^2   ^2   ^2   SCM--T--SCM--R- SY =
ST + SR =        c       + SCM  R.
(3.39)

En resumen
                      I ni (     -- )
^S2R = SCM   R = --1--  sum   sum   Yij - Yi. 2  es un estimador de s2.
               n - I i=1 j=i

^2   (SCM---T---SCM--R-)                                   2
St =          c                         es un estimador de s .

^2    ^2   ^2                                              2
SY = S t + S R                          es un estimador de sY.

donde = (1 /I) (     sum I     )
 n2-   i=1n2isi ni para todo i, entonces r.

 

3.7.2 Contraste de igualdad de los efectos tratamiento.

En el modelo de efectos aleatorios tiene interés la siguiente prueba de hipótesis:
{ Ht  : s2 = 0
    0t    t2
  H 1 : st > 0
Para resolver este contraste se utiliza la misma medida de discrepancia que la utilizada para contrastar si los efectos eran iguales en un modelo de efectos fijos. En el apartado anterior se obtenía que:
E (SCM  R)   =  s2
                  2    2
E (SCM  T )  =  cst + s .
Si H0t es cierta, el valor esperado del cociente SCMT SCMR  ~~  y, si H1t es cierta, el cociente anterior toma valores positivos grandes. Por lo tanto el estadístico del contraste es
F  | t= SCM--T- ~ F       .
   H 0  SCM  R     I-1,n-I
(3.40)
Se rechaza H0t al nivel de significación a si
      2
^F = ^s22>  FI-1,n- I (1- a) .
    ^sR
El resultado es análogo al caso de efectos fijos, y el cálculo matemático para resolver el problema con efectos aleatorios o con efectos fijos es el mismo aunque el planteamiento de los problemas son muy diferentes.
La tabla ANOVA  para el modelo de una vía de efectos aleatorios es prácticamente igual al de efectos fijos con la diferencia en los valores esperados de las sumas de cuadrados medios. En la tabla 3.2. se presenta la tabla ANOVA del modelo de diseño de experimentos con un factor aleatorio.

CUADRO DEL ANÁLISIS DE LA VARIANZA
— UNA VÍA – EFECTOS ALEATORIOS –
Fuente de
Variación
Suma de
Cuadrados
g.l.
scm
F^
(
Tratamientos
=
 sum
 
1
=
 scT
-----
I-  1
 
 scmT
------
scmR cst2+s
Residual
=
 sum
I
=
-scR--
n - I
 s2
Global
=
 sum
 
1
=
 scG
-----
n - 1
 
  
=       I
n2 -  sum  n2
     i=1 i
-----------
  n(I- 1)
Rechazar H0t  sT2 = 0 en base al p-valor P(             )
  ^F > FI-1,n-I
Cuadro 1.2: Cuadro del análisis de la varianza para un diseño completamente aleatorizado de efectos aleatorios.
"Como regla general, los modelos de efectos fijos se utilizan para conocer si deben ó no aplicarse determinados tratamientos, mientras que los modelos de efectos aleatorios permiten medir el efecto de factores que, se quiera o no, están presentes en el proceso. En el primer caso, nos interesa conocer el aumento o disminución de la media de la respuesta según los niveles de los factores, mientras que con el segundo se busca su efecto sobre la variabilidad."
Comparando el modelo de efectos fijos y efectos aleatorios, se tiene:



Efectos FijosEfectos Aleatorios



Modelo
yij m ai uijyij m ti uij



 sum  ai = 0ti  (-  N(0,s2)
    T



Los efectos
parámetros desconocidosvariables aleatorias



Influyen
en la respuesta mediaen la variabilidad



Objetivo
estimar aiestimar st2



Los niveles
se eligenal azar



El contraste
H0 ai = 0 A iH0 st2 = 0



No hay comentarios:

Publicar un comentario