Propiedades del coeficiente de correlación
i) número sin dimensiones entre -1 y 1. ii) si las variables son independientes r=0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí. iii) si las variables estuvieran relacionadas linealmente r=1
Un contraste que interesa realizar en un modelo II es H0: r=0. Como
este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que una cierta transformación (de Fisher) de r se distribuye aproximadamente como una normal.
¿Qué mide r?
Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la regresión de tal modo que su cuadrado (coeficiente de determinación) es la proporción de variación de la variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio del modelo lineal.
¿Qué no mide r?
- no mide la magnitud de la pendiente ("fuerza de la asociación")
- tampoco mide lo apropiado del modelo lineal
Potencia de los contrastes en regresión
Los contrastes se realizan en base al conocimiento de la distribución muestral del estadístico usado. En el caso de la regresión, las distribuciones usadas son la normal (para r) y la t de Student (para los coeficientes). Sólo para la normal es fácil el cálculo de la potencia, pero sabemos que la t tiende asintóticamenta (para muestras grandes (>30 en la práctica) a la normal. Usaremos esto.
1- b = p(rechazar Ho| Ho falsa)
Supongamos que
asumamos normalidad ¿qué potencia tiene el contraste si a1 fuera 5 (recordar que se necesita concretar H1)?
¿Cuándo rechazamos H0 al 95%?
Cuando
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que calcular la probabilidad de encontrar
si a1 fuera 5. Calculamos
y lo miramos en la tabla de la normal 1- b =0,512=51,2%.
Modelo de regresión lineal múltiple
Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender también de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metabólicos genéticos, etc.
Si, para cada valor del consumo de grasas, las demás variables se distribuyen aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las otras variables estaría incluida en la variación aleatoria alrededor de la regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una parte no cuantificada de la variación del colesterol que el modelo atribuye al consumo de grasas sería "debida" a la edad.
La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es
a0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e. edad, se interpreta como la media de Y que no depende de las Xi).ai: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las demás.
Las asunciones del modelo son una generalización de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II.
La estimación de los coeficientes también se hace por mínimos cuadrados o máxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notación matricial, son (incluyen como caso particular la RLS):
siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseño
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas
un buen estimador de s2 es
que se distribuye como una c2 con n - (k+1) grados de libertad.
Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede:
- El número de observaciones (n), es menor o igual que el número de variables independientes (k).
- Una variable independiente es combinación lineal de otra(s) o constante (colinealidad ).
Estimación y contrastes de hipótesis:
y los contrastes de hipótesis
H0: aI = 0 H1: ai ¹ 0
se realizan con el estadístico
Ejemplo 5
Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las demás variables.
Tabla de datos
Paciente |
Colesterol
|
Edad
|
Grasas
|
Ejerci.
|
1 |
350
|
80
|
35
|
0
|
2 |
190
|
30
|
40
|
2
|
3 |
263
|
42
|
15
|
1
|
4 |
320
|
50
|
20
|
0
|
5 |
280
|
45
|
35
|
0
|
6 |
198
|
35
|
50
|
1
|
7 |
232
|
18
|
70
|
1
|
8 |
320
|
32
|
40
|
0
|
9 |
303
|
49
|
45
|
0
|
10 |
220
|
35
|
35
|
0
|
11 |
405
|
50
|
50
|
0
|
12 |
190
|
20
|
15
|
2
|
13 |
230
|
40
|
20
|
1
|
14 |
227
|
30
|
35
|
0
|
15 |
440
|
30
|
80
|
1
|
16 |
318
|
23
|
40
|
2
|
17 |
212
|
35
|
40
|
1
|
18 |
340
|
18
|
80
|
0
|
19 |
195
|
22
|
15
|
0
|
20 |
223
|
41
|
34
|
0
|
La salida del programa de ordenador es
| |
|
No hay comentarios:
Publicar un comentario