viernes, 28 de abril de 2017

Bioestadística Clínica



  Modelo II de regresión lineal
Se asume que las variables X e Y son ambas variables aleatorias y que su fdp conjunta es normal bivariante.
La normal bivariante es una extensión a dos dimensiones de la normal univariante. Su representación gráfica es una campana tridimensional. Depende de 5 parámetros: mx,mysxsy y r que son respectivamente las medias, las desviaciones típicas de X e Y, y su coeficiente de correlación. Dicho coeficiente se define como 
Siendo el numerador la llamada covarianza
Las propiedades de la normal bivariante son:
i) las fdps marginales son ambas normales con medias 
mxmy y desviaciones típicas xsy respectivamente.
ii) las fdps condicionadas f(y|x) son también normales con medias y varianzas
obsérvese que la media depende linealmente de x, es decir, también se puede escribir
iii) simétricamente las fdps f(x|y)
A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos procedimientos que en el modelo I y ¡¡se obtienen los mismos resultados!! Ahora, sin embargo, también se obtiene un estimador para el coeficiente de correlación (la "famosa" r) que no tiene sentido en el modelo I.





  Propiedades del coeficiente de correlación
i) número sin dimensiones entre -1 y 1.
ii) si las variables son independientes 
r=0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí.
iii) si las variables estuvieran relacionadas linealmente 
r=1
Un contraste que interesa realizar en un modelo II es H0r=0. Como
este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que una cierta transformación (de Fisher) de se distribuye aproximadamente como una normal.
¿Qué mide r?
Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la regresión de tal modo que su cuadrado (coeficiente de determinación) es la proporción de variación de la variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio del modelo lineal.
¿Qué no mide r?
- no mide la magnitud de la pendiente ("fuerza de la asociación")
- tampoco mide lo apropiado del modelo lineal
Potencia de los contrastes en regresión
Los contrastes se realizan en base al conocimiento de la distribución muestral del estadístico usado. En el caso de la regresión, las distribuciones usadas son la normal (para r) y la t de Student (para los coeficientes). Sólo para la normal es fácil el cálculo de la potencia, pero sabemos que la t tiende asintóticamenta (para muestras grandes (>30 en la práctica) a la normal. Usaremos esto.
1- b = p(rechazar Ho| Ho falsa)
Supongamos que
asumamos normalidad ¿qué potencia tiene el contraste si a1 fuera 5 (recordar que se necesita concretar H1)?
¿Cuándo rechazamos H0 al 95%?
Cuando
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que calcular la probabilidad de encontrar
si a1 fuera 5. Calculamos
y lo miramos en la tabla de la normal 1- =0,512=51,2%.






Modelo de regresión lineal múltiple
Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender también de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metabólicos genéticos, etc.
Si, para cada valor del consumo de grasas, las demás variables se distribuyen aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las otras variables estaría incluida en la variación aleatoria alrededor de la regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una parte no cuantificada de la variación del colesterol que el modelo atribuye al consumo de grasas sería "debida" a la edad.
La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es
a0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e. edad, se interpreta como la media de que no depende de las Xi).ai: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las demás.
Las asunciones del modelo son una generalización de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II.
La estimación de los coeficientes también se hace por mínimos cuadrados o máxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notación matricial, son (incluyen como caso particular la RLS):
siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseño
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas
un buen estimador de s2 es
que se distribuye como una c2 con n - (k+1) grados de libertad.
Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede:
  1. El número de observaciones (n), es menor o igual que el número de variables independientes (k).
  2. Una variable independiente es combinación lineal de otra(s) o constante (colinealidad ).




Estimación y contrastes de hipótesis:
Usando la teoría resumida en el apartado anterior, los intervalos de confianza para los coeficientes se construyen igual que en RLS.
y los contrastes de hipótesis
H0a= 0
H1
a¹ 0
se realizan con el estadístico
Ejemplo 5
Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las demás variables.
Tabla de datos
Paciente
Colesterol
Edad
Grasas
Ejerci.
1
350
80
35
0
2
190
30
40
2
3
263
42
15
1
4
320
50
20
0
5
280
45
35
0
6
198
35
50
1
7
232
18
70
1
8
320
32
40
0
9
303
49
45
0
10
220
35
35
0
11
405
50
50
0
12
190
20
15
2
13
230
40
20
1
14
227
30
35
0
15
440
30
80
1
16
318
23
40
2
17
212
35
40
1
18
340
18
80
0
19
195
22
15
0
20
223
41
34
0
La salida del programa de ordenador es


 

No hay comentarios:

Publicar un comentario