Modelos lineales generalizados Ver ayuda (glm) para otras opciones de modelado. Consulte la ayuda (familia) para otras funciones de enlace permitidas para cada familia. Tres subtipos de modelos lineales generalizados se tratarán aquí: regresión logística, regresión de poisson y análisis de supervivencia. Regresión logística La regresión logística es útil cuando se predice un resultado binario de un conjunto de variables predictoras continuas. Con frecuencia se prefiere el análisis de la función discriminante debido a sus supuestos menos restrictivos. La regresión logística donde F es un factor binario y X1-X3 son predictores continuos encajan ntegrada GLM (F x1x2x3, datamydata, familybinomial ()) Resumen (FIT) Mostrar resultados CONFINT (aptitud) IC 95 para los coeficientes de exp (coef (aptitud) ) coeficientes exponenciadas exp (CONFINT (FIT)) IC del 95 de exponentes al coeficientes predicen (en forma, typequotresponsequot) predijo valores residuales (ajuste, typequotdeviancequot) residuales x, misdatos datos) se mostrará la gráfica de densidad condicional del resultado binario F en la x continua variable. Regresión de Poisson La regresión de Poisson es útil cuando se predice una variable de resultado que representa los conteos de un conjunto de variables predictoras continuas. La regresión de Poisson, donde el recuento es un recuento y X1-X3 son predictores continuos encaja ntegrada GLM (cuenta x1x2x3, datamydata, familypoisson ()) Resumen (FIT) resultados de visualización Si tiene sobredispersión (ver si la desviación residual es mucho más grande que los grados de libertad ), Es posible que desee utilizar quasipoisson () en lugar de poisson (). Análisis de supervivencia El análisis de supervivencia (también llamado análisis de historial de eventos o análisis de confiabilidad) cubre un conjunto de técnicas para modelar el tiempo de un evento. Los datos pueden ser censurados correctamente - el evento puede no haber ocurrido al final del estudio o podemos tener información incompleta sobre una observación, pero sabemos que hasta cierto momento el evento no había ocurrido (por ejemplo, el participante abandonó el estudio en la semana 10 pero estaba vivo en ese momento). Mientras que los modelos lineales generalizados se analizan típicamente utilizando la función glm (), análisis de supervivencia se lleva a cabo típicamente utilizando las funciones del paquete de supervivencia. El paquete de supervivencia puede manejar uno y dos problemas de muestra, modelos paramétricos de falla acelerada y el modelo de riesgos proporcionales de Cox. Los datos se introducen típicamente en el formato hora de inicio. para el tiempo . Y estado (1evento ocurrido, 0evento no ocurrió). Alternativamente, los datos pueden estar en el formato de tiempo para evento y estado (1evento ocurrió, 0evento no ocurrió). Un status0 indica que la observación es correcta. Los datos se agrupan en un objeto Surv mediante la función Surv () antes de realizar análisis adicionales. Se utiliza para calcular una distribución de supervivencia para uno o más grupos. Survdiff () prueba las diferencias en las distribuciones de supervivencia entre dos o más grupos. Coxph () modela la función de peligro en un conjunto de variables predictoras. biblioteca de la Clínica Mayo de pulmón Datos sobre el Cáncer (supervivencia) aprender sobre la ayuda conjunto de datos (pulmón) crear un objeto Surv survobj ntegrada con (pulmón, Surv (hora, estado)) Parcela distribución de supervivencia de la muestra total de Kaplan-Meier fit0 estimador ntegrada survfit (1 survobj, datalung) resumen (fit0) parcela (fit0, xlabquotSurvival Tiempo en Daysquot, ylabquot Survivingquot, yscale100, mainquotSurvival Distribución (general) quot) comparación de las distribuciones de supervivencia de hombres y mujeres Fit1 LT-survfit (parcela survobj las distribuciones de supervivencia por parcela sexo (Flt1, xlabquotSurvival Tiempo en Daysquot, ylabquot Survivingquot, yscale100, ColC (quotredquot, quotbluequot), mainquotSurvival Distribuciones por Genderquot) leyenda (quottoprightquot, titlequotGenderquot, c (quotMalequot, quotFemalequot), fillc (quotredquot, quotbluequot)) prueba de diferencia survdiff entre las curvas de supervivencia de hombres y mujeres (prueba de rango logarítmico) (survobj predecir la supervivencia masculina de edad y anota médicos MaleMod coxph ntegrada (survobj ageph. ecogph. karnopat. karno, datalung, resultados subsetsex1) de visualización MaleMod evaluar el supuesto de riesgos proporcionales cox. zph (MaleMod) Vea el artículo de noticias de Thomas Lumleys R sobre el paquete de la supervivencia para más información. Otras fuentes buenas incluyen Mai Zhous Utilice el software de R para hacer el análisis y la simulación de la supervivencia y el capítulo de M. J. Crawleys en el análisis de la supervivencia. Apecias si esto es una pregunta simple. Estoy tratando de utilizar la función errorest del paquete ipred en R to K-fold CV con GLM modelos de la familia binomial, así como la tierra (MARS) modelos. He escrito rutinas para hacer CV y puede ejecutar mi GLM y otros modelos a través de él y funciona muy bien. Me encontré con la función errorest () y me gustó por ser un enfoque más compacto que mis scripts y la flexibilidad para trabajar con diferentes modelos. Mi problema es que no puedo encontrar una manera de tener la función de predicción de errorest el uso de la bandera para typeresponse. Utilizo este tipo de predicción porque mi respuesta variable es presencia / ausencia (1,0). Sin embargo, estoy prediciendo probabilidades, no una clasificación binaria. En el ejemplo de código que aparece a continuación, reviso un GLM típico y predigo con typeresponse. Y luego un uso directo de errorest y, finalmente, una serie de errorest que llama a una función de predicción personalizada, mypredict. glm que utiliza la bandera typeresponse. Sin embargo, los resultados aún no son probabilidades. Cualquier ayuda sería apreciada grandemente. Gracias you. As se puede ver, cada uno de los primeros cinco opciones tiene una función de varianza asociada (por binomial el binomio varianza m (1- m)), y una o más opciones de funciones de enlace (para la binomial logit, probit o complementario Log-log). Siempre y cuando quiera el enlace predeterminado, todo lo que tiene que especificar es el apellido. Si desea un enlace alternativo, debe agregar un argumento de enlace. Por ejemplo, para hacer los probitos que utiliza La última familia en la lista, casi. Está ahí para permitir la adaptación de los modelos definidos por el usuario por máxima cuasi-verosimilitud. 5.2 Regresión logística Vamos a ilustrar modelos de regresión logística apropiados usando los datos de uso de anticonceptivos que se muestran a continuación: Los datos están disponibles en la sección de conjuntos de datos del sitio web para mi curso de modelos lineales generalizados. Visite data. princeton. edu/wws509/datasets para leer una breve descripción y siga el enlace a cuse. dat. Por supuesto, los datos se pueden descargar directamente desde R: I especificado el parámetro de encabezado como TRUE. Porque de lo contrario no habría sido obvio que la primera línea del archivo tenga los nombres de las variables. No hay nombres de fila especificados, por lo que las filas se numerarán del 1 al 16. Cuse de impresión para asegurarse de que obtuvo los datos en bien. A continuación, convertirlo en su conjunto de datos predeterminado: Vamos a probar primero un modelo aditivo simple donde el uso de anticonceptivos depende de la edad, la educación y quiere Más: Hay algunas cosas que explicar aquí. En primer lugar, la función se denomina glm y he asignado su valor a un objeto llamado lrfit (para ajuste de regresión logística). El primer argumento de la función es una fórmula de modelo, que define la respuesta y el predictor lineal. Con datos binomiales, la respuesta puede ser un vector o una matriz con dos columnas. Si la respuesta es un vector puede ser numérica con 0 para el fracaso y 1 para el éxito, o un factor con el primer nivel que representa quotfailurequot y todos los demás que representan quotsuccessquot. En estos casos, R genera un vector de unos para representar los denominadores binomiales. Alternativamente, la respuesta puede ser una matriz en la que la primera columna es el número de quasuccendidos y la segunda columna es el número de fracasos. En este caso, R agrega las dos columnas para producir el denominador binomial correcto. Debido a que el último enfoque es claramente el correcto para nosotros he utilizado la función cbind para crear una matriz vinculando los vectores de columna que contienen los números utilizando y no utilizar la anticoncepción. Siguiendo el símbolo especial que separa la respuesta de los predictores, tenemos una fórmula estándar de Wilkinson-Rogers. En este caso estamos especificando los principales efectos de la edad, la educación y los deseos. Debido a que los tres predictores son variables categóricas, se tratan automáticamente como factores, como se puede ver mediante la inspección de los resultados: Recuerde que R ordena los niveles de un factor en orden alfabético. Porque la edad. Del mismo modo, alta es la celda de referencia para la educación porque alta viene antes de la baja Finalmente, R escogió no como base para los deseos. Si no está satisfecho con estas opciones, puede (1) usar relevel para cambiar la categoría de base, o (2) definir sus propias variables de indicador. Utilizaré este último enfoque definiendo indicadores para las mujeres con educación superior y las mujeres que no quieren más hijos: Ahora intente nuevamente el modelo: La desviación residual de 29,92 en 10 d. f. Es muy importante: así que necesitamos un modelo mejor. Uno de mis favoritos introduce una interacción entre la edad y el deseo de no más niños: Tenga en cuenta cómo R construyó los términos de interacción de forma automática, e incluso llegó con etiquetas sensibles para ellos. Los modelos de desviación de 12,63 en 7 d. f. No es significativo en el nivel convencional de cinco por ciento, por lo que no tenemos pruebas contra este modelo. Para obtener información más detallada sobre este ajuste, pruebe la función de resumen: R sigue la costumbre popular de marcar los coeficientes significativos con una, dos o tres estrellas dependiendo de sus valores de p. Trate de trazar (lrfit). Se obtienen los mismos diagramas que en un modelo lineal, pero adaptados a un modelo lineal generalizado, por ejemplo los residuos representados son residuos de desviación (la raíz cuadrada de la contribución de una observación a la desviación, con el mismo signo que el residuo bruto). Las funciones que se pueden utilizar para extraer resultados del ajuste incluyen residuos o residuos. Para los residuos de desviación instalados o montados. Para los valores ajustados (probabilidades estimadas). Para el predictor lineal (logits estimados) coef o coeficientes. Para los coeficientes, y desviación. Por la desviación. Algunas de estas funciones tienen argumentos opcionales, por ejemplo, puede extraer cinco tipos diferentes de residuos, llamados quotdeviancequot, quotpearsonquot, quotresponsequot (valor ajustado a la respuesta), quotworkingquot (la variable dependiente de trabajo en el algoritmo IRLS - predictor lineal) y quotpartialquot Una matriz de residuos de trabajo formada omitiendo cada término en el modelo). Especifique el que desee utilizando el argumento type, por ejemplo residuals (lrfit, typequotpearsonquot). 5.3 Actualización de modelos Si desea modificar un modelo, puede considerar utilizar la actualización de funciones especiales. Por ejemplo, para eliminar la edad: noMore interacción en nuestro modelo se podría utilizar El primer argumento es el resultado de un ajuste, y el segundo una fórmula de actualización. El marcador de posición separa la respuesta de los predictores y el punto. Se refiere al lado derecho de la fórmula original, por lo que aquí simplemente eliminar la edad: noMais. Alternativamente, se puede dar una nueva fórmula como el segundo argumento. La función de actualización se puede utilizar para ajustar el mismo modelo a diferentes conjuntos de datos, utilizando los datos de argumento para especificar un nuevo marco de datos. Otro argumento útil es el subconjunto. Para adaptar el modelo a una submuestra diferente. Esta función funciona con modelos lineales así como con modelos lineales generalizados. Si planea ajustar una secuencia de modelos, encontrará la función anova útil. Dada una serie de modelos anidados, calculará el cambio en el desvío entre ellos. Trate de añadir la interacción ha reducido la desviación en 17,288 a expensas de 3 d. f. Si el argumento de anova es un solo modelo, la función mostrará el cambio de desviación obtenido añadiendo cada uno de los términos en el orden listado en la fórmula del modelo, tal como lo hizo con los modelos lineales. Debido a que esto requiere ajustar tantos modelos como hay términos en la fórmula, la función puede tomar un tiempo para completar sus cálculos. La función anova le permite especificar una prueba opcional. Las opciones habituales serán F para modelos lineales y Chisq para modelos lineales generalizados. Añadiendo el parámetro testquotChisqquot añade p-valores junto a las desviaciones. En nuestro caso podemos ver que todos los términos eran altamente significativos cuando se introdujeron en el modelo. 5.4 Selección de modelo Una herramienta muy potente en R es una función para la regresión escalonada que tiene tres características notables: Trabaja con modelos lineales generalizados, por lo que hará regresión logística por etapas, o regresión por pasos de Poisson, entiende sobre modelos jerárquicos, por lo que será Sólo consideran la posibilidad de añadir interacciones sólo después de incluir los efectos principales correspondientes en los modelos, y entienden términos que implican más de un grado de libertad, por lo que mantendrá juntas las variables ficticias que representan los efectos de un factor. La idea básica del procedimiento es comenzar A partir de un modelo dado (que bien podría ser el modelo nulo) y tomar una serie de pasos ya sea borrando un término ya en el modelo o agregando un término de una lista de candidatos para la inclusión, llamado alcance de la búsqueda y definido, de Por supuesto, mediante una fórmula modelo. La selección de términos para supresión o inclusión se basa en el criterio de información de Akaikes (AIC). R define AIC como ndash2 maximizada log-verosimilitud 2 número de parámetros (S-Plus lo define como la desviación menos dos veces el número de parámetros en el modelo. Las dos definiciones difieren por una constante, por lo que las diferencias en AIC son los mismos en los dos ). El procedimiento se detiene cuando no se puede mejorar el criterio AIC. En R todo este trabajo se realiza llamando a un par de funciones, add1 y drop1. Que consideran agregar o dejar caer un término de un modelo. Estas funciones pueden ser muy útiles en la selección de modelos, y ambas aceptan un argumento de prueba igual que anova. Considere la primera gota1. Para nuestro modelo de regresión logística, Obviamente, no podemos dejar caer ninguno de estos términos. Tenga en cuenta que R consideró dejar caer el efecto principal de la educación y la edad por no querer más interacción, pero no examinó los principales efectos de la edad o no quiere más, porque uno no dejaría caer estos efectos principales, manteniendo la interacción. La función hermana add1 requiere un ámbito para definir los términos adicionales a considerar. En nuestro ejemplo consideraremos todas las posibles interacciones de dos factores: Vemos que ninguna de las dos interacciones de dos factores es significativa por sí misma en el nivel convencional de cinco por ciento. (Sin embargo, resultan ser conjuntamente significativos.) Tenga en cuenta que el modelo con la interacción edad por educación tiene un AIC más bajo que nuestro modelo de partida. La función de paso realizará una búsqueda automática. Aquí lo dejamos buscar en un ámbito definido por todas las interacciones de dos factores: La función de paso produce una salida de rastreo detallada que hemos suprimido. El objeto devuelto, sin embargo, incluye un componente anova que resume la búsqueda: Como se puede ver, el procedimiento automatizado introdujo, una por una, las tres interacciones restantes de dos factores, para producir un AIC final de 99.9. Este es un ejemplo donde AIC, al requerir una mejora de desviación de sólo 2 por parámetro, puede haber llevado a sobredimensionar los datos. Algunos analistas prefieren una penalización mayor por parámetro. En particular, usar log (n) en lugar de 2 como multiplicador produce BIC, el Criterio Bayesiano de Información. En nuestro log de ejemplo (1607) 7.38, por lo que requeriría una reducción de desviación de 7.38 por parámetro adicional. La función de paso acepta k como un argumento, con un valor predeterminado 2. Puede verificar que especificar klog (1607) conduce a un modelo mucho más simple no sólo no se introducen nuevas interacciones, sino que el efecto principal de la educación se pierde (aunque es significativo ). Copia 2016 Germaacuten Rodriacuteguez, Universidad de Princeton
No comments:
Post a Comment