La separación en regresión logística, una solución y aplicación
The problem of separation in logistic regression, a solution and an application
Rev. Fac. Nac. Salud Pública; 29 (3), 2011
Publication year: 2011
La regresión logística es una de las técnicas estadísticas más aplicadas cuando se busca explicar el comportamiento probabilístico de algún fenómeno. Un problema que aparece con frecuencia en estos modelos es la separación en los datos, mostrando los grupos de éxitos separados de los fracasos, lo que impide hallar los estimadores de máxima verosimilitud.
OBJETIVO:
Presentar una revisión y solución del problema, comparando con otras existentes.METODOLOGIA:
Simulación del modelo logístico y estimación del sesgo de los parámetros, usando la solución propuesta con el método clásico. Bayesiano y observaciones ficticias y con el método de Firth.RESULTADOS:
Los sesgos encontrados son menores al generar el par de observaciones ficticias con el método Bayesiano. Se muestra un ejemplo sobre la edad de la menarquia.DISCUSION:
Se aporta una solución adecuada al problema de la separación usando simulación en un esquema de modelo logístico sencillo.Conclusiones:
la generación de observaciones ficticias se recomienda dentro de la región de separación y el mejor método de solución está basado en la teoría bayesiana, donde se logra una convergencia en los parámetros del modelo logístico.
Logistic regression is one of the most used statistical techniques for explaining the probabilistic behavior of a given phenomenon. Data separation is a frequent problem in this model, as successes appear separated from failures and make it impossible to find the maximum likelihood estimators.