Segmentação e especialização de modelos de machine learning para a predição de mortalidade neonatal
Group-specific models to improve machine learning predictions of neonatal mortality
Publication year: 2024
Theses and dissertations in Portugués presented to the Universidade de São Paulo. Faculdade de Saúde Pública to obtain the academic title of Mestre. Leader: Chiavegatto Filho, Alexandre Dias Porto
O crescente volume de dados gerados na área da saúde oferece oportunidades sem precedentes para melhorar a qualidade dos cuidados por meio da análise adequada dessas informações. Algoritmos de machine learning surgem como uma ferramenta poderosa, capaz de extrair padrões complexos nos dados, e com isso auxiliar na tomada de decisões clínicas, na personalização de tratamentos e na detecção precoce de doenças. Este estudo teve como objetivo desenvolver e avaliar modelos de machine learning para a predição de mortalidade neonatal, com um foco em explorar e testar diferentes estratégias de segmentação e especialização dos modelos, utilizando dados coletados pelo Maternal Newborn Health Registry (MNHR), abrangendo diversos países em desenvolvimento. Entre os 692 modelos avaliados, o LGBMClassifier destacou-se, apresentando a melhor performance global com uma ROC AUC de 0,8609, evidenciando sua alta capacidade de discriminação entre casos de mortalidade e sobrevivência neonatal. Embora o modelo global tenha demonstrado superioridade, a segmentação dos dados por variáveis contextuais, como local de parto e via de parto, mostrou-se promissora para a especialização dos modelos, resultando em melhorias de desempenho em contextos específicos. No entanto, a eficácia dessas estratégias depende da quantidade de dados disponíveis em cada segmento, como ficou evidenciado pela segmentação por localização geográfica que não apresentou os ganhos esperados devido à variação significativa na composição dos dados entre as bases de treino e teste, apontando para a necessidade de um volume adequado de amostras para treinar os modelos segmentados de forma eficaz. A segmentação por variáveis tradicionalmente consideradas importantes, como peso ao nascer, não trouxe os ganhos esperados nos modelos especializados, principalmente devido à baixa presença de casos extremos nas bases de dados. A análise de explicabilidade utilizando valores de Shapley revelou que variáveis como contato pele a pele e peso ao nascer foram consistentemente identificadas como os principais preditores, influenciando diretamente as decisões do modelo. Assim, este estudo destaca a importância de um equilíbrio entre a robustez dos modelos globais e a especialização proporcionada pela segmentação, sugerindo que a escolha da estratégia ideal depende do contexto e da disponibilidade de dados.
The growing volume of data generated in the healthcare sector offers unprecedented opportunities to improve the quality of care through the appropriate analysis of this information. In this context, machine learning emerges as a powerful tool capable of extracting patterns from large datasets, assisting in clinical decision-making, treatment personalization, and early disease detection. This study aimed to develop and evaluate machine learning models for predicting neonatal mortality, with a particular focus on exploring and testing different strategies for segmentation and model specialization, using data collected by the Maternal Newborn Health Registry (MNHR), covering several developing countries. Among the 692 models evaluated, the LGBMClassifier stood out, showing the best overall performance with a ROC AUC of 0.8609, demonstrating its high ability to discriminate between cases of neonatal mortality and survival. Although the global model showed superiority, data segmentation by contextual variables such as delivery local and mode proved promising for model specialization, resulting in performance improvements in specific contexts. However, the effectiveness of these strategies depends on the amount of data available in each segment, as evidenced by the segmentation by geographic location, which did not show the expected gains due to significant variation in data composition between the training and testing datasets, indicating the need for an adequate volume of samples to effectively train segmented models. Segmentation by traditionally important variables, such as birth weight, did not bring the expected gains in specialized models, mainly due to the rarity of extreme cases in the datasets. The explainability analysis using Shapley values revealed that variables such as skin-to-skin contact and birth weight were consistently identified as the main predictors, directly influencing the model's decisions.In conclusion, this study highlights the importance of balancing the robustness of global models with the specialization provided by group segmentation, suggesting that the choice of the ideal strategy depends on the context and the availability of data.