J. health inform; 13 (2), 2021
Publication year: 2021
Objective:
Present an explainable artificial intelligence (AI) approach for COVID-19 diagnosis with blood cell count. Methods:
Five AI algorithms were evaluated: Logistic Regression, Random Forest, Support Vector Machine, Gradient Boosting and eXtreme Gradient Boosting. A Bayesian optimization with 5-Fold cross-validation was used to hyper-parameters tuning. The model selection evaluated three results:
cross validation performance, test set prediction performance and a backtest: performance on identifying patients negative for COVID-19, but positive for others respiratory pathologies. Shapley Additive explanations (SHAP) was used to explain the chosen model. Results:
A Random Forest model was obtained with 77.7% F1-Score (IC95%:57.1;92.3), 85.9% AUC (IC95%:73.7;95.9), 74.4% Sensitivity (IC95%:50.0;92.1) and 97.5% Specificity (IC95%:93.6;100.0). The main features were leukocytes, platelets and eosinophils. Conclusion:
The research highlights the importance of model interpretability, demonstrating blood cell count as a possibility for COVID-19 diagnosis. The methodological structure developed, using TRIPOD’s guidelines, can be extrapolated to other pathologies.
Objetivo:
Propor uma abordagem com inteligência artificial explicável para diagnóstico de COVID-19 com hemograma. Métodos:
Cinco algoritmos de IA foram testados: Regressão Logística, Florestas Aleatórias, Máquina de Vetores de Suporte, Gradient Boosting e eXtreme Gradient Boosting. Os hiper-parâmetros foram definidos através da otimização bayesiana com validação cruzada 5-Fold. A seleção de modelo utilizou três resultados de desempenho para definir o melhor modelo:
validação cruzada, conjunto de teste e rendimento na identificação de pacientes negativos para COVID-19, porém positivos para outras patologias respiratórias (backtest). Ao final, Shapley Additive explanations (SHAP) foi utilizado para explicar o modelo escolhido. Resultados:
Obteve-se um modelo Random Forest com F1-Score de 77.7% (IC95%:57.1;92.3), AUC de 85.9% (IC95%:73.7;95.9), Sensibilidade de 74.4% (IC95%:50.0;92.1) e Especificidade de 97.5% (IC95%:93.6;100.0). As principais variáveis foram leucócitos, plaquetas e eosinófilos. Conclusão:
A pesquisa destaca a importância da interpretabilidade do modelo, demonstrando o hemograma como uma possibilidade para diagnosticar COVID-19. A estrutura metodológica desenvolvida no estudo, utilizando as diretrizes do TRIPOD, pode ser extrapolada para detecção de outras patologias.
Objetivo:
Proponer un enfoque explicable de inteligencia artificial (IA) para el diagnóstico de COVID-19 con el uso de hemograma. Métodos:
Cinco modelos de IA fueron evaluados: Logistic Regression, Random Forest, Support Vector Machine, Gradient Boosting e eXtreme Gradient Boosting. Los hiper-parámetros fueron definidos a través de optimización bayesiana con validación cruzada 5-Folds. La selección del modelo se utilizó tres resultados:
rendimiento del validación cruzada, rendimento en conjunto de pruebas y el análisis de desempeño en identificación de pacientes negativos para COVID-19, pero positivos para otras patologías respiratorias (backtest). Shapley Additive explanations (SHAP) fue utilizado para explicar el modelo elegido. Resultados:
Se obtuvo un modelo Random Forest con F1-Score de 77.7% (IC95%:57.1;92.3), AUC de 85.9% (IC95%:73.7;95.9), Sensibilidad de 74.4% (IC95%:50.0;92.1) y Especificidad de 97.5% (IC95%:93.6;100.0). Las principales variables fueron leucocitos, plaquetas y eosinófilos. Conclusión:
La investigación presenta la importancia de la interpretabilidad del modelo, demostrando el uso de hemograma como posibilidad para diagnosticar COVID-19. La estructura elaborada, siguiendo las directrices de TRIPOD, puede ser extrapolar para otras patologías.