Diagnosis of patients with blood cell count for COVID-19: An explainable artificial intelligence approach

Reis, Kaike Wesley; Oliveira-Esquerre, Karla Patricia

Objective:

Present an explainable artificial intelligence (AI) approach for COVID-19 diagnosis with blood cell count.

Methods:

Five AI algorithms were evaluated: Logistic Regression, Random Forest, Support Vector Machine, Gradient Boosting and eXtreme Gradient Boosting. A Bayesian optimization with 5-Fold cross-validation was used to hyper-parameters tuning.

The model selection evaluated three results:

cross validation performance, test set prediction performance and a backtest: performance on identifying patients negative for COVID-19, but positive for others respiratory pathologies. Shapley Additive explanations (SHAP) was used to explain the chosen model.

Results:

A Random Forest model was obtained with 77.7% F1-Score (IC95%:57.1;92.3), 85.9% AUC (IC95%:73.7;95.9), 74.4% Sensitivity (IC95%:50.0;92.1) and 97.5% Specificity (IC95%:93.6;100.0). The main features were leukocytes, platelets and eosinophils.

Conclusion:

The research highlights the importance of model interpretability, demonstrating blood cell count as a possibility for COVID-19 diagnosis. The methodological structure developed, using TRIPOD’s guidelines, can be extrapolated to other pathologies.

Objetivo:

Propor uma abordagem com inteligência artificial explicável para diagnóstico de COVID-19 com hemograma.

Métodos:

Cinco algoritmos de IA foram testados: Regressão Logística, Florestas Aleatórias, Máquina de Vetores de Suporte, Gradient Boosting e eXtreme Gradient Boosting. Os hiper-parâmetros foram definidos através da otimização bayesiana com validação cruzada 5-Fold.

A seleção de modelo utilizou três resultados de desempenho para definir o melhor modelo:

validação cruzada, conjunto de teste e rendimento na identificação de pacientes negativos para COVID-19, porém positivos para outras patologias respiratórias (backtest). Ao final, Shapley Additive explanations (SHAP) foi utilizado para explicar o modelo escolhido.

Resultados:

Obteve-se um modelo Random Forest com F1-Score de 77.7% (IC95%:57.1;92.3), AUC de 85.9% (IC95%:73.7;95.9), Sensibilidade de 74.4% (IC95%:50.0;92.1) e Especificidade de 97.5% (IC95%:93.6;100.0). As principais variáveis foram leucócitos, plaquetas e eosinófilos.

Conclusão:

A pesquisa destaca a importância da interpretabilidade do modelo, demonstrando o hemograma como uma possibilidade para diagnosticar COVID-19. A estrutura metodológica desenvolvida no estudo, utilizando as diretrizes do TRIPOD, pode ser extrapolada para detecção de outras patologias.

Objetivo:

Proponer un enfoque explicable de inteligencia artificial (IA) para el diagnóstico de COVID-19 con el uso de hemograma.

Métodos:

Cinco modelos de IA fueron evaluados: Logistic Regression, Random Forest, Support Vector Machine, Gradient Boosting e eXtreme Gradient Boosting. Los hiper-parámetros fueron definidos a través de optimización bayesiana con validación cruzada 5-Folds.

La selección del modelo se utilizó tres resultados:

rendimiento del validación cruzada, rendimento en conjunto de pruebas y el análisis de desempeño en identificación de pacientes negativos para COVID-19, pero positivos para otras patologías respiratorias (backtest). Shapley Additive explanations (SHAP) fue utilizado para explicar el modelo elegido.

Resultados:

Se obtuvo un modelo Random Forest con F1-Score de 77.7% (IC95%:57.1;92.3), AUC de 85.9% (IC95%:73.7;95.9), Sensibilidad de 74.4% (IC95%:50.0;92.1) y Especificidad de 97.5% (IC95%:93.6;100.0). Las principales variables fueron leucocitos, plaquetas y eosinófilos.

Conclusión:

La investigación presenta la importancia de la interpretabilidad del modelo, demostrando el uso de hemograma como posibilidad para diagnosticar COVID-19. La estructura elaborada, siguiendo las directrices de TRIPOD, puede ser extrapolar para otras patologías.