Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
Inclusion of a deterministic post-processing stage to increase the performance of probabilistic record linkage
Inclusión de la etapa de postprocesamiento determinístico para el aumento del rendimiento del enlace (linkage) probabilístico

Cad. Saúde Pública (Online); 34 (6), 2018
Publication year: 2018

O objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de Informação de Agravos de Notificação e o Sistema de Informações sobre Mortalidade, no período de 2007 a 2015, do Município de Palmas, Tocantins, Brasil. O software probabilístico utilizado foi o OpenRecLink; foi desenvolvida e aplicada uma etapa de pós-processamento determinístico aos dados obtidos por três diferentes estratégias de pareamento probabilístico. As três estratégias foram comparadas entre si e acrescidas da etapa de pós-processamento determinístico. A sensibilidade das estratégias probabilísticas sem revisão manual variou entre 69,1% e 77,8%, já as mesmas estratégias, acrescidas da etapa de pós-processamento determinístico, apresentaram uma variação entre 92,9% e 96,3%. A sensibilidade de duas estratégias probabilísticas com revisão manual foi semelhante à obtida pela etapa de pós-processamento determinístico, no entanto, o número de pares destinados à revisão manual pelas duas estratégias probabilísticas variou entre 1.177 e 1.132 registros, contra 149 e 145 após a etapa de pós-processamento determinístico. Nossos resultados sugerem que a etapa de pós-processamento determinístico é uma opção promissora, tanto para aumentar a sensibilidade quanto para reduzir o número de pares que precisam ser revisados manualmente, ou mesmo para eliminar sua necessidade.
The aim of this study was to demonstrate the application of a deterministic post-processing stage, based on measures of similarity, to increase the performance of probabilistic record linkage with and without manual revision. The databases used in the study were the Brazilian Information System for Notificable Diseases and the Brazilian Mortality Information System, from 2007 to 2015, in Palmas, Tocantins State, Brazil. The probabilistic software was OpenRecLink, and a deterministic post-processing stage was applied to the data obtained from three different probabilistic linkage strategies. The three strategies were compared to each other, and the deterministic post-processing stage was added. The sensibility of the probabilistic strategies without manual revision varied from 69.1% and 77.8%, while the same strategies plus the deterministic post-processing stage varied from 92.9% to 96.3%. Sensitivity of the two probabilistic strategies with manual revision was similar to that obtained by the deterministic post-processing stage, but the number of matches that were referred to manual revision by the two probabilistic strategies varied between 1,177 and 1,132 records, compared to 149 and 145 after the deterministic post-processing stage. Our findings suggest that the deterministic post-processing stage is a promising option, both to increase the sensitivity and to reduce the number of matches that need to be reviewed manually, or even to eliminate the need for manual revision altogether.
El objetivo del presente estudio fue mostrar la aplicación de una etapa de postprocesamiento determinístico, basada en medidas de similitud, con el objeto de aumentar el rendimiento del enlace probabilístico con y sin etapa de revisión manual. Las bases de datos utilizadas en el estudio fueron el Sistema de Información sobre Enfermedades de Notificación Obligatoria y el Sistema de Informaciones sobre Mortalidad, durante el período de 2007 a 2015, en el municipio de Palmas, Tocantins, Brasil. El software probabilístico utilizado fue el OpenRecLink; se desarrolló y aplicó una etapa de postprocesamiento determinístico con los datos obtenidos mediante tres estrategias diferentes de emparejamiento probabilístico. Las tres estrategias se compararon entre sí y se añadieron a la etapa de postprocesamiento determinístico. La sensibilidad de las estrategias probabilísticas sin revisión manual varió entre el 69,1% y el 77,8%, incluso las mismas estrategias, añadidas de la etapa de postprocesamiento determinístico, presentaron una variación entre 92,9% y 96,3%. La sensibilidad de las dos estrategias probabilísticas con revisión manual fue semejante a la obtenida por la etapa de postprocesamiento determinístico, sin embargo, el número de pares destinados a la revisión manual por las dos estrategias probabilísticas varió entre 1.177 y 1.132 registros, frente 149 y 145 tras la etapa de postprocesamiento determinístico. Nuestros resultados sugieren que la etapa de postprocesamiento determinístico es una opción prometedora, tanto para aumentar la sensibilidad, como para reducir el número de pares que necesitan ser revisados manualmente, o incluso para eliminar su necesidad.

More related