646 - MACHINE LEARNING PARA PREDECIR HEMORRAGIAS EN PACIENTES CON ENFERMEDAD TROMBOEMBÓLICA VENOSA
1Servicio de Medicina Interna. Hospital Virgen de la Luz. Cuenca. 2Grupo de Investigación Neurobiológica. Instituto de Tecnología. Universidad de Castilla-La Mancha. Cuenca. 3Servicio de Medicina Interna. Hospital General Universitario Gregorio Marañón. Madrid. 4Servicio de Medicina Interna. Hospital Sierrallana. Santander. 5Servicio de Medicina Interna. Hospital Universitario Reina Sofía. Córdoba. 6Servicio de Medicina Interna. Complejo Hospitalario de Jaén. Jaén. 7Servicio de Medicina Interna. Hospital Germans Trias i Pujol. Badalona. Barcelona.
Objetivos: Comparar la capacidad pronóstica de 5 métodos de Machine Learning (ML) para identificar la aparición de hemorragias graves en los 3 primeros meses de tratamiento anticoagulante por enfermedad tromboembólica venosa (ETV).
Métodos: Pacientes diagnosticados de ETV en cualquiera de sus variantes (TVP-EP) procedentes del registro RIETE. Se incluyeron 82,239 pacientes consecutivos y se analizaron 97 variables. El evento estudiado fue la aparición de una hemorragia grave en los primeros 90 días de anticoagulación. Se utilizaron 5 métodos supervisados de ML (Tree, SVM, KNN, Ensemble y NN), los resultados se presentan comparativamente con los obtenidos al utilizar solo las variables incluidas en las escalas RIETE y VTE-BLEED. Para el aprendizaje los datos se dividieron aleatoriamente en subconjuntos de entrenamiento (70%) y prueba (30%) realizándose 100 particiones aleatorias diferentes (no comparten datos). Para evitar el sobreentrenamiento cada subconjunto de entrenamiento se dividió a su vez en 10 bloques (9 de aprendizaje y 1 de prueba) realizando 10 iteraciones en cada nivel en un proceso conocido como validación cruzada. Se generó un algoritmo predictor cuyo rendimiento se evaluó mediante métricas de matriz de confusión (sensibilidad, especificidad, valor predictivo positivo/negativo y área bajo la curva de características operativas del receptor [ROC]) para cada método. El software estadístico utilizado fue el programa Matlab 2019a, The Mathworks Inc., Natick, MA, EE. UU y IBM SPSS statistics v21.
Resultados: Los resultados obtenidos se expresan como el valor medio teórico de todas las determinaciones paralelas realizadas en las distintas iteraciones para cada método (tabla). El AUC para cada modelo se representa en la figura 1.
Método utilizado |
Precisión |
IC95% |
Sensibilidad |
Especificidad |
VPP |
VPN |
AUC |
97 variables RIETE |
|||||||
Tree |
80,12 |
78,27-82,52 |
80,23 |
79,69 |
81,61 |
82,32 |
0,80 |
SVM |
87,36 |
86,53-88,61 |
86,67 |
86,72 |
84,57 |
86,74 |
0,86 |
KNN |
88,41 |
87,38-89,46 |
87,00 |
87,06 |
87,45 |
87,36 |
0,87 |
Ensemble |
91,03 |
90,05-92,21 |
91,04 |
91,06 |
90,21 |
90,52 |
0,90 |
NN |
93,17 |
92,51-94,07 |
93,07 |
93,18 |
93,03 |
93,06 |
0,93 |
6 variables escala RIETE |
|||||||
Tree |
76,16 |
75,41-75,67 |
76,39 |
76,56 |
75,56 |
75,66 |
0,76 |
SVM |
78,39 |
77,21-79,43 |
78,55 |
78,98 |
77,66 |
77,29 |
0,78 |
KNN |
81,52 |
80,37-82,62 |
81,16 |
81,66 |
80,89 |
80,43 |
0,81 |
Ensemble |
82,98 |
82,51-83,78 |
82,14 |
82,76 |
82,76 |
82,34 |
0,82 |
NN |
85,02 |
84,11-85,97 |
85,33 |
85,15 |
85,01 |
85,11 |
0,85 |
6 variables escala VTE BLEED |
|||||||
Tree |
75,75 |
74,38-75,96 |
75,53 |
75,01 |
73,49 |
73,41 |
0,75 |
SVM |
77,31 |
76,56-78,03 |
77,17 |
77,74 |
75,33 |
75,24 |
0,77 |
KNN |
81,06 |
80,28-81,87 |
81,10 |
81,35 |
80,13 |
80,53 |
0,81 |
Ensemble |
82,60 |
81,15-83,62 |
82,29 |
82,66 |
82,83 |
82,73 |
0,82 |
NN |
85,11 |
84,25-85,87 |
85,23 |
85,10 |
84,91 |
85,04 |
0,85 |
Discusión: La predicción basada en ML tiene aparentemente un amplio potencial aplicado a la ETV siendo la predicción de hemorragias uno de los campos que mayor interés suscita por la dificultad y gravedad que conlleva. Para demostrar su aplicabilidad real es necesario calibrar el algoritmo en una cohorte divida en grupos con distinta probabilidad pretest de sufrir el evento y poder realizar una validación externa. Estos métodos pueden ponerse a disposición del clínico a través de ejecutables y aplicaciones que faciliten la rutina diaria.
Conclusiones: ML-NN fue el modelo que mejor predijo las hemorragias y obtuvo mejores métricas. La capacidad predictiva de los modelos mejora con la incorporación de variables no incluidas en las escalas RIETE y VTE-BLEED.
Bibliografía
- Efron B, Tibshirani R. Improvements on Cross-Validation: The 632+ Bootstrap Method, J Am Statist Assoc. 1977;92:438.
- Guo Ch, Pleiss G, Sun Y, Weinberger KQ. On Calibration of Modern Neural Networks Proceedings of the 34th International Conference on Machine Learning, Sydney, Australia, 2017. arXiv:1706,04599v2 [cs.LG].