DOI: https://doi.org/10.26089/NumMet.v25r328

Применение регуляризации при вычислении критериев разбиения в моделях анализа выживаемости

Авторы

  • Ю. А. Васильев
  • М. И. Петровский
  • И. В. Машечкин

Ключевые слова:

анализ выживаемости
информативность цензурирования
критерии разбиения
регуляризация

Аннотация

Методы анализа выживаемости решают задачу описания и прогнозирования событий. Модели учитывают случаи цензурирования, в которых истинное время события неизвестно из-за выхода наблюдения из исследования. Статистические методы предполагают, что цензурирование неинформативно и связь между причиной выхода наблюдения и проведением исследования отсутствует. В работе проводится исследование влияния информативности на эффективность статистических методов. В частности, критерий log-rank используется для сравнения функций риска и имеет низкую чувствительность в случае малых выборок или мультимодального распределения времени события. Для преодоления недостатков предлагается метод вычисления регуляризованных критериев, которые используют информацию об априорном распределении событий во времени и оценивают различия между функциями риска для всех моментов времени. Метод регуляризации был интегрирован в метод построения деревьев выживания и привел к улучшению качества прогнозирования на четырех медицинских наборах данных. Кроме того, предложенный метод превзошел существующие статистические методы и реализацию дерева выживания на всех наборах данных.


Загрузки

Опубликован

2024-09-19

Выпуск

Раздел

Методы и алгоритмы вычислительной математики и их приложения

Авторы

Ю. А. Васильев

М. И. Петровский

И. В. Машечкин


Библиографические ссылки

  1. S. Gilboa, Y. Pras, A. Mataraso, et al., “Informative Censoring of Surrogate End-Point Data in Phase 3 Oncology Trials,” Eur. J. Cancer 153, 190-202 (2021).
    doi 10.1016/j.ejca.2021.04.044
  2. A. J. Turkson, F. Ayiah-Mensah, and V. Nimoh, “Handling Censoring and Censored Data in Survival Analysis: A Standalone Systematic Literature Review,” Int. J. Math. Math. Sci. 2021 (1), Article Number 9307475 (2021).
    doi 10.1155/2021/9307475
  3. A. J. Templeton, E. Amir, and I. F. Tannock, “Informative Censoring -- a Neglected Cause of Bias in Oncology Trials,” Nat. Rev. Clin. Oncol. 17 (6), 327-328 (2020).
    doi 10.1038/s41571-020-0368-0
  4. W. A. Knaus, F. E. Harrell, J. Lynn, et al., “The SUPPORT Prognostic Model: Objective Estimates of Survival for Seriously Ill Hospitalized Adults,” Ann. Intern. Med. 122 (3), 191-203 (1995).
    doi 10.7326/0003-4819-122-3-199502010-00007
  5. L. Yan, H.-T. Zhang, J. Goncalves, et al., “An Interpretable Mortality Prediction Model for COVID-19 Patients,” Nat. Mach. Intell. 2 (5), 283-288 (2020).
    doi 10.1038/s42256-020-0180-7
  6. P. Royston and P. C. Lambert, Flexible Parametric Survival Analysis Using Stata: Beyond the Cox Model (Stata Press, College Station, 2011).
  7. M. C. Castelijns, M. A. G. Helmink, S. H. J. Hageman, et al., “Cohort Profile: the Utrecht Cardiovascular Cohort-Second Manifestations of Arterial Disease (UCC-SMART) Study-an Ongoing Prospective Cohort Study of Patients at High Cardiovascular Risk in the Netherlands,” BMJ Open 13 (2), Article Number e066952 (2023).
    doi 10.1136/bmjopen-2022-066952
  8. D. M. Hawkins, “Quantile-Quantile Methodology - Detailed Results,”
    https://arxiv.org/abs/2303.03215 . Cited September 13, 2024.
  9. H. D. Nguyen, “A Two-Sample Kolmogorov-Smirnov-like Test for Big Data,” in Proc. Data Mining: 15th Australasian Conf. (AusDM 2017), Melbourne, Australia, August 19-20, 2017.
    doi 10.1007/978-981-13-0292-3_6.
    https://espace.library.uq.edu.au/view/UQ: f921d22 . Cited September 13, 2024
  10. E. L. Kaplan and P. Meier, “Nonparametric Estimation from Incomplete Observations,” J. Am. Stat. Assoc. 53 (282), 457-481 (1958).
    doi 10.2307/2281868
  11. O. O. Aalen, O. Borgan, and H. K. Gjessing, Survival and Event History Analysis: A Process Point of View (Springer, New York, 2008).
    doi 10.1007/978-0-387-68560-1
  12. D. R. Cox, “Regression Models and Life-Tables,” J. R. Stat. Soc. Ser. B Methodol. 34 (2), 187-202 (1972).
    doi 10.1111/j.2517-6161.1972.tb00899.x
  13. L. J. Wei, “The Accelerated Failure Time Model: A Useful Alternative to the Cox Regression Model in Survival Analysis,” Stat. Med. 11 (14-15), 1871-1879 (1992).
    doi 10.1002/sim.4780111409
  14. A. Shimokawa, Y. Kawasaki, and E. Miyaoka, “Comparison of Splitting Methods on Survival Tree,” Int. J. Biostat. 11 (1), 175-188 (2015).
    doi 10.1515/ijb-2014-0029
  15. L. Gordon and R. A. Olshen, “Tree-Structured Survival Analysis,” Cancer Treat. Rep. 69 (10), 1065-1069 (1985).
  16. S.-H. Lee, “Weighted Log-Rank Statistics for Accelerated Failure Time Model,” Stats 4 (2), 348-358 (2021).
    doi 10.3390/stats4020023
  17. S. Buyske, R. Fagerstrom, and Z. Ying, “A Class of Weighted Log-Rank Tests for Survival Data when the Event is Rare,” J. Am. Stat. Assoc. 95 (449), 249-258 (2000).
    doi 10.1080/01621459.2000.10473918
  18. S. B. Kotsiantis, “Decision Trees: A Recent Overview,” Artif. Intell. Rev. 39 (4), 261-283 (2013).
    doi 10.1007/s10462-011-9272-4
  19. M. Leblanc and J. Crowley, “Survival Trees by Goodness of Split,” J. Am. Stat. Assoc. 88 (422), 457-467 (1993).
    doi 10.1080/01621459.1993.10476296
  20. V. G. Costa and C. E. Pedreira, “Recent Advances in Decision Trees: An Updated Survey,” Artif. Intell. Rev. 56 (5), 4765-4800 (2023).
    doi 10.1007/s10462-022-10275-5
  21. F. E. Harrell, K. L. Lee, and D. B. Mark, “Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors,” Stat. Med. 15 (4), 361-387 (1996).
    doi 10.1002/(SICI)1097-0258(19960229)15: 4<361: : AID-SIM168>3.0.CO;2-4
  22. P. J. Heagerty and Y. Zheng, “Survival Model Predictive Accuracy and ROC Curves,” Biometrics 61 (1), 92-105 (2005).
    doi 10.1111/j.0006-341X.2005.030814.x
  23. H. Hung and C.-T. Chiang, “Estimation Methods for Time-Dependent AUC Models with Survival Data,” Can. J. Stat. 38 (1), 8-26 (2010).
    doi 10.1002/cjs.10046
  24. J. Lambert and S. Chevret, “Summary Measure of Discrimination in Survival Models Based on Cumulative/Dynamic Time-Dependent ROC Curves,” Stat. Methods Med. Res. 25 (5), 2088-2102 (2016).
    doi 10.1177/0962280213515571
  25. I. Vasilev, M. Petrovskiy, and I. Mashechkin, “Sensitivity of Survival Analysis Metrics,” Mathematics 11 (20), Article Number 4246 (2023).
    doi 10.3390/math11204246
  26. A. H. Murphy, “A New Vector Partition of the Probability Score,” J. Appl. Meteorol. Climatol. 12 (4), 595-600 (1973).
    doi 10.1175/1520-0450(1973)012<0595: ANVPOT>2.0.CO;2
  27. H. Haider, B. Hoehn, S. Davis, and R. Greiner, “Effective Ways to Build and Evaluate Individual Survival Distributions,” J. Mach. Learn. Res. 21 (1), Article Number 85, 3289-3351 (2020).
  28. A. Avati, T. Duan, S. Zhou, et al., “Countdown Regression: Sharp and Calibrated Survival Predictions,” in Proc. 35th Uncertainty in Artificial Intelligence Conf. PMLR, 2020.
    https://proceedings.mlr.press/v115/avati20a.html . Cited September 13, 2024.
  29. T. R. Fleming, D. P. Harrington, and M. O’sullivan, “Supremum Versions of the Log-Rank and Generalized Wilcoxon Statistics,” J. Am. Stat. Assoc. 82 (397), 312-320 (1987).
    doi 10.1080/01621459.1987.10478435
  30. S.-H. Lee, “On the Versatility of the Combination of the Weighted Log-Rank Statistics,” Comput. Stat. Data Anal. 51 (12), 6557-6564 (2007).
    doi 10.1016/j.csda.2007.03.006
  31. I. Vasilev, M. Petrovskiy, and I. Mashechkin, “Survival Analysis Algorithms Based on Decision Trees with Weighted Log-Rank Criteria,” in Proc. 11th Int. Conf. on Pattern Recognition Applications and Methods (ICPRAM), Online, February 3-5, 2022.
    doi 10.5220/0000155500003122
  32. I. J. Good, “Weight of Evidence: A Brief Survey,” Bayesian Stat. 2, 249-270 (1985).
  33. , “What is the Bonferroni Correction?’’
    https://docs.ufpr.br/ giolo/LivroADC/Material/S3_Bonferroni Cited September 15, 2024.
  34. P. Refaeilzadeh, L. Tang, and H. Liu, “Cross-Validation,” Encyclopedia of Database Systems (Springer, Boston, 2009), pp. 532-538.
    doi 10.1007/978-0-387-39940-9_565
  35. S. Pölsterl, “scikit-survival: A Library for Time-to-Event Analysis Built on Top of scikit-learn,” J. Mach. Learn. Res. 21 (1), Article Number 212, 8747-8752 (2020).
  36. C. Davidson-Pilon, “Lifelines: Survival Analysis in Python,” J. Open Source Softw. 4 (40), Article Number 1317 (2019).
    doi 10.21105/joss.01317
  37. I. A. Vasilev, “Developing Library of Tree-Based Models for Survival Analysis,” Vestn. Mosk. Univ., Ser. 15: Vychisl. Mat. Kibern., No. 3, 60-72 (2024).

 Цитировать как   
Васильев Ю. А., Петровский М. И., Машечкин И. В. Применение регуляризации при вычислении критериев разбиения в моделях анализа выживаемости // Вычислительные методы и программирование. 2024. 25, № 3. 357–377. doi 10.26089/NumMet.v25r328.

TEX CODE:

Vasilev I. A., Petrovskiy M. I. and Mashechkin I. V., (2024) “Applying regularization to calculate split criterion for survival models,” Numerical Methods and Programming, vol. 25, no. 3, pp. 357–377. https://doi.org/10.26089/NumMet.v25r328

TEX CODE:

I. A. Vasilev, M. I. Petrovskiy and I. V. Mashechkin, “Applying regularization to calculate split criterion for survival models,” Numerical Methods and Programming 25, no. 3 (2024): 357–377, https://doi.org/10.26089/NumMet.v25r328

TEX CODE:

Vasilev I. A., Petrovskiy M. I. and Mashechkin I. V. Applying regularization to calculate split criterion for survival models. Numerical Methods and Programming. 2024;25(3):357–377.(In Russ.). DOI:10.26089/NumMet.v25r328

TEX CODE: