DOI: https://doi.org/10.26089/NumMet.v26r435

Метод построения вполне интерпретируемых линейных регрессий со статистически значимыми по критерию Стьюдента оценками и незначимыми коэффициентами интеркорреляции

Авторы

  • М. П. Базилевский

Ключевые слова:

регрессионный анализ
вполне интерпретируемая линейная регрессия
метод наименьших квадратов
отбор информативных регрессоров
мультиколлинеарность
t-критерий Стьюдента
метод всех возможных регрессий
задача частично булевого линейного программирования

Аннотация

Статья посвящена актуальной проблеме построения интерпретируемых моделей машинного обучения, а именно, моделей множественной линейной регрессии. Для оценки их неизвестных параметров использован метод наименьших квадратов. Сформулировано вероятностно-статистическое определение вполне интерпретируемой линейной регрессии. Её построение связанно с отбором оптимального по коэффициенту детерминации количества наиболее информативных регрессоров так, чтобы гарантировать согласованность знаков коэффициентов регрессии содержательному смыслу переменных. К тому же обеспечивать значимость оценок и незначимость коэффициентов интеркорреляций по t-критерию Стьюдента. Для построения вполне интерпретируемых линейных регрессий предложен метод, основанный на применении аппарата частично булевого линейного программирования. Рассмотрены его строгая и нестрогая разновидности. Проведены вычислительные эксперименты, показавшие в большинстве случаев эффективность предложенного метода по сравнению с методом всех возможных регрессий.



Загрузки

Опубликован

2025-12-01

Выпуск

Раздел

Методы и алгоритмы вычислительной математики и их приложения

Автор

М. П. Базилевский


Библиографические ссылки

  1. F. Doshi-Velez and B. Kim, “Towards a Rigorous Science of Interpretable Machine Learning,” arXiv preprint. (2017).
    doi 10.48550/arXiv.1702.08608
  2. C. Molnar, Interpretable Machine Learning. A Guide for Making Black Box Models Explainable.(2020).
    https://christophm.github.io/interpretable-ml-book/.Cited November 21, 2025.
  3. S. A. Aivazjan and V. S. Mhitarjan, Applied Statistics and Basics of Econometrics (YUNITI, Moscow, 1998) [in Russian].
  4. A. Miller, Subset Selection in Regression (Chapman and Hall/CRC, New York, 2002).
    doi 10.1201/9781420035933
  5. V. V. Strizhov and E. A. Krymova, Methods Selection of Regression Models (Comp. Cent. of RAS, Moscow, 2010) [in Russian].
  6. T. Koch, T. Berthold, J. Pedersen, and C. Vanaret, “Progress in Mathematical Programming Solvers from 2001 to 2020,” EURO J. Comp. Opt. 10, Article Number 100031 (2022).
    doi 10.1016/j.ejco.2022.100031
    https://doi.org/10.1016/j.ejco.2022.100031 . Cited November 21, 2025.
  7. H. Konno and R. Yamamoto, “Choosing the Best Set of Variables in Regression Analysis Using Integer Programming,” J. Glob. Opt. 44 (2), 273-282 (2009).
    doi 10.1007/s10898-008-9323-9
  8. R. Miyashiro and Y. Takano, “Mixed Integer Second-Order Cone Programming Formulations for Variable Selection in Linear Regression,” Europ. J. Oper. Res. 247 (3), 721-731 (2015).
    doi 10.1016/j.ejor.2015.06.081
    https://doi.org/10.1016/j.ejor.2015.06.081 . Cited November 21, 2025.
  9. R. Miyashiro and Y. Takano, “Subset Selection by Mallows’ C_p: A Mixed Integer Programming Approach,” Exp. Syst. Appl. 42 (1), 325-331 (2015).
    doi 10.1016/j.eswa.2014.07.056
    https://doi.org/10.1016/j.eswa.2014.07.056 . Cited November 21, 2025.
  10. M. P. Bazilevskiy, “Reduction the Problem of Selecting Informative Regressors when Estimating a Linear Regression Model by the Method of Least Squares to the Problem of Partial-Boolean Linear Programming,” Mod. Opt. Inf. Tech. 6 (1), 118-127 (2018).
    https://moitvivt.ru/ru/journal/pdf?id=434 . Cited November 21, 2025.
  11. N. Shrestha, “Detecting Multicollinearity in Regression Analysis,” Amer. J. Appl. Math. Stat. 8 (2), 39-42 (2020).
    doi 10.12691/ajams-8-2-1
  12. M. Aslam, “The T-Test of a Regression Coefficient for Imprecise Data,” Hac. J. Math. Stat. 53 (4), 1130-1140 (2024).
    doi 10.15672/hujms.1342344
  13. A. N. Gorbach and N. A. Tseytlin, Buying Behavior: Analysis of Spontaneous Sequences and Regression Models in Marketing Research (Education of Ukraine, Kyiv, 2011) [in Russian].
  14. S. Chung, Y. W. Park, and T. Cheong, “A Mathematical Programming Approach for Integrated Multiple Linear Regression Subset Selection and Validation,” Pat. Recogn. 108, Article Number 107565 (2020).
    doi 10.1016/j.patcog.2020.107565
  15. D. Bertsimas and M. L. Li, “Scalable Holistic Linear Regression,” Oper. Res. Let. 48 (3), 203-208 (2020).
    doi 10.1016/j.orl.2020.02.008
  16. M. P. Bazilevskiy, “Comparative Analysis of the Effectiveness of Methods for ConstructingQuite Interpretable Linear Regression Models,” Mod. D. Anal. 13 (4), 59-83 (2023).
    https://psyjournals.ru/journals/mda/archive/2023_n4/mda_2023_n4_Bazilevskiy.pdf . Cited November 21, 2025.
  17. M. P. Bazilevskiy, “Selection of Informative Regressors Significant by Student’s T-Test in Regression Models Estimated Using OLS as a Partial Boolean Linear Programming Problem,” Proc. VSU. Ser.: Syst. Anal. Inform. Tech. N 3, 5-16 (2021).
    https://journals.vsu.ru/sait/article/view/3731/3801 . Cited November 21, 2025.
  18. E. Ferster and B. Rentz, Methods of Correlation and Regression Analysis (Finance and Statistics, Moscow, 1983) [in Russian].
  19. I. I. Eliseeva, S. V. Kurysheva, T. V. Kosteeva, et al., Econometrics (Finance and Statistics, Moscow, 2007) [in Russian].
  20. M. P. Bazilevskiy, “Optimization Problems of Subsets Selection in Linear Regression with Control of Its Significance Using F-Test,” Izv. RAS SamSC. 26 (6), 200-207 (2024).
    https://ssc.smr.ru/media/journals/izvestia/2024/2024_6_200_207.pdf . Cited November 21, 2025.
  21. D. Ge, Q. Huangfu, Z. Wang, et al., Cardinal Optimizer (COPT) User Guide.
    https://guide.coap.online/copt/en-doc . Cited November 21, 2025.
  22. UCI Machine Learning Repository.
    https://doi.org/10.24432/C50K61.
    https://archive.ics.uci.edu/dataset/203/yearpredictionmsd . Cited November 21, 2025.