DOI: https://doi.org/10.26089/NumMet.v20r317

Всесторонний анализ качества работы больших суперкомпьютерных комплексов

Авторы

  • В.В. Воеводин

Ключевые слова:

суперкомпьютер
параллельные вычисления
суперкомпьютерные приложения
производительность
анализ эффективности
данные мониторинга

Аннотация

В настоящее время проблема недостаточной эффективности работы суперкомпьютерных комплексов во многом связана с тем, что администраторы таких систем не всегда могут своевременно обнаруживать и устранять причины снижения эффективности. Это в большей степени касается не выхода из строя оборудования (такие случаи можно отслеживать с помощью систем мониторинга), а неявного снижения эффективности работы определенных компонентов суперкомпьютера при условии, что внешне они продолжают работать корректно. Возникновение подобной ситуации связано с тем, что на данный момент нет достаточно гибких и удобных средств для оперативного и комплексного анализа всех характеристик качества работы вычислительных систем. Существующие решения либо позволяют анализировать только небольшую часть таких характеристик, либо представляют собой не универсальные решения, удовлетворяющие только небольшой набор конкретных нужд администраторов определенной системы. В настоящей статье описывается системный подход к решению этого вопроса, который позволит проводить комплексный анализ различных аспектов работы суперкомпьютеров, связанных в первую очередь с выполнением суперкомпьютерных приложений. Разрабатываемый на основе этого подхода программный инструмент предназначен для сбора в рамках единой модели всех наиболее важных данных о свойствах и качестве выполняющихся на суперкомпьютере задач – данные об эффективности их выполнения, размере и длительности, наличии характерных или аномальных сценариев поведения, использовании прикладных пакетов и библиотек и др. С помощью гибких возможностей по агрегации будет задаваться нужная степень детализации, с какой необходимо предоставлять полученную информацию – по отдельным пользователям, проектам, прикладным пакетам, предметным областям, разделам суперкомпьютера, временным диапазонам и др. Это позволит создавать сотни и тысячи различных представлений для анализа состояния суперкомпьютера, что поможет администраторам выбирать наиболее подходящий для них вариант.


Загрузки

Опубликован

2019-08-19

Выпуск

Раздел

Раздел 1. Вычислительные методы и приложения

Автор

В.В. Воеводин


Библиографические ссылки

  1. V. Voevodin and V. Voevodin, “Efficiency of Exascale Supercomputer Centers and Supercomputing Education,” in High Performance Computer Applications (Springer, Cham, 2016), Vol. 595, pp. 14-23.
  2. Q. Guan and S. Fu, “Adaptive Anomaly Identification by Exploring Metric Subspace in Cloud Computing Infrastructures,” in Proc. IEEE 32nd Int. Symp. on Reliable Distributed Systems, Braga, Portugal, September 30-October 3, 2013 (IEEE Press, Washington, DC, 2013), pp. 205-214.
  3. S. Fu, “Performance Metric Selection for Autonomic Anomaly Detection on Cloud Computing Systems,” in Proc. IEEE Global Telecommunications Conf., Kathmandu, Nepal, December 5-9, 2011 (IEEE Press, New York, 2011),
    doi 10.1109/GLOCOM.2011.6134532
  4. O. Ibidunmoye, F. Hernández-Rodriguez, and E. Elmroth, “Performance Anomaly Detection and Bottleneck Identification,” ACM Comput. Surv. 48 (2015).
    doi 10.1145/2791120
  5. O. Tuncer, E. Ates, Y. Zhang, et al., “Diagnosing Performance Variations in HPC Applications Using Machine Learning,” in Lecture Notes in Computer Science (Springer, Cham, 2017), Vol. 10266, pp. 355-373.
  6. Z. Lan, Z. Zheng, and Y. Li, “Toward Automated Anomaly Identification in Large-Scale Systems,” IEEE Trans. Parallel Distrib. Syst. 21 (2), 174-187 (2010).
  7. M. D. Jones, J. P. White, M. Innus, et al., “Workload Analysis of Blue Waters,” arXiv preprint: 1703.00924v1 [cs.DC] (Cornell Univ. Library, Ithaca, 2017), available at
    https://arxiv.org/abs/1703.00924
  8. M. J. Abraham, T. Murtola, R. Schulz, et al., “GROMACS: High Performance Molecular Simulations through Multi-Level Parallelism from Laptops to Supercomputers,” SoftwareX 1-2}, 19-25 (2015).
  9. K. Agrawal, M. R. Fahey, R. McLay, and D. James, “User Environment Tracking and Problem Detection with XALT,” in Proc. First Int. Workshop on HPC User Support Tools, New Orleans, USA, November 21-21, 2014 (IEEE Press, Piscataway, 2014), pp. 32-40.
  10. D. Shaykhislamov and V. Voevodin, “An Approach for Dynamic Detection of Inefficient Supercomputer Applications,” Procedia Comput. Sci. 136, 35-43 (2018).
  11. P. Shvets, V. Voevodin, and S. Zhumatiy, “Primary Automatic Analysis of the Entire Flow of Supercomputer Applications,” in Proc. 4th Ural Workshop on Parallel, Distributed, and Cloud Computing for Young Scientists, Yekaterinburg, Russia, November 15, 2018. CEUR Workshop Proc. Vol. 2281, 20-32 (2018).
  12. N. A. Simakov, J. P. White, R. L. DeLeon, et al., “A Workload Analysis of NSF’s Innovative HPC Resources Using XDMoD,” arXiv preprint: 1801.04306v1 [cs.DC] (Cornell Univ. Library, Ithaca, 2018), available at
    https://arxiv.org/abs/1801.04306
  13. K. Asanović, R. Bodik, B. C. Catanzaro, et al., The Landscape of Parallel Computing Research: A View from Berkeley , Report UCB/EECS-2006-183 (Univ. of California, Berkeley, 2006).
  14. Grafana: The Open Platform for Beautiful Analytics and Monitoring.
    https://grafana.com . Cited May 28, 2019.
  15. D3.js: Data-Driven Documents.
    https://d3js.org . Cited May 28, 2019.