Исследование динамических характеристик потока задач суперкомпьютерной системы
Авторы
-
А.С. Антонов
-
С.А. Жуматий
-
Д.А. Никитенко
-
К.С. Стефанов
-
А.М. Теплов
-
П.А. Швец
Ключевые слова:
суперкомпьютер
производительность
эффективность
динамические характеристики
загрузка
мониторинг
система управления потоком задач
Аннотация
Представлена система мониторинга динамических характеристик потока задач суперкомпьютерной системы, реализованная в данный момент на суперкомпьютере СКИФ МГУ «Чебышев». Предложенный подход к анализу позволяет эффективно и технологически просто получить качественную оценку свойств реального потока задач, на основе которого можно судить об утилизации ресурсов суперкомпьютера, выделить проблемные места архитектуры и наметить возможные направления ее оптимизации.
Раздел
Раздел 2. Программирование
Библиографические ссылки
- Адинец А. B., Брызгалов П.А., Воеводин Вад.В., Жуматий С.А., Никитенко Д.А., Стефанов К.С. Job Digest - подход к исследованию динамических свойств задач на суперкомпьютерных системах // Вестн. Уфимского гос. авиационного техн. ун-та. 2013. 17, № 2. 131-137.
- Adinets A.V., Bryzgalov P.A., Voevodin Vad.V., Zhumatii S.A., Nikitenko D.A., Stefanov K.S. Job Digest: an approach to dynamic analysis of job characteristics on supercomputers // Numerical Methods and Programming: Advanced Computing. 2012. 13, section 2. 160-166.
- Воеводин Вл.В., Жуматий С.А., Соболев С.И., Антонов А.С., Брызгалов П.А., Никитенко Д.А., Стефанов К.С., Воеводин Вад.В. Практика суперкомпьютера «Ломоносов» // Открытые системы. 2012. № 7. 36-39.
- MongoDB (http://www.mongodb.org/).
- Cassandra (http://cassandra.apache.org/).
- Cleo Cluster Batch System (http://sourceforge.net/projects/cleo-bs/).
- SLURM: A Highly Scalable Resource Manager (https://computing.llnl.gov/linux/slurm/).
- Антонов А.С. СКИФ МГУ - основа Суперкомпьютерного комплекса Московского университета // Вторая Международная научная конференция «Суперкомпьютерные системы и их применение» (SSA’2008).
- Linux load averages, for example from top and uptime commands, can be massively incorrect on the low side (http://www.smythies.com/ doug/network/load_average/original.html).