Некоторые технологические аспекты применения высокопроизводительных вычислений на графических процессорах в прикладных программных системах

Авторы

  • М.Р. Галимов
  • Е.В. Биряльцев

Ключевые слова:

высокопроизводительные вычисления
параллельные вычисления
кластер ГПУ
технология ГПУ
моделирование микросейсмического поля

Аннотация

Рассмотрено решение задачи моделирования естественного микросейсмического поля численным методом с использованием различных технологий высокопроизводительных вычислений, а именно вычислений на графических процессорах (ГПУ) и суперкомпьютере МВС-100К. Проведено сравнение производительности рассмотренных технологий (CUDA/JCuda, OpenCL) при выполнении на одной и нескольких видеокартах. Приведены оценки эффективности различных методов оптимизации программ на графических процессорах. Изучен вопрос одновременного выполнения вычислений на нескольких видеокартах, распределенных в сети (кластер ГПУ), с использованием технологий межсетевого взаимодействия (MPI, MPJ, GridGain) для обеспечения синхронизации данных.


Загрузки

Опубликован

2010-09-30

Выпуск

Раздел

Раздел 2. Программирование

Авторы

М.Р. Галимов

Институт механики и машиностроения Казанского научного центра РАН
ул. Лобачевского, 2/31, 420111, Казань
• старший научный сотрудник

Е.В. Биряльцев

Казанский (Приволжский) федеральный университет,
Научно-исследовательский институт математики и механики имени Н.Г. Чеботарева
ул. Кремлевская, 18, 420008, Казань
• заведующий лабораторией


Библиографические ссылки

  1. Гужва А.Г., Доленко С.А., Персианцев И.Г. Многократное ускорение нейросетевых вычислений с использованием видеоадаптера // XI Всероссийская научная конференция «Нейроформатика-2009». Cб. науч. трудов. Москва, МИФИ, 2009. 126-133.
  2. Перепелкин Е.Е., Смирнов В.Л., Ворожцов С.Б. Использование технологии NVIDIA CUDA при моделировании динамики пучка в ускорителях заряженных частиц // Вестник Российского университета дружбы народов. Серия: Математика, информатика, физика. 2010. № 1. 76-82.
  3. Danalis A., Marin G., McCurdy C., et al. The Scalable HeterOgeneous Computing (SHOC) benchmark suite // Proc. of the Third Workshop on General-Purpose Computation on Graphics Processors (GPGPU 2010). Pittsburgh, 2010.
  4. Демидов Д.Е., Егоров А.Г., Нуриев А.Н. Решение задач вычислительной гидродинамики с применением технологии NVIDIA CUDA // Учен. записки Казанского гос. ун-та. Серия физ.-матем. науки. 2010. 152, кн. 1. 142-154.
  5. Деменков П.С., Иванисенко В.А. Применение графических ускорителей для решения задачи раскладки графа // Математика в приложениях. Всероссийская конференция, приуроченная к 80-летию академика С. К. Годунова (Новосибирск, 20-24 июля 2009 г.). Тез. докладов. Новосибирск: Ин-т математики СО РАН, 2009. 100-101.
  6. Вишневский О.В., Лаврентьев М.М., Романенко А.А. Применение графических ускорителей для выявления вырожденных олигонуклеотидных мотивов в регуляторных районах генов эукариот // Математика в приложениях. Всероссийская конференция, приуроченная к 80-летию академика С. К. Годунова (Новосибирск, 20-24 июля 2009 г.). Тез. докладов. Новосибирск: Ин-т математики СО РАН, 2009. 62-63.
  7. Боярченков А.С., Поташников С.И. Использование графических процессоров и технологий CUDA для задач молекулярной динамики // Вычислительные методы и программирование. 2009. 10, № 1. 13-27.
  8. Yokota R., Narumi T., Sakamaki R., et al. Fast multipole methods on a cluster of gpus for the meshless simulation of turbulence // Computer Physics Communications. 2009. 180, № 11. 2066-2078.
  9. Гогоненков Г.Н. Изучение детального строения осадочных толщ сейсморазведкой. Москва: Недра, 1987.
  10. Тульчинский П.Г. Трассировка луча по конечноразностной двумерной сейсмической модели // Компьютерная математика. 2009. № 1. 29-36.
  11. Abdelkhalek R., Calendra H., Coulaud O., et al. Fast seismic modeling and reverse time migration on a gpu cluster // High Performance Computing and Simulation. Leipzig, 2009. 36-44.
  12. Michea D., Komatitsch D. Accelerating a three-dimensional finite-difference wave propagation code using GPU graphics cards // Geophysical J. International. 2010. 182, № 1. 389-402.
  13. Komatitsch D., Erlebacher G., Goddeke D., Michéa D. High-order finite-element seismic wave propagation modeling with mpi on a large gpu cluster // J. of Computational Physics. 2010. 229. 7692-7714.
  14. Бережной Д.В., Биряльцев Е.В., Биряльцева Т.Е. Анализ спектральных характеристик микросейсм как метод изучения структуры геологической среды // НИИ математики и механики Казанского ун-та. 2003-2007 гг. Казань: Изд-во Казанск. гос. ун-та, 2008. 360-386.
  15. Baskaran M.M., Bordawekar R. Optimizing sparse matrix-vector multiplication on GPUs: IBM Research Report RC24704 (W0812-047). IBM, 2008.
  16. Williams S., Oliker L., Vuduc R., et al. Optimization of sparse matrix-vector multiplication on emerging multicore platforms // SC’07: Proc. of the 2007 ACM/IEEE Conference on Supercomputing. New York: ACM, 2007. 1-12
    doi 10.1145/1362622.1362674
  17. Nickolls J., Buck I., Garland M., Skadron K. Scalable parallel programming with cuda // Queue. 2008. 6, № 2. 40-53
    doi 10.1145/1365490.1365500
  18. Yan Y., Grossman M., Sarka V. JCUDA: a programmer-friendly interface for accelerating Java programs with CUDA // Proc. of the 15th International Euro-Par Conference on Parallel Processing. Delft, 2009. 5704. 887-899.
  19. Боресков А.В., Харламов А.А. Основы работы с технологией CUDA. Москва: ДМК Пресс, 2010.
  20. NVIDIA CUDA Programming guide. 2009. Version 2.3.
  21. Fan Z., Qiu F., Kaufman A., Yoakum-Stover S. GPU cluster for high performance computing. 2004 // (http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1392977).
  22. Goddeke D., Strzodka R., Mohd-Yusof J., et al. Using GPUs to improve multigrid solver performance on a cluster // International J. of Computational Science and Engineering. 2008. 4. 36-55.
  23. Baker M., Carpenter D. MPJ: A proposed Java Message-Passing API and environment for high performance computing // The 2nd Java Workshop at IPDPS 2000. Cancun, 2000. 552-559.
  24. Shafi A., Manzoor J. Towards efficient shared memory communications in MPJ express // 2009 IEEE Int. Symposium on Parallel&;Distributed Processing. Washington: IEEE Computer Society, 2009. 5704. 1-7.
  25. Харламов Д. GridGain - грид уровня предприятия // GridGain Systems. 2008 (www.gridgain.com).
  26. Bell N., Garland M. Efficient sparse matrix-vector multiplication on CUDA. NVIDIA Technical Report NVR-2008-004. NVIDIA Corporation, 2008.
  27. NVIDIA’s Next Generation CUDA Compute Architecture: Fermi. NVIDIA Corporation, 2009.