Интеграция алгоритма кластеризации Fuzzy c-Means в PostgreSQL

Авторы

  • Р.М. Миниахметов
  • М.Л. Цымблер

Ключевые слова:

нечеткая кластеризация
интеграция алгоритма кластеризации
реляционные СУБД

Аннотация

Интеграция алгоритмов интеллектуального анализа данных (ИАД) в реляционные СУБД является актуальной задачей. Реализация алгоритмов ИАД на языке SQL позволяет существенно снизить накладные расходы по организации ИАД по сравнению с использованием внешних утилит. В настоящей статье предложена реализация алгоритма нечеткой кластеризации Fuzzy c-Means для реляционной СУБД PostgreSQL с открытым исходным кодом. Работа выполнена при финансовой поддержке РФФИ (проект № 09-07-00241а) и Минобрнауки РФ (государственный контракт № 07.514.11.4036).


Загрузки

Опубликован

2012-05-17

Выпуск

Раздел

Раздел 2. Программирование

Авторы

Р.М. Миниахметов

М.Л. Цымблер


Библиографические ссылки

  1. Ordonez C. Programming the K-means clustering algorithm in SQL // Proc. of the 4th Int. Conf. on Knowledge Discovery and Data Mining. 2004. Seattle: ACM, 823-828.
  2. Jain A.K., Murty M.N., Flynn P.J. Data clustering: a review // ACM Computing Surveys. 1999. 31, N 3. 264-323.
  3. Dunn J.C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters // J. of Cybernetics. 1973. 3. 32-57.
  4. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. Norwell: Kluwer Acad. Publ., 1981.
  5. Dimitriadou E., Hornik K., Leisch F., Meyer D., Weingessel A. Machine Learning Open-Source Package «r-cran-e1071» (http://cran.r-project.org/web/packages/e1071/index.html).
  6. Drost I., Dunning T., Eastman J., Gospodnetic O., Ingersoll G., Mannix J., Owen S., Wettin K. Apache Software Foundation. Apache Mahout. 2010 (http://cwiki.apache.org/confluence/display/MAHOUT/Fuzzy+K-Means).
  7. Stonebraker M., Rowe L.A., Hirohama M. The implementation of POSTGRES // IEEE Trans. on Knowledge and Data Engineering. 1990. 2. 125-142.
  8. MacQueen J.B. Some methods for classification and analysis of multivariate observations // Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Vol. 1. Berkeley: Univ. of Calif. Press, 1967. 281-297.
  9. Bradley S., Fayyad U.M., Reina C. Scaling clustering algorithms to large databases // Proc. of the 4th Int. Conf. on Knowledge Discovery and Data Mining. Menlo Park: AAAI Press, 1998. 9-15.
  10. Bezdek J., Hathaway R., Sobin M., Tucker W. Convergence theory for fuzzy c-means: counterexamples and repairs // IEEE Trans. on Systems, Man, and Cybernetics. 1987. N 17. 873-877.
  11. Miniakhmetov R. Integrating fuzzy c-means clustering with PostgreSQL // Proc. of SYRCoDIS 2011: The Seventh Spring Researchers Colloquium on Databases and Information Systems. Moscow: Moscow State Univ., 2011. 6-10.
  12. Berthold M.R., Cebron N., Dill F., et al. KNIME - the Konstanz Information Miner: Version 2.0 and Beyond // SIGKDD Explorations Newsletter. 2009. 11. 26-31.
  13. Chen X., Ye Y., Williams G., Xu X. A survey of open source data mining systems // Proc. of the 2007 Int. Conf. on Emerging Technologies in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. Vol. 4819. Berlin: Springer, 2007. 3-14.
  14. Tiwari A., Sekhar A.K. Workflow-based framework for life science // Informatics Computational Biology and Chemistry. 2007. 31, N 5-6. 305-319.
  15. Sarawagi S., Thomas S., Agrawal R. Integrating association rule mining with relational database systems: alternatives and implications // Proc. of the 1998 ACM SIGMOD Int. Conf. on Management of Data. Seattle: ACM, 1998. 343-354.
  16. Clear J., Dunn D., Harvey B., Heytens M., Lohman, Mehta A., Melton M., Rohrberg L., Savasere A., Wehrmeister R., Xu M. Nonstop SQL/MX primitives for knowledge discovery // Proc. of the 5th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining. New York: ACM, 1999. 425-429.
  17. Graefe G., Fayyad U.M., Chaudhuri S. On the efficient gathering of sufficient statistics for classification from large SQL databases // Proc. of the 4th Int. Conf. on Knowledge Discovery and Data Mining. 1998. Menlo Park: AAAI, 204-208.
  18. Ordonez C. Integrating k-means clustering with a relational DBMS using SQL // IEEE Trans. on Knowledge and Data Engineering. 2006. 18, N 2. 188-201.
  19. Shihab A.I. Fuzzy clustering algorithms and their applications to medical image analysis. London: Univ. of London, 2000.
  20. Zhang D., Chen S. A novel kernelized fuzzy c-means algorithm with application in medical image segmentation // Artificial Intelligence in Medicine. 2004. 32. 37-50.
  21. Пан К.С., Цымблер М.Л. Архитектура и принципы реализации параллельной СУБД PargreSQL // Параллельные вычислительные технологии (ПаВТ-2011): труды международной научной конференции (Москва, 28 марта-1 апреля 2011 г.). Челябинск: Издательский Центр ЮУрГУ, 2011. 577-584.
  22. Paes M., Lima A.A. B., Valduriez P., Mattoso M. High-performance query processing of a real-world OLAP database with ParGRES // VECPAR 2008. Proc. of 8th Int. Conf. (Toulouse, France, June 24-27, 2008). Lecture Notes in Computer Science. Vol. 5336. Berlin: Springer, 188-200.
  23. Kotowski N., Lima A.A. B, Pacitti E., Valduriez P., Mattoso M. Parallel query processing for OLAP in grids // Concurrency and Computation: Practice and Experience. 2008. 20, N 17. 2039-2048.
  24. Golfarelli M. Open source BI platforms: a functional and architectural comparison // Proc. of the 11th Int. Conf. on Data Warehousing and Knowledge Discovery. DaWaK ’09. Berlin: Springer, 2009. 287-297.
  25. Thomsen C., Pedersen T.B. A survey of open source tools for business intelligence // Int. J. of Data Warehousing and Mining. 2009. 5, N 3. 56-75.