Инд. авторы: Бериков В.Б., Пестунов И.А., Герасимов М.К.
Заглавие: Метод кластерного анализа разнотипных временных рядов
Библ. ссылка: Бериков В.Б., Пестунов И.А., Герасимов М.К. Метод кластерного анализа разнотипных временных рядов // Вычислительные технологии. - 2015. - Т.20. - № 2. - С.20-28. - ISSN 1560-7534. - EISSN 2313-691X.
Внешние системы: РИНЦ: 23293989;
Реферат: rus: Рассматривается задача разбиения множества многомерных временных рядов на группы похожих подмножеств (кластеров). Каждый временной ряд представляет собой описание характеристик некоторых объектов, изменяющихся с течением времени, при этом характеристики могут быть как количественными, так и качественными. В работе предложен способ задания меры различия между временными рядами с использованием деревьев решений. Также предложен алгоритм кластеризации временных рядов, использующий полученные матрицы различий.
eng: Purpose. The paper addresses the problem of partitioning of a set of multidimensional time series on groups of similar subsets (clusters). Each time series represents characteristics (qualitative or quantitative) of an object that changes in time. By assumptions, the data generating mechanism is unknown and may vary across the set of time series in the sense that the observed values of individual time series depend on one of the unobserved generative functions. Methodology. In this paper, we suggest a way to define a measure of difference between time series with the help of decision trees as approximation functions. The proposed dissimilarity measure satises some useful properties such as non-negativity, identity, and symmetry. Findings. We suggest a mathematical model of data generating mechanism and prove that if we have good approximations of initial well-distinguished generative functions then time series from same clusters are more similar to each other (in the sense of the proposed dissimilarity measure) than series from dierent clusters. Originality /value. The suggested approach makes it possible to determine distance/dissimilarity measure between time series with heterogeneous components, different lengths, large sizes and dimensions along with the interdependencies between observation values at different time points. The approach does not rely on prior assumptions about the data. It is simple to understand and interpret and can be combined with other decision making techniques such as regression analysis and clustering. The algorithm of time series clustering that utilizes the obtained dissimilarity matrix is also suggested.
Ключевые слова: multidimensional heterogeneous time series; деревья решений; кластерный анализ; многомерный временной ряд; Decision trees; cluster analysis;
Издано: 2015
Физ. характеристика: с.20-28
Цитирование: 1. Aggarwal, C., Reddy, C. Data Clustering: Algorithms and Applications. CRC Press, 2013. 652 p. 2. Meesrikamolkul, W., Niennattrakul, V., Ratanamahatana, C. Shape-based clustering for time series data // Proc. 16th Pacific-Asia Conf., PAKDD 2012, Kuala Lumpur, Malaysia, May 29 - June 1, 2012. Part I. P. 530-541. 3. Corduas, M., Piccolo, D. Time series clustering and classification by the autoregressive metric // Comput. Statistics & Data Analysis. 2008. Vol. 52(4). P. 1860-1872. 4. Ghassempour, S., Girosi, F., Maeder, A. Clustering Multivariate Time Series Using Hidden Markov Models // Intern. J. Environ. Res. Publ. Health. 2014. Vol. 11(3). P. 2741-2763. 5. Лбов Г.С., Бериков В.Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. Новосибирск: Изд-во Ин-та математики, 2005. 218 с. 6. Лбов Г.С., Пестунова Т.М. Группировка объектов в пространстве разнотипных признаков // Анализ нечисловой информации в социологических исследованиях. М.: Наука, 1985. С. 141-149. 7. Лбов Г.С., Пестунова Т.М. Построение дерева разбиений в задаче группировки объектов с использованием логических функций // Вычисл. системы. 1986. Вып. 117. С. 63-77. 8. Berikov, V.B. Grouping of objects in a space of heterogeneous variables with the use of taxonomic decision trees // Pattern Recognition and Image Analysis. 2011. Vol. 21, No. 4. P. 591-598. 9. Бериков В.Б., Пестунов И.А., Герасимов М.К. Анализ совокупности разнотипных временных рядов с использованием логических решающих функций // Вычисл. технологии. 2012. Т. 17, №. 5. С. 12-22. 10. Vikent’ev, A.A. Distances and degrees of uncertainty in many-valued propositions of experts and application of these concepts in problems of pattern recognition and clustering // Pattern Recognition and Image Analysis. 2014. Vol. 24, No. 4. P. 489-501. 11. Berikov, V.B. Weighted ensemble of algorithms for complex data clustering // Pattern Recognition Letters. 2014. Vol. 38. P. 99-106.