Инд. авторы: Мансурова М.Е., Барахнин В.Б., Аубакиров С.С., Хибатханулы Е.., Мусина А.Б.
Заглавие: Разработка параллельного алгоритма кластеризации текстовых документов fris-tax на основе технологии mpi
Библ. ссылка: Мансурова М.Е., Барахнин В.Б., Аубакиров С.С., Хибатханулы Е., Мусина А.Б. Разработка параллельного алгоритма кластеризации текстовых документов fris-tax на основе технологии mpi // Параллельные вычислительные технологии (ПаВТ'2016): труды международной научной конференции. - 2016. - Челябинск: Издательский центр ЮУрГУ. - С.244-256. - ISBN: 978-5-696-04801-7.
Внешние системы: РИНЦ: 25804429;
Реферат: rus: В данной работе описана параллельная реализация алгоритма FRiS-Tax для кластеризации корпуса документов. Алгоритм основан на оценке сходства между объектами в конкурентной ситуации, которая приводит к понятию функции конкурентного сходства (FRiS-функции). В качестве шкал для определения меры сходства были выбраны атрибуты библиографического описания документов. Распараллеливание осуществляется на этапе настройки коэффициентов в формуле меры сходства генетического алгоритма, а также непосредственно на этапе кластеризации. Алгоритм кластеризации реализован на высокопроизводительной платформе MPJ Express. Приведены количественные оценки времени выполнения процесса, демонстрирующие преимущества параллельной реализации алгоритма.
Ключевые слова: параллельные алгоритмы; генетические алгоритмы; кластеризация текстовых документов;
Издано: 2016
Физ. характеристика: с.244-256
Цитирование: 1. Борисова И. А., Загоруйко Н. Г. Функции конкурентного сходства в задаче таксономии//Материалы Всерос. конф. с международным участием «Знания -Онтологии -Теории» (ЗОНТ-07). Новосибирск, 2007. Т. 2. С. 67-76. 2. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов//Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3-9. 3. Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачев Д.А. Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax//Вычислительные технологии. -Т. 18, № 6, 2013. -С. 62-74. 4. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы/Под ред. В.М. Курейчика. -2-е изд., испр. и доп. -М.: ФИЗМАТЛИТ, 2006. -320 с. 5. Википедия: Расстояние Левенштейна. URL: https://en.wikipedia.org/wiki/Levenshtein_distance (дата обращения: 01.02.2016) 6. Andrei Z. Broder, Identifying and Filtering Near-Duplicate Documents/Proceedings of the 11th Annual Symposium on Combinatorial Pattern Matching Table of Contents, Pages: 1-10. 7. Оценка кластеризации. URL: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-ofclustering-1.html (дата обращения: 01.02.2016) 8. Bäck, Thomas, Evolutionary Algorithms in Theory and Practice (1996), p. 120, Oxford Univ. Press. 9. MPJ-Express. URL: http://mpj-express.org/(дата обращения: 01.02.2016) 10. Processing Data with Java SE 8 Streams. URL: http://www.oracle.com/technetwork/articles/java/ma14-java-se-8-streams-2177646.html (дата обращения: 01.02.2016)