Инд. авторы: | Мансурова М.Е., Барахнин В.Б., Аубакиров С.С., Хибатханулы Е.., Мусина А.Б. |
Заглавие: | Разработка параллельного алгоритма кластеризации текстовых документов fris-tax на основе технологии mpi |
Библ. ссылка: | Мансурова М.Е., Барахнин В.Б., Аубакиров С.С., Хибатханулы Е., Мусина А.Б. Разработка параллельного алгоритма кластеризации текстовых документов fris-tax на основе технологии mpi // Параллельные вычислительные технологии (ПаВТ'2016): труды международной научной конференции. - 2016. - Челябинск: Издательский центр ЮУрГУ. - С.244-256. - ISBN: 978-5-696-04801-7. |
Внешние системы: | РИНЦ: 25804429; |
Реферат: | rus: В данной работе описана параллельная реализация алгоритма FRiS-Tax для кластеризации корпуса документов. Алгоритм основан на оценке сходства между объектами в конкурентной ситуации, которая приводит к понятию функции конкурентного сходства (FRiS-функции). В качестве шкал для определения меры сходства были выбраны атрибуты библиографического описания документов. Распараллеливание осуществляется на этапе настройки коэффициентов в формуле меры сходства генетического алгоритма, а также непосредственно на этапе кластеризации. Алгоритм кластеризации реализован на высокопроизводительной платформе MPJ Express. Приведены количественные оценки времени выполнения процесса, демонстрирующие преимущества параллельной реализации алгоритма.
|
Ключевые слова: | параллельные алгоритмы; генетические алгоритмы; кластеризация текстовых документов; |
Издано: | 2016 |
Физ. характеристика: | с.244-256 |
Цитирование: | 1. Борисова И. А., Загоруйко Н. Г. Функции конкурентного сходства в задаче таксономии//Материалы Всерос. конф. с международным участием «Знания -Онтологии -Теории» (ЗОНТ-07). Новосибирск, 2007. Т. 2. С. 67-76.
2. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов//Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3-9.
3. Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачев Д.А. Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax//Вычислительные технологии. -Т. 18, № 6, 2013. -С. 62-74.
4. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы/Под ред. В.М. Курейчика. -2-е изд., испр. и доп. -М.: ФИЗМАТЛИТ, 2006. -320 с.
5. Википедия: Расстояние Левенштейна. URL: https://en.wikipedia.org/wiki/Levenshtein_distance (дата обращения: 01.02.2016)
6. Andrei Z. Broder, Identifying and Filtering Near-Duplicate Documents/Proceedings of the 11th Annual Symposium on Combinatorial Pattern Matching Table of Contents, Pages: 1-10.
7. Оценка кластеризации. URL: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-ofclustering-1.html (дата обращения: 01.02.2016)
8. Bäck, Thomas, Evolutionary Algorithms in Theory and Practice (1996), p. 120, Oxford Univ. Press.
9. MPJ-Express. URL: http://mpj-express.org/(дата обращения: 01.02.2016)
10. Processing Data with Java SE 8 Streams. URL: http://www.oracle.com/technetwork/articles/java/ma14-java-se-8-streams-2177646.html (дата обращения: 01.02.2016)
|