Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax

Загоруйко Н.Г.; Барахнин В.Б.; Борисова И.А.; Ткачёв Д.А.

Инд. авторы:	Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачёв Д.А.
Заглавие:	Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax
Библ. ссылка:	Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачёв Д.А. Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax // Вычислительные технологии. - 2013. - Т.18. - № -6. - С.62-74. - ISSN 1560-7534. - EISSN 2313-691X.
Внешние системы:	РИНЦ: 21118917;
Реферат:	eng: In this paper, a successful experience of using the FRiS-Tax algorithm for clustering of text documents, based on function of rival similarity is described. For this type of tasks, advantages of the given algorithm compared to the classical clustering algorithms are shown. A posteriori selected rules for weighting coefficient in the measure of document`s similarity determination are found. The way how to use the parallel calculations in some steps of FRiS-algorithm aimed at the speeding up the computations in the text document clustering is offered. Quantitative estimations of the process time are given, which prove the advantage of the parallel realization at different stages of the program. It applies both at preliminary analysis of texts, including similarity measures calculation and at some steps of FRiS-Tax algorithm. rus: Описывается опыт применения алгоритма FRiS-Tax, основанного на использовании функции конкурентного сходства, в задачах кластеризации текстовых документов. Показано, что для данного класса задач FRiS-алгоритм даёт заметно лучшие результаты по сравнению с классическими алгоритмами кластеризации. Получены апостериорно выбираемые правила для определения весовых коэффициентов при шкалах в формуле вычисления меры сходства на основании предполагаемой достоверности данных. Представлен вариант параллельного выполнения некоторых этапов кластеризации документов с использование FRiS-алгоритма. Приведены количественные оценки времени выполнения процесса, наглядно демонстрирующие преимущества параллельной реализации на разных этапах обработки: при предварительном анализе документов, включающем вычисление мер сходства, а также частично при выполнении непосредственно процесса кластеризации.
Ключевые слова:	параллельный алгоритм кластеризации; кластеризация текстовых документов; FRiS-Tax algorithm; parallel algorithm for clustering; text documents clustering; FRiS-алгоритм;
Издано:	2013
Физ. характеристика:	с.62-74
Цитирование:	1. Федотов А.М., Барахнин В.Б. Проблемы поиска информации: История и технологии//Вестник НГУ. Информационные технологии. 2009. Т. 7, вып. 2. С. 3-17. 2. Борисова И.А., Загоруйко Н.Г., Кутненко О.А. Критерии информативности и пригодности подмножества признаков, основанные на функции сходства//Заводская лаборатория. Диагностика материалов. 2008. Т. 74, № 1. C. 68-71. 3. Борисова И.А. Алгоритм таксономии FRiS-Tax//Научный вестник НГТУ. 2007. № 3. С. 3-12. 4. Кормен Т., Лейзерсон Ч., Ривест Р.М. Алгоритмы: Построение и анализ М.: МЦНМО, 2001. 5. Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов//Вестник НГУ. Информационные технологии. 2008. Т. 6, вып. 1. С. 3-9. 6. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации. Новосибирск: Наука, 2010. 7. Барахнин В.Б., Нехаева В.А. Технология создания тезауруса предметной области на основе предметного указателя энциклопедии//Вычисл. технологии. 2007. Т. 12. Спец. выпуск 2. С. 3-9. 8. Барахнин В.Б., Ткачёв Д.А. Оценка эффективности метода параллельной реализации процесса кластеризации текстовых документов на основе алгоритма FRiS-Cluster//Вестник НГУ. Информационные технологии. 2012. Т. 10, вып. 4. С. 95-103. 9. Барахнин В.Б., Ткачев Д.А. Кластеризация текстовых документов на основе составных ключевых термов//Вестник НГУ. Серия: Информационные технологии. 2010. Т. 8. Вып. 2. С. 5-14.