О задании меры сходства для кластеризации текстовых документов

Барахнин В.Б.; Нехаева В.А.; Федотов А.М.

Инд. авторы:	Барахнин В.Б., Нехаева В.А., Федотов А.М.
Заглавие:	О задании меры сходства для кластеризации текстовых документов
Библ. ссылка:	Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2008. - Т.6. - № 1. - С.3-9. - ISSN 1818-7900. - EISSN 2410-0420.
Внешние системы:	РИНЦ: 11131082;
Реферат:	eng: The problem of computerized selection of textual documents on scientific subjects is solved that could be of interest for an individual researcher or a research team. Attributes of bibliographical description (authors, keywords, abstract) are proposed to be used as scales for the measure determination. The values of weight coefficients in the formula for calculating the similarity measure are determined by the assumed a posteriori reliability of the respective scale data. Three classical document clusterization methods have been analysed in order to find the ones potentially feasible for the solution of the formulated problem: clusterization by finding cliques in the full matrix of documents similarity,clusterization by Rocchio method and the method based on the so-called greed algorithm as well as the new method suggested by N.Zagoruiko based on employing the function of a rival similarity (the so-called FRiS-function). Testing showed that FRiS algorithm proved to be the most efficient one for this problem although the greed algorithm also yields acceptable results. rus: В работе решается задача автоматизации процесса отбора текстовых документов научной тематики, которые могут представлять интерес для конкретного ученого-исследователя или группы совместно работающих исследователей. В качестве шкал для определения меры предлагается брать атрибуты библиографического описания документов (авторы, ключевые слова, аннотация). Значения весовых коэффициентов в формуле для вычисления меры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы. В качестве потенциально пригодных для решения поставленной задачи были проанализированы три классических метода кластеризации документов: кластеризация путем нахождения клик в полной матрице подобия документов, кластеризация по методу Роккио и метод, базирующийся на так называемом жадном алгоритме, а также новый алгоритм Н. Загоруйко, основанный на использовании функции конкурентного сходства (так называемой FRiS-функции). В ходе тестирования было выявлено, что оптимальным для данной задачи является FRiS-алгоритм, хотя приемлемые результаты дает и жадный алгоритм.
Ключевые слова:	кластеризация текстовых документов; similarity; мера сходства; clusterization of textual documents;
Издано:	2008
Физ. характеристика:	с.3-9
Цитирование:	1. Барахнин В. Б., Куперштох А. А. Алгоритм координатного индексирования электронных научных документов//Тр. междунар. конф. «Вычислительные и информационные технологии в науке, технике и образовании». Казахстан, Павлодар, 20-22 сентября 2006. Павлодар, 2006.Т. 1. C. 228-232. 2. Барахнин В. Б., Нехаева В. А. Технология создания тезауруса предметной области на основе предметного указателя энциклопедии//Вычислительные технологии. 2007. Т. 12. Спец. вып. 2. С. 3-9. 3. Борисова И. А., Загоруйко Н. Г. Функции конкурентного сходства в задаче таксономии//Материалы Всероссийской конференции с международным участие «Знания -Онтологии -Теории» (ЗОНТ-07), Новосибирск, 14-16 сентября 2007. Новосибирск, 2007. Т. 2. С. 67-76. 4. Воронин Ю. А. Начала теории сходства. Новосибирск: Наука. Сиб. отд-ние, 1991. 128 с. 5. Кормен Т. и др. Алгоритмы: построение и анализ/Т. Кормен, Ч. Лейзерсон, Р. М. Ривест. М.: МЦНМО, 2001. 960 с. 6. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979. 560 с.