Инд. авторы: Барахнин В.Б., Ткачев Д.А.
Заглавие: Кластеризация текстовых документов на основе составных ключевых термов
Библ. ссылка: Барахнин В.Б., Ткачев Д.А. Кластеризация текстовых документов на основе составных ключевых термов // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2010. - Т.8. - № 2. - С.5-14. - ISSN 1818-7900. - EISSN 2410-0420.
Внешние системы: РИНЦ: 14873614;
Реферат: rus: Классический подход к координатному индексированию текстов с целью их последующей кластеризации заключается в использовании средств анализа на основе тезауруса обрабатываемой предметной области. Но если вести речь об обработке корпусов текстов достаточно узких тематик, то в таких случаях требуются очень подробные тезаурусы, которые имеются (по крайней мере в широком доступе) далеко не для всех предметных областей. Подход же, основанный на извлечении ключевых выражений без априорных ограничений, носит гораздо более универсальный характер. Однако при таком подходе возникает проблема отбора ключевых термов. Цель данной работы заключается в демонстрации практических преимуществ кластеризации документов на основе ключевых словосочетаний по сравнению с популярной кластеризацией на основе анализа только однословных ключевых термов, при этом для выделения ключевых словосочетаний используются общедоступные программные средства, не требующие особых вычислительных затрат.
eng: The classical approach to the coordinate indexing texts with a view to their subsequent clustering is to use analysis tools based on the thesaurus treated he subject area. But if we talk about the processing of texts rather narrow topics, in such cases requires a very detailed thesauri, which are (at least, widely available), not for all subject fields. The approach is based on the extraction of key phrases without a priori constraints is much more universal. However, this approach has the problem of selection of key terms. The purpose of this article is to demonstrate the practical advantages of clustering documents based on key phrases compared to the very popular clustering based on the analysis of only one-word key terms. At the same time to highlight the key phrases used publicly available software tools that do not require special computing costs.
Ключевые слова: координатное индексирование; составные ключевые термы; composite key terms; coordinate indexing; clustering text documents; кластеризация текстовых документов;
Издано: 2010
Физ. характеристика: с.5-14
Цитирование: 1. Федотов А. М., Барахнин В. Б. К вопросу о поиске документов «по аналогии» // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2009. Т. 7, вып. 4. С. 3-14. 2. Пескова О. В. Автоматическое формирование рубрикатора полнотекстовых документов // Тр. X Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL'2008). Дубна, 7-11 октября 2008 г. С. 139-148. 3. Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. М.: Наука, 1968. 4. Кормен Т., Лейзерсон Ч., Ривест Р. М. Алгоритмы: построение и анализ. М.: МЦНМО, 2001. 5. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3-9. 6. Bezdek J. C., Pal N. R. Some New Indexes of Cluster Validity // IEEE Transactions On Systems, Man And Cybernetics. 1998. Vol. 28, No. 3. P. 301-315. 7. Halkidi M., Batistakis V., Vazirgiannis M. On Clustering Validation // Journal of Intelligent Information Systems. 2001. Vol. 17 (2/3). P. 107-145.