Инд. авторы: | Барахнин В.Б., Ткачев Д.А. |
Заглавие: | Кластеризация текстовых документов на основе составных ключевых термов |
Библ. ссылка: | Барахнин В.Б., Ткачев Д.А. Кластеризация текстовых документов на основе составных ключевых термов // XII Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2010 (Казань, Россия, 13.10 - 17.10.2010): Труды конференции. - Казань: Казан. ун-т, 2010. - С.415-421. - ISBN 978-5-98180-838-8. |
Внешние системы: | РИНЦ: 22521602; |
Реферат: | rus: Классический подход к координатному индексированию текстов с целью их последующей кластеризации заключается в использовании средства анализа на основе тезауруса обрабатываемой предметной области. Но если вести речь об обработке корпусов текстов достаточно узких тематик, то в таких случаях требуются весьма подробные тезаурусы, которые имеются (по крайней мере, в широком доступе) далеко не для всех предметных областей. Подход же, основанный на извлечении ключевых выражений без априорных ограничений, носит гораздо более универсальный характер. Однако при таком подходе возникает проблема отбора ключевых термов.
Цель данной работы заключается в демонстрации практических преимуществ кластеризации документов на основе ключевых словосочетаний по сравнению с весьма популярной кластеризацией на основе анализа только однословных ключевых термов, при этом для выделения ключевых словосочетаний используются обще-доступные программные средства, не требующие особых вычислительных затрат.
|
Издано: | Казань: , 2010 |
Физ. характеристика: | с.415-421 |
Конференция: | Название: XII Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» Аббревиатура: RCDL’2010 Город: Казань Страна: Россия Даты проведения: 2010-10-13 - 2010-10-17 Ссылка: http://rcdl.ru/section.php?id=2 |
Цитирование: | 1. Федотов А.М., Барахнин В.Б. К вопросу о поиске документов «по аналогии»//Вестник НГУ. Серия: Информационные технологии. -2009. -Т. 7, Вып. 4. -С. 3-14. 2. Пескова О.В. Автоматическое формирование рубрикатора полнотекстовых документов//Труды Десятой Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL'2008). Дубна, 7 -11 октября 2008 г. -С. 39-148. 3. Михайлов А.И., Черный А.И, Гиляревский Р.С. Основы информатики. -М.: Наука, 1968. 4. Кормен Т., Лейзерсон Ч., Ривест Р.М. Алгоритмы: построение и анализ. -М.: МЦНМО, 2001. 5. Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов//Вестник НГУ. Серия: Информационные технологии. -2008. -Т. 6, Вып. 1. -С. 3-9. 6. Bezdek J.C., Pal N.R. Some new indexes of cluster validity//IEEE Transactions On Systems, Man And Cybernetics. -1998. -V. 28, No 3. -P. 301-315. 7. Halkidi M., Batistakis V., Vazirgiannis M. On clus-tering validation//J. of Intelligent Information Sys-tems. -2001. -V. 17, No 2/3. -P. 107-145. 8. Шаров С.А. Частотный словарь русского языка. -http://www.artint.ru/projects/frqlist.asp. 9. Агеев М., Кураленок И., Некрестьянов И. Официальные метрики РОМИП 2006//Труды РОМИП'2006. -СПб: НУ ЦСИ, 2006. -http://romip.ru/romip2006/appendix_a_metrics.pdf |