Инд. авторы: Селиванова И.В., Рябко Б.Я., Гуськов А.Е.
Заглавие: Классификация посредством компрессии: применение методов теории информации для определения тематики научных текстов
Библ. ссылка: Селиванова И.В., Рябко Б.Я., Гуськов А.Е. Классификация посредством компрессии: применение методов теории информации для определения тематики научных текстов // Научно-техническая информация. Серия 2: Информационные процессы и системы. - 2017. - № 6. - С.8-15. - ISSN 0548-0027.
Внешние системы: РИНЦ: 29459083;
Реферат: rus: Предложен метод автоматической классификации научных текстов, основанный на использовании кодирования источников информации (или «сжатия данных»). Метод реализован и исследован на данных, представленных в Архиве научных текстов (arXiv.org), а также в научной электронной библиотеке «Киберленинка» (cyberleninka.ru). Эксперименты показали, что с вероятностью 75-95% метод правильно определяет тематику текстов, при этом его точность зависит от качества исходных данных.
Ключевые слова: CyberLeninka; arXiv.org; Компрессия текстов; теория информации; тематическая классификация текстов; классификация;
Издано: 2017
Физ. характеристика: с.8-15
Цитирование: 1. Baghel R., Dhir R. A Frequent Concepts Based Document Clustering Algorithm // International Journal of Computer Applications. - 2010. - Vol. 4, № 5. - P. 6 - 12 2. Beil F., Ester M., Xu X. Frequent Term-Based Text Clustering // Proc. 8th Int. Conf. on Knowledge Discovery and Data Mining (KDD ‘2002). - Edmonton, Alberta, Canada, 2002. - Р. 436-442. 3. Miao Y., Keselj V., Milios E. Document clustering using character n-grams: a comparative evaluation with term-based and word-based clustering // In CIKM ’05: Proceedings of the 14th ACM international conference on Information and knowledge management. - NY, USA, 2005. - P. 357-358. 4. Schaeffer S.E. Graph clustering // Computer Science Review. - 2007. - Vol.1, №1. - P. 27-64. 5. Kim S., Han K., Rim H., Myaeng S.H. Some effective techniques for naïve bayes text classification.//IEEE Transactions on Knowledge and Data Engineering. - 2006. - Vol. 18, № 11. - 2. P. 1457-1466. 6. Шевелев О.Г., Петраков А.В. Классификация текстов с помощью деревьев решений и нейронных сетей прямого распространения // Вестник Томского государственного университета. - 2006. - Т. 290. - С. 300-307. 7. Wang Z., He Y., Jiang M. A comparison among three neural networks for text classification // In proceedings of the IEEE 8th international conference on Signal Processing. - 2006. - № 3. - Р. 1883-1886. 8. Матяско А.А., Хаустов В.А. Классификация документов в векторном пространстве. Сравнение методов Роккио и метода k-ближайших соседей // Информационные технологии и системы 2012 (ИТС 2012) : материалы международной научной конференции (г. Минск, Беларусь, 24 октября 2012 г.) = Information Technologies and Systems 2012 (ITS 2012) : Proceeding of The International Conference, BSUIR, Minsk, 24th October 2012 / ред.кол. : Л. Ю. Шилин и др. - Минск : БГУИР, 2012. - C. 140-141. 9. Li M., Vit´anyi P.M.B. An Introduction to Kolmogorov Complexity and Its Applications. 2nd ed. - New York: Springer-Verlag, 1997. - Р. 637. 10. Cilibrasi R., Vitanyi P.M.B. Clustering by Compression // IEEE Transactions on Information Theory. - 2005. - Vol. 51, № 4. - P. 1523-1545. 11. Cilibrasi R., Vitanyi P.M.B., de Wolf R. Algorithmic clustering of music based on string compression // Comp. Music J. - 2004. - Vol. 28, № 4. - P. 49-67. 12. Li M., Chen X., Li X., Ma B., Vitanyi P.M.B. The similarity metric // IEEE Transactions on Information Theory. - 2004. - Vol. 50, № 12. - P. 3250-3264. 13. Кукушкина О.В., Поликарпов А.А., Хмелeв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Пробл. передачи информ. - 2001. - Т. 37, №. 2. - С. 96-109. 14. Хмелёв Д.В. Сложностной подход к задаче определения авторства текста // Труды и материалы Международного конгресса «Русский язык: исторические судьбы и современность» (13-16 марта 2001 года). - М.: МГУ. - 2001. - С. 426-427. 15. Malyutov M.B. Authorship Attribution of texts: a review // Springer Lect. Notes in Comp. Sci. 4123 / eds. R. Ahlswede et al. - 2007. - P. 362-380. 16. Malyutov M.B., Wickramasinghe C.I., Li S. Conditional Complexity of Compression for Authorship Attribution. SFB 649 Discussion Paper No. 57. - Berlin: Humboldt University, 2007. - Р. 38 17. Ryabko B., Astola J., Malyutov M. Compression-Based Methods of Statistical Analysis and Prediction of Time Series. - Springer, 2016.