Инд. авторы: Барахнин В.Б., Кожемякина О.Ю., Рычкова Е.В., Пастушков И.С., Борзилова Ю.С.
Заглавие: Извлечение лексических и метроритмических признаков, характерных для жанра и стиля и их комбинаций в процессе автоматизированной обработки текстов на русском языке
Библ. ссылка: Барахнин В.Б., Кожемякина О.Ю., Рычкова Е.В., Пастушков И.С., Борзилова Ю.С. Извлечение лексических и метроритмических признаков, характерных для жанра и стиля и их комбинаций в процессе автоматизированной обработки текстов на русском языке // Современные информационные технологии и ИТ-образование. - 2018. - Т.14. - № 4. - С.888-895. - ISSN 2411-1473.
Внешние системы: DOI: 10.25559/SITITO.14.201803.876-883; РИНЦ: 37267548;
Реферат: rus: В работе описан алгоритм извлечения характерных признаков для жанра и стиля. Работа выполнялась в рамках разработки программной системы, созданной в Институте вычислительных технологий СО РАН и предназначенной для комплексного анализа метроритмических и жанрово-стилистических характеристик поэтических текстов на русском языке. Система органично сочетает в себе как оригинальные программные модули, созданные непосредственно разработчиками системы и предназначенные для решения узкоспециализированных задач анализа поэтических текстов, так и программные продукты открытого доступа. Обобщённый подход, позволяющий рассматривать поэтические признаки в виде вектора, с одной стороны, позволяет использовать современные алгоритмы классификации и их ансамбли, с другой, такой подход имеет недостатки при малых объёмах корпусов, с которыми приходится работать. Поэтому наличие такого шага как верификация позволяет специалистам корректировать работу системы исходя из экспертных знаний, а также делает процесс классификации прозрачным. В качестве инструмента были применены библиотеки языка Python: scikit-learn, в которой реализованы алгоритмы классификации, а также методы их комбинирования, и ELI5, позволяющая установить соответствие между компонентами вектора признаков с конкретными признаками. Таким образом извлечение лексических и метроритмических признаков, характерных для жанра и стиля и их комбинаций улучшает процесс автоматизированной обработки текстов на русском языке, что продемонстрировано на основе подготовленного корпуса поэтических текстов А.С. Пушкина и К.Н. Батюшкова. Полученные результаты могут быть использованы для облегчения верификации классификатора, а также составления списка характерных для жанра и стиля признаков в творчестве того или иного поэта.
eng: This paper describes the algorithm of automatic extraction of the characteristic features for the genre and the style. This work was carried out in the framework of the development of a software system created in the Institute of Computational Technologies of SB RAS and designed for a complex analysis of metrorhythmic and genre-stylistic characteristics of poetic texts in Russian. The paper presents the structure of the software system developed in the ICT SB RAS and intended for a complex analysis of metrorhythmic and genre-stylistic characteristics of poetic texts in Russian. The system organically combines both original program modules which are created directly by the system developers and intended for the solution of the single-purpose tasks of the analysis of the poetic texts, and open access software products. The generalized approach, which allows to consider the poetic features in the form of a vector, on the one hand, allows to use the modern algorithms of the classification and their ensembles, on the other, such approach has the disadvantages for small volumes of the texts with which it is necessary to work. Therefore, the presence of such a step as verification allows the specialists to adjust the operation of the system based on an expert knowledge, and also makes the classification process transparent. As a tool, the Python libraries were used: scikit-learn, in which the algorithms of the classification and also the methods of their combination were implemented; and ELI5, which allows to establish a correspondence between the components of the feature vector with specific features. So, the extraction of lexical and metrorhythmic features which are characteristic for the genre and style and of their combinations improved the process of automated processing of poetic texts in Russian what is shown on the base of the corpus of poetic texts of A.S. Pushkin and K.N. Batyushkov. The obtained results can be used for the verification of the classifier and for a list of characteristic features for the genre and the style of a poet.
Ключевые слова: алгоритм классификации; автоматизированный анализ поэтических текстов; анализ главных компонент; распознавание образов; ensembling; algorithm of classification; automated analysis of poetic texts; Principal Component analysis; patterns recognition; ансамблирование;
Издано: 2018
Физ. характеристика: с.888-895
Конференция: Название: XIII Международная научно-практическая конференция «Современные информационные технологии и ИТ-образование»
Город: Москва
Страна: Россия
Даты проведения: 2018-11-29 - 2018-12-02
Ссылка: http://it-edu.oit.cmc.msu.ru/index.php/SITITO/sitito2018/schedConf/overview
Цитирование: 1. Шенгели Г.А. Техника стиха. М.: ГИХЛ, 1960. 312 с. URL: http://imwerden.de/pdf/shengeli_tekhnika_stikha_1960_text.pdf (дата обращения: 25.09.2018). 2. Анализ поэтических текстов онлайн. . URL: http://poem.ict.nsc.ru/(дата обращения: 25.09.2018). 3. Barakhnin V., Kozhemyakina O. About the automation of the complex analysis of Russian poetic text//CEUR Workshop Proceedings. 2012. Vol. 934. Pp. 167-171. URL: http://ceur-ws.org/Vol-934/paper27.pdf (дата обращения: 25.09.2018). 4. Мельчук И.А. Язык: от смысла к тексту. М.: Языки славянских культур, 2012. 190 с. URL: http://biblioclub.ru/index.php?page=book&id=219899 (дата обращения: 25.09.2018). 5. Friedman J.H. Stochastic Gradient Boosting//Computational Statistics and Data Analysis. 2002. Vol. 38, issue 4. Pp. 367-378. DOI: 10.1016/S0167-9473(01)00065-2 6. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages//Communications in Computer and Information Science. 2015. Vol. 542. Pp. 320-332. URL: https://elibrary.ru/item.asp?id=26927893 (дата обращения: 25.09.2018). 7. Barakhnin V.B., Kozhemyakina O.Yu., Pastushkov I.S. Comparative analysis of methods of automated classification of poetic texts based on lexical signs//CEUR Workshop Proceedings. 2017. Vol. 2022. Pp. 252-257. URL: http://ceur-ws.org/Vol-2022/paper41.pdf (дата обращения: 25.09.2018). 8. Barakhnin V.B., Kozhemyakina O.Yu., Pastushkov I.S. Automated Determination of the Type of Genre and Stylistic Coloring of Russian Texts//ITM Web of Conferences. 2017. Vol. 10. Art. 02001. DOI: https://doi.org/10.1051/itmconf/20171002001 9. Barakhnin V.B., Fedotov A.M., Bakiyeva A.V., Bakiyev M.N., Tazhibayeva S.Zh., Batura T.V., Kozhemyakina O.Yu., Tussupov D.A., Sambetbaiyeva M.A., Lukpanova L.Kh. The Software System for the Study the Morphology of the Kazakh Language//The European Proceedings of Social & Behavioural Sciences. 2017. Vol. XXXIII. Pp.18-27. URL: http://www.futureacademy.org.uk/files/images/upload/ICPE2017F3.pdf (дата обращения: 25.09.2018). 10. Barakhnin V.B., Kozhemyakina O.Yu., Zabaykin A.V. Usage of modern computer technologies in the learning process of the philologists of complex analysis of Russian poetic texts//SHS Web of Conferences. 2016. Vol. 29. Art.UNSP02002. DOI: http://dx.doi.org/10.1051/shsconf/20162902002 11. Барахнин В.Б., Кожемякина О.Ю., Забайкин А.В. Алгоритмы комплексного анализа русских поэтических текстов с целью автоматизации процесса создания метрических справочников и конкордансов//CEUR Workshop Proceedings. 2015. Vol. 1536. Pp. 138-143. URL: http://ceur-ws.org/Vol-1536/paper21.pdf (дата обращения: 25.09.2018). 12. Mansurova M.E., Barakhnin V.B., Aubakirov S.S., Khibatkhanuly Ye., Mussina A.B. Parallel text document clustering based on genetic algorithm//CEUR Workshop Proceedings. 2017. Vol. 1839. Pp. 218-232. URL: http://ceur-ws.org/Vol-1839/MIT2016-p20.pdf (дата обращения: 25.09.2018). 13. Мансурова М.Е., Барахнин В.Б., Аубакиров С.С., Хибатханулы Е., Мусина А.Б. Разработка параллельного алгоритма кластеризации текстовых документов FRiS-Tax на основе технологии MPI//CEUR Workshop Proceedings. 2016. Vol. 1576. Pp. 244-256. URL: http://ceur-ws.org/Vol-1576/128.pdf (дата обращения: 25.09.2018). 14. Chawla N.V. Data Mining for Imbalanced Datasets: An Overview//Data Mining and Knowledge Discovery Handbook. Springer-Verlag, 2010. Pp. 875-886. DOI: 10.1007/978-0-387-09823-4_45 15. Mikolov T., Kai Chen, Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space//Computation and Language. 2013. URL: https://arxiv.org/pdf/1301.3781.pdf (дата обращения: 25.09.2018). 16. Москвина А.Д., Митрофанова О.А., Ерофеева А.Р., Харабет Я.К. Автоматическое выделение ключевых слов и словосочетаний из русскоязычных корпусов текстов с помощью алгоритма RAKE//Труды международной конференции «Корпусная лингвистика-2017». СПб., 2017. С. 268-274. URL: https://elibrary.ru/item.asp?id=32425675 (дата обращения: 25.09.2018). 17. Соколова Е.В., Митрофанова О.А. Автоматическое извлечение ключевых слов и словосочетаний из русскоязычных текстов с помощью алгоритма KEA//Компьютерная лингвистика и вычислительные онтологии. Вып. 1. Труды XX Международной объединенной научной конференции «Интернет и современное общество» (IMS-2017). СПб.: Университет ИТМО, 2017. С. 157-165. URL: http://openbooks.ifmo.ru/ru/file/6522/6522.pdf (дата обращения: 25.09.2018). 18. Москвина А.Д., Орлова Д., Паничева П.В., Митрофанова О.А. Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK//Компьютерная лингвистика и вычислительные онтологии. Труды XIX Международной объединенной научной конференции «Интернет и современное общество» (IMS-2016). СПб.: Университет ИТМО, 2016. С. 44-45. URL: http://openbooks.ifmo.ru/ru/file/4103/4103.pdf (дата обращения: 25.09.2018). 19. Vetulani Z., Obrębski T., Vetulani G. Towards a Lexicon-Grammar of Polish: Extraction of Verbo-Nominal Collocations from Corpora//Proceedings of the Twentieth International Florida Artificial Intelligence Research Society Conference. 2007. Рp. 267-268. URL: http://www.aaai.org/Papers/FLAIRS/2007/Flairs07-055.pdf (дата обращения: 25.09.2018). 20. Кощеева С.С. Сравнение методов автоматического выделения глагольно-именных словосочетаний//Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2014). СПб.: Университет ИТМО, 2014. С. 298-303. URL: http://ojs.ifmo.ru/index.php/IMS/article/view/270/266 (дата обращения: 25.09.2018). 21. Ванюшкин А.С., Гращенко Л.А. Методы и алгоритмы извлечения ключевых слов//Новые информационные технологии в автоматизированных системах. 2016. № 19. С. 85-93. URL: https://elibrary.ru/item.asp?id=25864034 (дата обращения: 25.09.2018). 22. Орлов Ю.Н., Осминин К.П. Определение жанра и автора литературного произведения статистическими методами//Прикладная информатика. 2010. № 2(26). С. 95-108. URL: https://elibrary.ru/item.asp?id=13569170 (дата обращения: 25.09.2018). 23. Орлов Ю.Н., Осминин К.П. Методы статистического анализа литературных текстов. М.: URSS, 2017. 312 c. 24. Scikit-learn: Machine Learning in Python. . URL: http://scikit-learn.org/(дата обращения: 25.09.2018). 25. ELI5's documentation. . URL: http://eli5.readthedocs.io/(дата обращения: 25.09.2018). 26. Haykin S. Neural Networks: A Comprehensive Foundation. 2nd Edition. Prentice Hall PTR Upper Saddle River, NJ, USA, 1998. 842 p.