Инд. авторы: | Барахнин В.Б., Федотов А.М., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Кожемякина О.Ю., Тусупов Д.А., Самбетбаева М.А., Лукпанова Л.Х. |
Заглавие: | Алгоритмы генерации и стемматизации словоформ казахского языка |
Библ. ссылка: | Барахнин В.Б., Федотов А.М., Бакиева А.М., Бакиев М.Н., Тажибаева С.Ж., Батура Т.В., Кожемякина О.Ю., Тусупов Д.А., Самбетбаева М.А., Лукпанова Л.Х. Алгоритмы генерации и стемматизации словоформ казахского языка // Cloud of Science. - 2017. - Т.4. - № 3. - С.434-449. - EISSN 2409-031X. - https://cloudofscience.ru/sites/default/files/pdf/CoS_15_434.pdf |
Внешние системы: | РИНЦ: 30266271; |
Реферат: | eng: In this article the algorithms of synthesis and analysis of word forms of the Kazakh language, based on the principles of division of the words into inflexional classes, are proposed. As the Kazakh language is an agglutinative language, it is inexpedient to connect to the analysis the dictionary of the word forms to automate the morphological analysis. It is much more effective to use the dictionaries of affixes and the sets of rules. In the process of research the morphological model of the Kazakh language and the dictionaries, which include about 3.500 of affixes and their combinations for nouns and adjectives and about 2000 verbal affixes and their combinations for 17 inflexional classes (some combinations of affixes are repeated) were created. Such a volume of dictionaries is sufficient to analyze the texts of any thematic affiliation. The proposed algorithms can be applied at the stage of morphological analysis in search engines, in the systems of the autosummarization and in question-answering systems, in the systems of automatic analysis of poetic texts, in the creation of thesauruses and ontologies, and also in the process of study of the morphology of the Kazakh language. rus: В статье предложены алгоритмы синтеза и анализа словоформ казахского языка, основанные на принципах разбиения слов на флективные классы. Поскольку казахский язык является агглютинативным, подключать словарь словоформ для автоматизации морфологического анализа нецелесообразно. Значительно эффективнее пользоваться словарями аффиксов и наборами правил. В процессе исследования была построена морфологическая модель казахского языка и созданы словари, включающие в себя около 3500 аффиксов и их комбинаций (вариантов окончаний) для 14 флективных классов существительных и около 2000 глагольных аффиксов и их комбинаций для 17 флективных классов (некоторые сочетания аффиксов повторяются). Такой объем словарей является достаточным для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Предлагаемые алгоритмы могут применяться на этапе морфологического анализа в поисковых системах, системах автореферирования и вопросно-ответных системах, системах автоматического анализа поэтических текстов, при построении тезаурусов и онтологий, а также для изучения морфологии казахского языка. |
Ключевые слова: | генерация; стемматизация; флективный класс; аффикс; морфологический анализ; казахский язык; |
Издано: | 2017 |
Физ. характеристика: | с.434-449 |
Ссылка: | https://cloudofscience.ru/sites/default/files/pdf/CoS_15_434.pdf |
Цитирование: | 1. Тревгода С. А. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений: автореф. дисс. … канд. техн. наук. СПб, 2009. С. 15. 2. Гридина Е. А. Анализ алгоритмов автоматического реферирования текста//Восточно-Европейский журнал передовых технологий. 2011. № 3/2 (51). С. 36-38. 3. Хан У., Мани И. Системы автоматического реферирования. 2000 . URL: http://www.osp.ru/os/2000/12/067_print.htm 4. Гинкул А. С. Сравнительный анализ существующих систем автоматического реферирования текста/Полiт. сучаснi проблеми науки. -Киев, 2012. С. 255. 5. Анно Е. Н. Система морфологического анализа с синтезом словоформ//Семиотика и информатика. 1978. Вып. 10. С. 168-187. 6. Monz C. Document retrieval in the context of question answering. Proc. of the 25th European Conference on Information Retrieval Research (ECIR-03). Lecture Notes in Computer Science 2633. In F. Sebastiani, ed. -Springer, 2003. p. 571-579. 7. Шокин Ю. И., Федотов А. М., Барахнин В. Б. Проблемы поиска информации. -Новосибирск: Наука, 2010. С. 125-129. 8. Белоногов Г. Г., Зеленков Ю. Г. Алгоритм автоматического анализа русских слов//Вопросы информационной теории и практики. 1985. № 53. С. 62-93. 9. Барахнин В. Б., Лукпанова Л. Х., Соловьев А. А. Алгоритм построения словоформ с использованием флективных классов для систем морфологического анализа казахского языка//Вестник НГУ. 2014. Т. 12. Вып. 2. С. 25-31. 10. Федотов А. М., Тусупов Д. А., Самбетбаева М. А., Еримбетова А. С., Бакиева А. М., Идрисова А. И. Модель определения нормальной формы слова для казахского языка//Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2015. Т. 13, Вып. 1. С. 107-116. 11. Барахнин В. Б., Бакиева А. М., Бакиева М. Н., Тажибаева С. Ж., Батура Т. В. Лукпанова Л. Х. Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов//Вычислительные технологии. 2017. Т. 22. № 4. С. 11-21. 12. Шарипбаев А. А., Бекманова Г. Т., Ергеш Б. Ж., Бурибаева А. К., Карабалаева М. Х. Интеллектуальный морфологический анализатор, основанный на семантических сетях//Материалы международной научно-технической конф. «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2012). Минск, БГУИР, 16-18 февраля 2012 г. С. 397-400. 13. Бурибаева А. К., Шарипбаев А. А., Бекманова Г. Т., Ергеш Б. Ж., Карабалаева М. Х. Аппаратная реализация синтеза словоформ казахского языка с помощью ассоциативной памяти//Вестник Евразийского национального университета им. Л. Н. Гумилева. 2012. Специальный выпуск. С. 180-183. 14. Заурбеков Д. Л., Кайракбай Б. М. Построение конечного преобразователя для морфологического анализа и генерации словоформ казахского языка//Materiały VIII Międzynarodowej naukowi-praktycznej konferencji «Wschodnie partnerstwo -2012». Przemyśl, 07-15 września 2012 r. Vol. 8. Filologiczne nauki. -Przemyśl: Nauka i studia, 2012. S. 30-39. 15. Porter M. F. An algorithm for suffix stripping//Program: Electronic Library and Information Systems. 1980. Vol. 14. № 3. P. 130-137. 16. Willett P. The Porter stemming algorithm: then and now//Program: Electronic Library and Information Systems. 2006. Vol. 40. P. 219-223. 17. Қазақ грамматикасы. Фонетика, сөзжасам, морфология, синтаксис. -Астана: Астана полиграфия, 2002. 18. Бектаев К. Большой казахско-русский, русско-казахский словарь. -Алматы, 1995. 19. Валяева Т. Грамматика казахского языка . URL: http://kaz-tili.kz/ 20. Бакиева А. М. Программа генерации и стемматизации словоформ казахского языка . URL: http://db4.sbras.ru/morpher |