Инд. авторы: Федотов А.М., Тусупов Д.А., Самбетбаева М.А., Еримбетова А.С., Бакиева А.М., Идрисова А.И.
Заглавие: Модель определения нормальной формы слова для казахского языка
Библ. ссылка: Федотов А.М., Тусупов Д.А., Самбетбаева М.А., Еримбетова А.С., Бакиева А.М., Идрисова А.И. Модель определения нормальной формы слова для казахского языка // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2015. - Т.13. - № 1. - С.107-116. - ISSN 1818-7900. - EISSN 2410-0420.
Внешние системы: РИНЦ: 24172696;
Реферат: rus: Рассматриваются модели и существующие алгоритмы нормализации слов естественных языков. Описаны алгоритмы автоматического выделения основ для ряда естественных языков и возможные пути синтеза нормальной формы слова для казахского языка. Разработаны правила нормализации слов для казахского языка и алгоритм для обработки как словарных, так и отсутствующих в словаре, в том числе несуществующих, слов. Создан тезаурус научно-технических терминов по информационным технологиям на казахском языке и для него реализована система нормализации, доказывающая работоспособность разработанного алгоритма.
eng: In this work considers the methods and research of the existing algorithms of normalization of words of natural languages and its realization for the Kazakh language. Details are described algorithms automatically extract the foundations for a number of natural languages and the possible ways of determining the normal form of the word. The algorithm and the rules of normalization of words for the terms included in the thesaurus domain. Implemented a system of normalization of scientific and technical terms in the Kazakh language, proving performance of the proposed algorithm.
Ключевые слова: algorithms of allocation basics; normalization of words; themorphologyoftheKazakhlanguage; синтез нормальной формы слова; алгоритм автоматического выделения основ; нормализация слов; морфология казахского языка; synthesis of a normal form;
Издано: 2015
Физ. характеристика: с.107-116
Цитирование: 1. Шокин Ю. И., Федотов А. М., Барахнин В. Б. Проблемы поиска информации. Новосибирск: Наука, 2010. 196 с. 2. Porter M. F. An algorithm for suffix stripping // Program.1980, Т.14, №3. Р. 130-137. 3. Willett P. The Porter stemming algorithm: then and now // Program: Electronic Library and Information Systems.2006. В. 3, Vol.40, С. 219-223. 4. Segalovich I. «A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine» MLMFA, 2003. Р. 273-280. 5. Сегалович И. В., Маслов М. А., Русский морфологический анализ и синтез с генерацией моделей словоизменения для неописанных в словаре слов. М.: Диалог, 1998. Т. 2. С. 547-552. 6. Казахская грамматика. Фонетика, словообразование, морфология, синтаксис. Астана, 2002. 7. Бектаев К. Большой казахско-русский, русско-казахский словарь. Алматы, 1995, 703 с. 8. Шарипбаев А. А., Бекманова Г. Т., Ергеш Б. Ж., Бурибаева А. К., Карабалаева М. Х. Интеллектуальный морфологический анализатор, основанный на семантических сетях // Материалы междунар. науч.-технич. конф. «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2012). Минск: БГУИР, 2012. С. 397-400.