Применение морфологического анализатора казахского языка для извлечения фактов из фактографических систем

Мансурова М.Е.; Койбагаров К.Ч.; Барахнин В.Б.; Солтангельдинова М..; Бердибеков С..

Инд. авторы:	Мансурова М.Е., Койбагаров К.Ч., Барахнин В.Б., Солтангельдинова М.., Бердибеков С..
Заглавие:	Применение морфологического анализатора казахского языка для извлечения фактов из фактографических систем
Библ. ссылка:	Мансурова М.Е., Койбагаров К.Ч., Барахнин В.Б., Солтангельдинова М., Бердибеков С. Применение морфологического анализатора казахского языка для извлечения фактов из фактографических систем // Материалы Международной научной конференции «Информатика и прикладная математика», посвященной 25-летию независимости Республики Казахстан и 25-летию Института информационных и вычислительных технологий. Алматы, 21-24 сентября 2016 года. - 2016. - Алматы. - С.156-165. - ISBN: 978-601-280-767-7.
Реферат:	rus: В данной работе описана параллельная реализация алгоритма FRiS-Tax для кластеризации корпуса документов. Алгоритм основан на оценке сходства между объектами в конкурентной ситуации, которая приводит к понятию функции конкурентного сходства (FRiS-функции). В качестве шкал для определения меры сходства были выбраны атрибуты библиографического описания документов. Распараллеливание осуществляется на этапе настройки коэффициентов в формуле меры сходства генетического алгоритма, а также непосредственно на этапе кластеризации. Алгоритм кластеризации реализован на высокопроизводительной платформе MPJ Express. Приведены количественные оценки времени выполнения процесса, демонстрирующие преимущества параллельной реализации алгоритма.
Ключевые слова:	кластеризация текстовых документов; генетические алгоритмы; параллельные алгоритмы;
Издано:	2016
Физ. характеристика:	с.156-165
Конференция:	Название: Международная научная конференция «Информатика и прикладная математика», посвященная 25-летию независимости Республики Казахстан и 25-летию Института информационных и вычислительных технологий Город: Алматы Страна: Казахстан Даты проведения: 2016-09-21 - 2016-09-24
Цитирование:	1. Борисова И. А., Загоруйко Н. Г. Функции конкурентного сходства в задаче таксономии//Материалы Всерос. конф. с международным участием «Знания -Онтологии -Теории» (ЗОНТ-07). Новосибирск, 2007. Т. 2. С. 67-76. 2. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов//Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3-9. 3. Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачев Д.А. Кластеризация текстовых документов из электронной базы публикаций алгоритмом FRiS-Tax//Вычислительные технологии. -Т. 18, № 6, 2013. -С. 62-74. 4. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы/Под ред. В.М. Курейчика. -2-е изд., испр. и доп. -М.: ФИЗМАТЛИТ, 2006. -320 с. 5. Википедия: Расстояние Левенштейна. URL: https://en.wikipedia.org/wiki/Levenshtein_distance (дата обращения: 01.02.2016) 6. Andrei Z. Broder, Identifying and Filtering Near-Duplicate Documents/Proceedings of the 11th Annual Symposium on Combinatorial Pattern Matching Table of Contents, Pages: 1-10. 7. Оценка кластеризации. URL: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-ofclustering-1.html (дата обращения: 01.02.2016) 8. Bäck, Thomas, Evolutionary Algorithms in Theory and Practice (1996), p. 120, Oxford Univ. Press. 9. MPJ-Express. URL: http://mpj-express.org/(дата обращения: 01.02.2016) 10. Processing Data with Java SE 8 Streams. URL: http://www.oracle.com/technetwork/articles/java/ma14-java-se-8-streams-2177646.html (дата обращения: 01.02.2016)