Инд. авторы: | Жижимов О.Л. |
Заглавие: | Технология извлечения географических названий из текстовых документов на основе инструментария PostgreSQL |
Библ. ссылка: | Жижимов О.Л. Технология извлечения географических названий из текстовых документов на основе инструментария PostgreSQL // Вестник Восточно-Казахстанского государственного технического университета им. Д. Серикбаева. - 2018. - Т.1. - № 3-1. - С.195-203. - ISSN 1561-4212. - EISSN 2789-8210. - http://elib.ict.nsc.ru/jspui/bitstream/ICT/1879/13/Part1_195-203.pdf |
Внешние системы: | РИНЦ: 36339600; |
Реферат: | rus: Извлечение географических названий из произвольных текстовых документов имеет важное значение в задачах обработки больших массивов документов и привязки их контента к определенному географическому региону. В самом простом виде модель извлечения географических названий из текста выглядит как последовательность действий с текстом, при этом на каждом этапе решается своя задача. Среди этих задач, несомненно, присутствуют: парсинг текста, анализатор элементов текста, обработка синонимов и сокращений, приведение элементов текста к нормальной форме с возможных словоформ и правил грамматики, сравнение элементов текста с элементами словарей географических названий, добавление в текст специальных меток для однозначной идентификации географических названий. В предлагаемой работе описана технология, реализующая перечисленные выше задачи на базе свободно распространяемой СУБД PostgreSQL. При этом используюется стандартная конфигурация, все настройки серверной части выполнены в рамках штатных документированных процедур. В качестве авторитетной базы данных географических названий применены база данных GeoNames Gazetteer, базы данных Open Street Map (OSM), классификаторы ОКАТО и КЛАДР. |
Ключевые слова: | географические названия; географический поиск; обработка текста; модель извлечения названий; полнотекстовый поиск; PostgreSQL; |
Издано: | 2018 |
Физ. характеристика: | с.195-203 |
Ссылка: | http://elib.ict.nsc.ru/jspui/bitstream/ICT/1879/13/Part1_195-203.pdf |
Конференция: | Название: Международная конференция «Вычислительные и информационные технологии в науке, технике и образовании» Аббревиатура: CITech-2018 Город: Усть-Каменогорск Страна: Казахстан Даты проведения: 2018-09-25 - 2018-09-28 Ссылка: http://www.do.ektu.kz/citech-2018 |
Цитирование: | 1. Жижимов О. Л., Мазов Н. А. Проблемы географической привязки цифровых объектов в электронных библиотеках. Тр. XII Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2010). Казань, с. 207–214. (2010). 2. Барахнин В.Б., Жижимов О.Л., Куперштох А.А., Скачков Д.М., Федотов А.М. Алгоритм извлечения из текстовых документов географических названий, отражающих содержание. Вестник Новосибирского государственного университета. Серия: Информационные технологии, Т.10, № 1, С.109-120. (2012). 3. Общероссийский классификатор объектов административно-территориального деления (ОК 019-95), http://protect.gost.ru/document.aspx?control=20&id=134377. 4. Класификатор адресов Российской Федерации (КЛАДР), http://kladr-rf.ru. 5. The GeoNames geographical database, http://www.geonames.org// 6. Open Street Map, http://wiki.openstreetmap.org. 7. Getty Thesaurus of Geographic Names (TGN), http://www.getty.edu/research/tools/vocabularies/tgn/index.html. 8. Государственный каталог географических названий, РосРеестр, https://rosreestr.ru/site/activity/geodeziya-i-kartografiya/naimenovaniya-geograficheskikh-obektov/gosudarstvennyy-katalog-geograficheskikh-nazvaniy/. 9. Бартунов О., Сигаев Ф. Введение в полнотекстовый поиск в PostgreSQL, http://citforum.ru/database/postgres/fts/bib.shtml. |