Инд. авторы: Жижимов О.Л., Леонова Ю.В.
Заглавие: О географической привязке контента текстовых документов
Библ. ссылка: Жижимов О.Л., Леонова Ю.В. О географической привязке контента текстовых документов // Обработка пространственных данных в задачах мониторинга природных и антропогенных процессов (SDM-2019) [Электронный ресурс]: Сборник трудов всероссийской конференции (Бердск, 26.08-30.08.2019). - 2019. - Новосибирск: Институт вычислительных технологий Сибирского отделения РАН. - С.241-247. - ISBN: 978-5-905569-11-1.
Внешние системы: РИНЦ: 41376676;
Реферат: rus: Извлечение географических названий из произвольных текстовых документов имеет важное значение в задачах обработки больших массивов документов и привязки их контента к определенному географическому региону. В самом простом виде модель извлечения географических названий из текста выглядит как последовательность действий с текстом, при этом на каждом этапе решается своя задача. Среди этих задач, несомненно, присутствуют: парсинг текста, анализатор элементов текста, обработка синонимов и сокращений, приведение элементов текста к нормальной форме с возможных словоформ и правил грамматики, сравнение элементов текста с элементами словарей географических названий, добавление в текст специальных меток для однозначной идентификации географических названий. В предлагаемой работе описана технология, реализующая перечисленные выше задачи на базе свободно распространяемой СУБД PostgreSQL. При этом используюется стандартная конфигурация, все настройки серверной части выполнены в рамках штатных документированных процедур. В качестве авторитетной базы данных географических названий применены база данных GeoNames Gazetteer, базы данных Open Street Map (OSM), классификаторы ОКАТО и КЛАДР.
Ключевые слова: обработка текста; модель извлечения названий; полнотекстовый поиск; географические названия; postgreSQL; географический поиск;
Издано: 2019
Физ. характеристика: с.241-247
Конференция: Название: Всероссийская конференция с международным участием «Обработка пространственных данных в задачах мониторинга природных и антропогенных процессов»
Аббревиатура: SDM-2019
Город: Бердск, Новосибирская область
Страна: Россия
Даты проведения: 2019-08-26 - 2019-08-30
Ссылка: http://conf.nsc.ru/SDM-2019
Цитирование: 1. Жижимов О.Л., Мазов Н.А. Проблемы географической привязки цифровых объектов в электронных библиотеках // Тр. XII Всерос. науч. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2010). Казань, 2010. С. 207-214. 2. Барахнин В.Б., Жижимов О.Л., Куперштох А.А., Скачков Д.М., Федотов А.М. Алгоритм извлечения из текстовых документов географических названий, отражающих содержание // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2012. Т. 10, № 1. С. 109-120. 3. Общероссийский классификатор объектов административно-территориального деления (ОК 019-95). http://protect.gost.ru/document.aspx?control=20&id= 134377. 4. Класификатор адресов Российской Федерации (КЛАДР). http://kladr-rf.ru. 5. The GeoNames geographical database. http://www.geonames.org. 6. Open Street Map. http://wiki.openstreetmap.org. 7. Getty Thesaurus of Geographic Names (TGN). http://www.getty.edu/research/tools/vocabularies/tgn/index.html. 8. Государственный каталог географических названий, РосРеестр. https://rosreestr.ru/site/activity/ geodeziya-i-kartografiya/naimenovaniya-geograficheskikh-obektov/gosudarstvennyy-katalog-geograficheskikh-nazvaniy. 9. Бартунов О., Сигаев Ф. Введение в полнотекстовый поиск в PostgreSQL. http://citforum.ru/database/postgres/fts/bib.shtml. 10. Основные правила написания географических названий. http://www.wikiznanie.ru/ru-wz/index.php/Основные_правила_написания_географических_названий.