Инд. авторы: Князева А.А., Турчановский И.Ю., Колобов О.С., Жижимов О.Л.
Заглавие: Опыт идентификации персон для CRIS-систем
Библ. ссылка: Князева А.А., Турчановский И.Ю., Колобов О.С., Жижимов О.Л. Опыт идентификации персон для CRIS-систем // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XVI Всероссийской научной конференции RCDL-2014. - 2014. - Дубна: Объединенный институт ядерных исследований. - С.207-213. - ISBN: 978-5-9530-0397-1.
Внешние системы: РИНЦ: 22754568;
Реферат: rus: В данной работе приводится описание системы идентификации персон, которая создавалась в процессе разработки Единого репозитория результатов научно-технической деятельности (РНТД) в ИВТ СО РАН. Кратко описываются принципы и методы, используемые при создании системы, а также ее структура. Описан алгоритм создания авторитетной базы данных с описаниями персон в автоматическом режиме, без участия пользователя. Для выявления нечетких дубликатов в упоминаниях персон использовались индексирование по биграммам и расстояние редактирования.
eng: The system of persons identification, which was created in the process of developing a union repository of scientific and technical activities (RSTA) in ICT SB RAS, is described in this paper. The principles and methods used to create the system as well as its structure are briefly described. An algorithm for establishing a authoritative database with descriptions of persons automatically, without user intervention, is given. Indexing bigrams and edit distance were used for detect near-duplicate references to persons.
Издано: 2014
Физ. характеристика: с.207-213
Конференция: Название: XVI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции»
Аббревиатура: RCDL`2014
Город: Дубна
Страна: Россия
Даты проведения: 2014-10-13 - 2014-10-16
Ссылка: http://rcdl2014.jinr.ru
Цитирование: [1] Умаров А.С., Попова Н.В., Зелепухина В.А. Некоторые аспекты создания информационных систем для сбора и хранения научнойи наукометрической информации // Прикаспийский журнал: управление и высокие технологии. – 2013. – № 3 (23). – С. 111-118. [2] Scopus. http://www.scopus.com [3] Thomson Reuters Web of Science. http://thomsonreuters.com/products_services/science/science_products/a-z/web_of_science/ [4] ResearchGate. http://researchgate.net [5] SciVerse. http://www.info.sciverse.com [6] CrossRef. http://crossref.org [7] CRIS concept and CRIS benefits. http://www.eurocris.org/Index.php?page=concepts_benefits&t=1 [8] Астраханский государственный университет. Результаты научной деятельности. http://science.aspu.ru [9] Guskov A.E., Zhizhimov O.L., Kikhtenko V., Skachkov D.M., Kosyakov D. RuCRIS: A Pilot CERIF based System to Aggregate Heterogeneous Data of Russian Research Projects // Procedia Computer Science. - 2014. - Vol.33. - P.163-167. - ISSN 1877-0509. - http://www.sciencedirect.com/science/article/pii/S1877050914008175/pdf?md5=d74bdd8e7724f217d214b6aaff40c1eapid=1-s2.0-S1877050914008175-main.pdf [10] Паринов С.И., Когаловский М.Р. Технология семантического структурирования контента научных электронных библиотек /Труды XIII Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции – RCDL-2011. Воронеж, 19-22 октября 2011 г.». – г. Воронеж: Воронежский государственный университет, 2011. [11] Когаловский М.Р., Паринов С.И. Классификация и использование семантических связей между информационными объектами в научных электронных библиотеках //Информатика и ее применения, 2012. Т. 6. Вып. 3. С.31-41. [12] Talburt J. Entity resolution and information quality / John R. Talburt. – San Francisco: Morgan Kaufmann/Elsevier, 2011. – 256 p. [13] Winkler W.E. Overview of record linkage and current research directions [Electronic resource] : tech. report / W.E. Winkler ; U.S. Census Bureau, Stat. res. div. – Washington : [s. n.], 2006. – 44 p. http://www.census.gov/srd/papers/pdf/rrs2006-02.pdf [14] Elmagarmid A., Ipeirotis P., Verykios V. (2007). Duplicate Record Detection: A survey. IEEE Transactions on Knowledge and Data Engineering 19(1):1-16. [15] Bilenko M. Learning to Combine Trained Distance Metrics for Duplicate Detection in Databases / M. Bilenko, R. Mooney. Technical Report AI-02-296, Artificial Intelligence Lab, University of Texas at Austin, 2002. [16] Sarawagi S. Interactive deduplication using active learning / S. Sarawagi, A. Bhamidipat // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. – P. 269–278. [17] Parinov S. Open Repository of Semantic Linkages. In: Proceedings of 11th International Conference on Current Research Information Systems e-Infrastructure for Research and Innovations (CRIS 2012), Prague 2012, http://socionet.ru/publication.xml?h=repec:rus:mqijxk:29. [18] Бездушный А.Н., Кулагин М.В., Серебряков В.А. и др. Предложения по наборам метаданных для научных информационных ресурсов // Вычислительные технологии – 2005. – T.10. – С. 29-48. [19] Кулагин М.В., Лопатенко А.С. Научные информационные системы и электронные библиотеки. Потребность в интеграции // Сборник трудов Третьей Всероссийской конференции по электронным библиотекам. RCDL’2001 Петрозаводск, 11-13 сентября 2001 г., с. 14-19. [20] Мазов Н.А., Гуреев В.Н. Проблемы идентификации метаданных в наукометрических базах данных Web of Knowledge, Scopus и РИНЦ на примере профилей авторов // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса: 19-я междунар. конф. «Крым 2012» (2-10 июня 2012 г., г. Судак): Труды конф. – М.: Изд-во ГПНТБ России, 2012. – С. 1-4. – http://www.gpntb.ru/win/interevents/crimea2012/disk/124.pdf [21] Гуреев В.Н., Мазов Н.А. Идентификаторы в информационных библиографических системах: проблемы и решения // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса: 21-я междунар. конф. «Крым 2014» (9-12 июня 2012 г., г. Судак): Труды конф. – М.: Изд-во ГПНТБ России, 2014.– С. ___. – http://www.gpntb.ru/win/interevents/crimea2014/disk/066.pdf [22] CERIF. http://www.eurocris.org/Index.php?page=CERIFreleases&t=1 [23] CERIF in Brief. http://cerifsupport.org/cerif-in-brief/ [24] Jaro M. A. Advances in Record Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida. Journal of the American Statistical Society, 84(406): 414-420, 1989. [25] Hernandez M. A., Stolfo S. J. Real-world data is dirty: data cleansing and the merge/purge problem. Journal of Data Mining and Knowledge Discovery, 1(2), 1998. [26] Christen P., Churches T. Febrl: Freely extensible biomedical record linkage Manual, release 0.2.2 edition, November 2003. [27] Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В. И. Левенштейн // Докл. Акад. наук СССР. – 1965. – Т. 163, № 4. – С. 845–848. [28] Manning C., Raghavan P., Schutze H.Introduction to Information Retrieval. - Cambridge University Press, 2008. – ISBN 0-521-86571-9. [29] Российский коммуникативный формат (RUSMARC) [Электронный ресурс] : [сайт] / Мин-во культуры Рос. Федерации, Рос. библ. ассоц., Нац. Служба развития системы форматов RUSMARC. http://www.rusmarc.ru/index.html