Инд. авторы: | Князева А.А., Турчановский И.Ю., Колобов О.С. |
Заглавие: | Выявление дубликатов в библиографических базах данных |
Библ. ссылка: | Князева А.А., Турчановский И.Ю., Колобов О.С. Выявление дубликатов в библиографических базах данных // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL'2013. - 2013. - Ярославль: Ярославский государственный университет им. П.Г. Демидова. - С.276-282. - ISBN: 978-5-8397-1004-7. |
Внешние системы: | РИНЦ: 21657642; |
Реферат: | rus: В работе рассматривается задача выявления дублирующихся записей в электронном каталоге библиотеки. Предлагается модель выявления дубликатов, основанная на обучении с учителем. Обучающая выборка, позволяющая настроиться на особенности конкретных баз данных, строится на основе тех записей, для которых известен идентификатор ISBN или ISSN. Далее вычисленные на основе обучающей выборки весовые коэффициенты используются для работы с записями, в которых отсутствуют идентификаторы ISBN и ISSN. eng: The problem of identification of duplicate documents in the electronic catalog of the library is considered. A model to identify duplicates based on supervised learning is proposed. The training set to configure the specific features of the database is built on the basis of those documents, which is known identifier ISBN or ISSN. Next, calculated on the basis of training sample weights are used to work with documents that do not have ISBN or ISSN. |
Издано: | 2013 |
Физ. характеристика: | с.276-282 |
Конференция: | Название: XV Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» Аббревиатура: RCDL`2013 Город: Ярославль Страна: Россия Даты проведения: 2013-10-14 - 2013-10-17 Ссылка: http://rcdl2013.uniyar.ac.ru |
Цитирование: | 1. Рубцов Д.Н., Барахнин В.Б. Выявление дубликатов в разнородных библиографических источниках//Вестник НГУ. Сер.: Информационные технологии. -2009. -Т. 7. -Вып.: 3. -С. 86-93. 2. Winkler, W. E. Overview of Record Linkage and Current Research Directions. Research Report Series, RRS: Statistics #2006-2. http://www.census.gov/srd/papers/pdf/rrs2006-02.pdf. 3. Volz J. Silk -a link discovery framework for the web of data [Electronic resource]/J. Volz//Proc. WWW 2009 workshop on linked data on the web (LDOW 2009), Madrid, Spain, Apr. 20, 2009. -[Madrid], 2009. -6 p. -(CEUR workshop proc.; vol. 538). -URL: http://events.linkeddata.org/ldow2009/papers/ldow2009_paper13.pdf, free. -Tit. from the screen (usage date: 04.06.2013). 4. Talburt J. Entity resolution and information quality/John R. Talburt. -San Francisco:Morgan Kaufmann/Elsevier, 2011. -256 p. 5. Jaro M. A. Probabilistic linkage of large public health data files/M. A. Jaro//Statistics in medicine. -1995. -Vol. 14. -P. 491-498. 6. Christen P. Febrl -freely extensible biomedical record linkage [Electronic resource]: release 0.3.1, July 1, 2005/P. Christen, T. Churches//Austral. nat.univ. (ANU), Research school of computer sci.: [site]. -Canberra: ANU, 2013. -URL:http://cs.anu.edu.au/Peter.Christen/Febrl/febrl-0.3/febrldoc-0.3, free. -Tit. from the screen(usage date: 04.06.2013). 7. Jurczyk P. FRIL: a tool for comparative recordlinkage [Electronic resource]/P. Jurczyk [etal.]//AMIA: Annu. symp. proc./Amer.med. informatics assoc. (AMIA). -[Bethesda]: AMIA, 2008. -Vol. 2008. -P. 440-444. -URL:http://www.ncbi.nlm.nih.gov/pmc/articles/al.] PMC2656092/pdf/amia-0440-s2008.pdf, free. -Tit. from the screen (usage date: 04.06.2013). 9. Bachteler T. Merge ToolBox -MTB. Getting Started [Electronic resource]: record linkage software/T. Bachteler; German record linkage center. -Vers. 0.74. -Duisburg: [RLC], 2012 (May, 25). -12 [3] p. -URL: http://www.unidue.de/hq0215/documents/mtb_gettingstarted.pdf, free. -Tit. from the screen (usage date: 04.06.2013). 10. Hylton J. A. Identifying and merging related bibliographic records : [Electronic resource] : thes. submitted . . . for the degrees of MENG in EECS and BS CSE / Jeremy A. Hylton ; Mass. Inst. Of Technology (MIT), Dept. of electrical eng. and computer sci. – [Cambridge, MA : MIT], 1996. – 99 ð. – (MIT-LCS-TR-678). – URL:http://publications.csail.mit.edu/lcs/pubs/pdf/MIT-LCS-TR-678.pdf, free. – Tit. from the screen (usage date: 04.06.2013). 11. Bilenko M. Learnable similarity functions and their application to record linkage and clustering [Electronic resource] : diss. . . . for the degree of DPh / Mikhail Yuryevich Bilenko ; Univ. of Texas. – Austin, 2006. – 136 p. – The electronic version of print. publ. – Access from ProQuest Dissertations and Theses. – Title from the screen. 12. Hammerton J. On generating large-scale ground truth datasets for the deduplication of bibliographic records/J. Hammerton, M. Granitzer, D. Harvey, M. Hristakeva,K. Jack//Proceedings of the 2nd International Conference on Web Intelligence, Mining and Semantics. -ACM, 2012. -18 p. 13. VIAF: The virtual international authority file [Electronic resource]: [offic. site]/OCLC: the world`s libraries -Dublin, 2010-2012. -URL: http://viaf.org, free. -Tit. from the screen (usage date: 04.06.2013). 14. Bennett R. VIAF (Virtual international authority file): linking the Deutsche Nationalbibliothek and Library of Congress name authority files/R. Bennett [et al.]//Int. cataloging and bibliographic control. -2007. -Vol. 36, 1. -P. 12-19. 15. Hamby R. 10 Percent Wrong for 90% Done: A Practical Approach to Collection Deduping//Computers in Libraries. -2012. -Ò. 32. -N. 4. -Ñ. 17-21. 16. Князева А.А., Турчановский И.Ю., Колобов О.С. Автоматическое связывание документов//Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL`2012. Переславль-Залесский, Россия, 15-18 октября 2012 г. Переславль-Залесский, 2012. -С. 360-369. |