Выявление дубликатов в разнородных библиографических источниках

Рубцов Д.Н.; Барахнин В.Б.

Инд. авторы:	Рубцов Д.Н., Барахнин В.Б.
Заглавие:	Выявление дубликатов в разнородных библиографических источниках
Библ. ссылка:	Рубцов Д.Н., Барахнин В.Б. Выявление дубликатов в разнородных библиографических источниках // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2009. - Т.7. - № 3. - С.86-93. - ISSN 1818-7900. - EISSN 2410-0420.
Внешние системы:	РИНЦ: 12916776;
Реферат:	rus: При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк. С учетом требований конкретной задачи - усовершенствования информационной системы «Научные сотрудники - математики СО РАН» - реализован метод решения, основанный на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк. Метод был протестирован на трёх базах данных публикаций СО РАН - Базе данных публикаций журнала «Вычислительные технологии», Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы «Web-ресурсы математического содержания». По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы «Научные сотрудники - математики СО РАН» и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики. eng: When performing queries to multiple heterogeneous bibliographic sources the problem of repetitive records arises. The problems appearing in the process of detection of fuzzy match between two records are analyzed in this paper. The existing methods and algorithms of duplicate elimination and in particular the approaches to determination and calculation of string similarity function are considered. Taking into account the requirements of the concrete task of modernization of the information system «Mathematicians of SB RAS» the solution method was realized based on the use of longest common subsequence as string similarity function. The proposed method was tested on three SB RAS databases - Database of publications of Journal «Computational Technologies», Database of publications of employees of The Institute of Computational Technologies SB RAS and Database of publications of «Web-resources of the mathematical content». The method showed high efficiency on results of the testing and was applied for the information system «Mathematicians of SB RAS» and the integrated system of remote access to the heterogenous bibliographic resources which is being developed at the present moment.
Ключевые слова:	similarity; fuzzy match; выявление дубликатов; мера сходства; нечеткое соответствие; duplicate detection;
Издано:	2009
Физ. характеристика:	с.86-93
Цитирование:	1. Rahm E., Hai Do H. Data Cleaning: Problems and Current Approaches // IEEE Data Engineering Bulletin. 2000. № 23 (4). P. 3-13. 2. Бойцов Л. М. Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска // Тр. Всеросс. конф. RCDL'2004. [Электронный ресурс]. Режим доступа: http://www.rcdl.ru//papers/2004/paper27.pdf. 3. Graham A. «String Search» Technical Report TR-92-gas-01, School of Electronic Engineering Science, University College of North Wales: пер. М. С. Галкиной / Под ред. П. Н. Дубнера [Электронный ресурс]. Режим доступа: http://infoscope.ws/string_search/Stephen-92/index.html. 4. Ratcliff J., Metzener D. Pattern Matching: The Gestalt Approach // Dr. Dobb's Journal. July, 1988. P. 46. 5. Цыганов Н. Л., Циканин М. А. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя // Интернет-математика 2007: Сб. работ участников конкурса. Екатеринбург: Изд-во Урал. ун-та, 2007. С. 211-222. 6. Wagner R. A., Fisher M. J. The String to String Correction Problem // Journal of the ACM. 1974. Vol. 21 (1). P. 168-173. 7. Smith T. F., Waterman M. S. Identification of Common Molecular Subsequences // Journal of Molecular Biology. 1981. Vol. 147. P. 195-197. 8. Navarro G. A. Guided Tour to Approximate String Matching // ACM Computing Surveys. 2001. Vol. 33 (1). P. 31-88. 9. Hyyro H. Bit-parallel LCS-length computation revisited // Proc. 15th Australasian Workshop on Combinatorial Algorithms (AWOCA 2004). 2004. [Электронный ресурс]. Режим доступа: http://www.cs.uta.fi/~helmu/pubs/pubs.html. 10. Цыганов Н. Л. Методика поиска дублирующихся записей с помощью алгоритма нечеткого сопоставления строк // Научная сессия МИФИ - 2007: Сб. науч. тр. М.: МИФИ, 2007. Т. 2: Технологии разработки программных систем. Информационные технологии. С. 159−160. 11. Гула А. Ю., Игнатенко А. П., Чадюк А. В. Задача идентификации физических и юридических лиц в хранилищах данных // VI Междунар. конф. по программированию УкрПРОГ'2008, 27-29 мая 2008 года, Киев, Украина. [Электронный ресурс]. Режим доступа: http://eprints.isofts.kiev.ua/416/. 12. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3-9.