Инд. авторы: | Рубцов Д.Н., Барахнин В.Б. |
Заглавие: | О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам |
Библ. ссылка: | Рубцов Д.Н., Барахнин В.Б. О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2009) (Петрозаводск, Россия, 17.09 - 21.09.2009): Труды конференции. Петрозаводск, 2009. - С.293-298. |
Внешние системы: | РИНЦ: 22521606; |
Реферат: | rus: При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк.
С учетом требований конкретной задачи – усовершенствования информационной системы “Научные сотрудники - математики СО РАН” - реализован метод решения, основанный на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк. Метод был протестирован на трёх базах данных публикаций СО РАН – Базе данных публикаций журнала “Вычислительные технологии”, Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы “Web-ресурсы математического содержания”. По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы “Научные сотрудники – математики СО РАН” и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики.
|
Издано: | Петрозаводск: , 2009 |
Физ. характеристика: | с.293-298 |
Конференция: | Название: XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2009) Город: Петрозаводск Страна: Россия Даты проведения: 2009-09-17 - 2009-09-21 |
Цитирование: | 1. Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов//Вестник НГУ. Сер. Информационные технологии. 2008. Т. 6. Вып. 1. С. 3-9. 2. Бойцов Л.М. Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска//Труды Всероссийской конференции RCDL'2004. http://www.rcdl.ru//papers/2004/paper27.pdf 3. Гула А.Ю., Игнатенко А.П., Чадюк А.В. “Задача идентификации физических и юридических лиц в хранилищах данных”//Шестая международная конференция по программированию УкрПРОГ'2008, 27-29 мая 2008 года, Киев, Украина. http://eprints.isofts.kiev.ua/416/ 4. Цыганов Н.Л. Методика поиска дублирующихся записей с помощью алгоритма нечеткого сопоставления строк//Научная сессия МИФИ -2007. Сборник научных трудов. М.: МИФИ, 2007. Т.2: Технологии разработки программных систем. Информационные технологии. С. 159-160. 5. Цыганов Н.Л., Циканин М.А. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя//Интернет-математика 2007: Сб. работ участников конкурса. Екатеринбург: Изд-во Урал. ун-та, 2007. С. 211-222. 6. Graham A. “String Search” Technical Report TR-92-gas-01, School of Electronic Engineering Science, University College of North Wales (пер. Галкиной М.С., под ред. Дубнера П.Н.) http://infoscope.ws/string_search/Stephen-92/index.html 7. Hyyro H. Bit-parallel LCS-length computation revisited//Proc. 15th Australasian Workshop on Combinatorial Algorithms (AWOCA 2004), 2004. http://www.cs.uta.fi/~helmu/pubs/pubs.html 8. Jaro-Winkler distance http://en.wikipedia.org/wiki/Jaro-Winkler_distance 9. Navarro G. A Guided Tour to Approximate String Matching. ACM Computing Surveys. 2001. V.33(1). Р. 31-88. 10. Rahm E., Hai Do H. Data Cleaning: Problems and Current Approaches//IEEE Data Engineering Bulletin. 2000. V. 23(4): P. 3-13. 11. Ratcliff J., Metzener D. Pattern Matching: The Gestalt Approach//Dr. Dobb's Journal, page 46, July 1988. 12. Smith T.F. Identification of Common Molecular Subsequences//Journal of Molecular Biology. 1981. V.147: P. 195-197. 13. Soundex http://en.wikipedia.org/wiki/Soundex 14. Wagner R.A., Fisher M.J.//The String to String Correction Problem. Journal of the ACM. 1974. V 21(1). Р. 168-173. 15. Web-ресурс “Научные сотрудники -математики СО РАН” http://pine.ict.nsc.ru/sbras/math_soran/ |