Инд. авторы: Борисова И.А., Кутненко О.А.
Заглавие: Цензурирование ошибочно классифицированных объектов выборки
Библ. ссылка: Борисова И.А., Кутненко О.А. Цензурирование ошибочно классифицированных объектов выборки // Машинное обучение и анализ данных. - 2015. - Т.1. - № 11. - С.1632-1641. - EISSN 2223-3792.
Внешние системы: РИНЦ: 24931585;
Реферат: rus: Рассматривается задача цензурирования выборок, изначально содержащих значительное число неверно классифицированных объектов. Предложен алгоритм цензурирования, ориентированый только на локальные характеристики объектов выборки. Для оценки вероятности принадлежности объекта к одному из двух образов используется тернарная относительная мера - функция конкурентного сходства (function of rival simularity - FRiSфункция). В фиксированном признаковом пространстве цензурирование состоит в последовательном удалении объектов, максимально ухудшающих качество описания выборки (или оценку разделимости классов). Результаты тестирования алгоритма на широком спектре модельных задач позволили сделать вывод, что объекты, удаленные до точки перегиба функции, описывающей разделимость классов, как правило, являются выбросами, искажающими структуру данных.
eng: Background: The problem of outliers detection is one of the important problems in Data Mining. Here, outliers are considered as initially misclassified objects of the dataset. Such objects in small datasets can seriously interrupt the process of classification. This paper describes an algorithm of censoring such data, focusing only on the local characteristics of objects in the dataset. Methods: Censoring procedure in a fixed feature space consists of sequential removals of objects, which deteriorate the quality of dataset description (a value of classes’ separability) in the strongest way. This value depends on the number of objects in the dataset and similarity of objects with their class in competition with the rival class. To evaluate the similarity of the object with class in competition with class 𝐵, the ternary relative measure called the function of rival similarity (FRiS-function) is used. Results: The proposed algorithm was tested on a wide range of model problems. Accuracy of nearest neighbors classification before and after outliers elimination from the datasets was in use to estimate efficiency of the censoring algorithm. In the most tasks, it is appeared to be improvement in classification accuracy after censoring. Analysis of objects which were recognized as outliers showed up to 96% sensitivity and 99% specificity. Concluding Remarks: According to the obtained results, it is possible to conclude that the objects, which were deleted before the inflection point of the classes separability function, usually distort the structure of the data. Therefore, their exclusion from the analyzed dataset increases the reliability of recognition.
Ключевые слова: распознавание образов; компактность образов; разделимость классов; функция конкурентного сходства; анализ данных; class separability; function of rival similarity; data mining; classification; Outliers detection; compactness; цензурирование объектов;
Издано: 2015
Физ. характеристика: с.1632-1641
Цитирование: 1. Zagoruiko N.G., Borisova I.A., Dyubanov V.V., Kutnenko O.A. A quantitative measure of compactness and similarity in a competitive space // J. Appl. Ind. Math., 2011. Vol. 5. No.1. Р. 144-154. 2. Hawkins D. Identification of outliers. - London, U.K.: Chapman and Hall, 1980. 3. Aggarwal C. C. Outlier analysis. - Springer, 2013. 4. Barnett V., Lewis T. Outliers in statistical data. - New York, NY, USA: John Wiley, 1994. 5. Knorr E., Ng R. Algorithms for mining distance-based outliers in large datasets // 24th Conference (International) on Very Large Data Bases (VLDB) Proceedings, 1998. P. 392-403. 6. Загоруйко Н.Г., Кутненко О.А. Цензурирование обучающей выборки // Вестник Томского государственного университета. Управление, вычислительная техника и информатика, 2013. №1(22). С. 66-73. 7. Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. - М.: Наука, 1964. 8. Субботин С. А. Комплекс характеристик и критериев сравнения обучающих выборок для решения задач диагностики и распознавания образов // Математичнi машини i системи, 2010. №1. С. 25-39. 9. Zagoruiko N.G., Borisova I.A., Dyubanov V.V., Kutnenko O.A. A construction of a compressed description of data using a function of rival similarity // J. Appl. Ind. Math., 2013. Vol. 7. No.2. Р. 275-286. 10. Zagoruiko N.G., Borisova I.A., Dyubanov V.V., Kutnenko O.A. Methods of recognition based on the function of rival similarity // Pattern Recognition Image Anal., 2008. Vol. 18. No.1. P. 1-6. 11. Загоруйко Н.Г., Кутненко О.А., Зырянов А.О., Леванов Д.А. Обучение распознаванию без переобучения // Машинное обучение и анализ данных, 2014. Т. 1. №7. С. 891-901.