Научная статья на тему 'Формирование и редукция выборок для интеллектуального анализа данных'

Формирование и редукция выборок для интеллектуального анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
424
87
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫБОРКА / ОТБОР ЭКЗЕМПЛЯРОВ / РЕДУКЦИЯ ДАННЫХ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / СОКРАЩЕНИЕ РАЗМЕРНОСТИ ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Субботин С. А.

Решена задача формирования и редукции выборок для интеллектуального анализа данных. Предложен метод формирования и редукции выборок, который обеспечивает сохранение в сформированной подвыборке важнейших топологических свойств исходной выборки, не требуя при этом загрузки в память ЭВМ исходной выборки, а также многочисленных проходов исходной выборки, что позволяет сократить объем выборки и уменьшить требования к ресурсам ЭВМ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Формирование и редукция выборок для интеллектуального анализа данных»

УДК 004.93

Субботин С.А.

Канд. техн. наук, доцент, Запорожский национальный технический университет, Украина,

E-mail: subbotin.csit@gmail.com.

ФОРМИРОВАНИЕ И РЕДУКЦИЯ ВЫБОРОК ДЛЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Решена задача формирования и редукции выборок для интеллектуального анализа данных. Предложен метод формирования и редукции выборок, который обеспечивает сохранение в сформированной подвыборке важнейших топологических свойств исходной выборки, не требуя при этом загрузки в память ЭВМ исходной выборки, а также многочисленных проходов исходной выборки, что позволяет сократить объем выборки и уменьшить требования к ресурсам ЭВМ.

Ключевые слова: выборка, отбор экземпляров, редукция данных, интеллектуальный анализ данных, сокращение размерности данных.

ВВЕДЕНИЕ

При решении задач интеллектуального анализа данных [1], в частности, задач построения моделей принятия решений на основе нейронных и нейро-нечетких сетей, а также деревьев решений [2-4] в различных прикладных областях нередко приходится оперировать выборками данных большого объема. Это влечет за собой существенные затраты времени на обработку данных, а также требует наличия значительных объемов оперативной и дисковой памяти ЭВМ. Поэтому актуальной задачей является сокращение размерности выборок данных [1-5].

Традиционным и наиболее широко применяемым подходом при решении данной задачи является использование методов отбора информативных признаков [1-5] (удаляют из исходного набора наименее информативные признаки) и методов конструирования признаков [5, 6] (заменяют исходный набор признаков рассчитанным на его основе набором искусственных признаков меньшего размера). Однако, если изначально заданный набор признаков не является избыточным, либо объем выборки (число экземпляров в ней) чрезвычайно велик для представления и обработки в памяти ЭВМ, применение этих методов оказывается чрезвычайно затруднительным, а результаты их работы либо приводят к потере существенной для дальнейшего анализа информации, либо не позволяют сохранить исходную интерпретабельность данных.

Другим, существенно реже используемым на практике, подходом при решении данной задачи является сокращение объема выборки. Как правило, это реализуется посредством извлечения случайных подвыборок из исходной выборки [7-9], что может приводить к формированию нерепрезентативных в топологическом смысле выборок вследствие невключения в них редко встречающихся экземпляров на границах классов, представленных в исходной выборке.

В [10-13] автором предложены переборные и эволюционные методы формирования выборок, а также модель (комплекс критериев) качества выборки, которые позволяют обеспечить формирование из исходной выборки подвыборок меньшего объема, обладающих в системе используемых критериев наилучшими свойствами. Однако для выборок очень большого объема применение данных методов и модели оказывается весьма затратным как с вычислительной точки зрения, так и с точки зрения ресурсов оперативной и дисковой памяти.

Целью данной работы является создание метода формирования и редукции выборок, позволяющего обрабатывать исходные выборки большого объема.

1. ПОСТАНОВКА ЗАДАЧИ

Пусть мы имеем исходную выборку X = <х, у> - набор £ прецедентов о зависимости у(х), х = {х5}, у={у*}, 5 = 1, 2, ..., 5, характеризующихся набором N входных признаков {х.},. = 1, 2, ..., N, где. - номер признака, и выходным признаком у. Каждый 5-й прецедент представим как <х, у>, х*={х*.}, где х*. - значение .-го входного, а у5 - значение выходного признака для *-го прецедента (экземпляра) выборки, у{1, 2, ..., К}, где К - число классов, К>1.

Тогда задача сокращения объема выборки может быть представлена как задача формирования (выделения) из исходной выборки X = <х, у> подвыборки X*, X СХ, меньшего объема 5* <5, обладающей наиболее важными свойствами исходной выборки.

Поскольку для задач интеллектуального анализа данных, связанных с автоматизацией поддержки принятия решений, наиболее важным является сохранение топологии классов, то формируемая подвыборка должна обеспечивать сохранение экземпляров исходной выборки, находящихся на границах классов.

© Субботин С. А., 20І3

2. МЕТОД ФОРМИРОВАНИЯ И РЕДУКЦИИ ВЫБОРОК БОЛЬШОГО ОБЪЕМА

Для обнаружения экземпляров, находящихся на границах классов, в общем случае необходимо решить задачу кластер-анализа, что требует определения расстояний между всеми экземплярами выборки. Это, в свою очередь, требует либо загрузки всей выборки в память ЭВМ (что не всегда возможно из-за ограниченного объема оперативной памяти), либо многократных проходов по исходной выборке (что вызывает значительные затраты машинного времени), а также приводит к необходимости хранить и обрабатывать матрицу расстояний между экземплярами большой размерности.

Для устранения отмеченных недостатков предлагается заменить обработку экземпляров на обработку их описаний в виде числовых скаляров, которые характеризуют положение экземпляров в пространстве признаков. При этом, заменив экземпляры, характеризующиеся N признаками, на представления в виде скаляров, мы отобразим ^мерное пространство признаков в одномерное пространство.

Исходная выборка, будучи отображенной в одномерное пространство, позволит выделить на одномерной оси интервалы ее значений, соответствующие кластерам разных классов в исходном ^мерном пространстве. Определив границы интервалов на одномерной оси, можно найти ближайшие к ним экземпляры, которые и составят формируемую подвыборку.

Приведенные выше идеи лежат в основе предлагаемого метода.

Этап инициализации. Задать исходную выборку данных X = <х, у>.

Этап анализа характеристик классов. Разбить выборку X на К подвыборок X(k), отдельных для экземпляров каждого класса:

X(к) = {X(к)и < х*, у* >| у* = к}, 5 = 1,2,..., 5; к = 1,2,..., К.

Для каждой подвыборки X(k) определить по каждому признаку его минимальное шт{х* | х* е X(к)}, максимальное тах{х* | х* е X (к)} и среднее значения для экземпляров соответствующего класса:

і S

Ckj = -F £{x'jj/ = kb

S s=1

Для каждой подвыборки X(к), к = 1, 2, ..., К, определить:

- частные поосевые нормированные расстояния от экземпляров до центров классов:

R(k)(s)j =

Ck - xs jj

max{xSj j xs є X(к)} - min{xsj j xs є X(к)}

ss s = 1,2,..., S, j = 1,2,..., N;

- нормированные расстояния экземпляров до центров классов:

1 N. .

Ч )(*) = - Ц Щк )(*). |, * = 1,2,..., 5;

j=1

- нормированные расстояния между экземплярами:

Щк )(*, *) = 0, * = 1,2,..., 5;

1 N. |

Щ(к) Р) = Щ(к)(P, *) = — Ц |Щ(к) (*) з - Щ(к)(Р) з \ ш з=1

* = 1,2,..., 5, р = * +1, * + 2,..., 5.

Этап устранения дублирующихся экземпляров. Целью этапа является выделение подмножеств эквивалентных и существенно похожих экземпляров и замена каждого такого подмножества на один его экземпляр-представитель.

Четкий дубляж: из каждой группы одинаковых экземпляров каждой подвыборки следует оставить только один экземпляр:

X(к) = X(к) \ {хр | х* е X(к), хр е X(к),

Щ(к )(*) = Щ(к)(РХ Щ(к )(s, Р) = 0}

5к > 1,к = 1,2,...,К,* = 1,2,...5,р = * +1,...,5.

Нечеткий дубляж: из каждой группы неодинаковых подобных экземпляров каждой подвыборки следует оставить только один экземпляр:

X(к) = X(к) \ {хр | р Ф в, х'* е X(к), хр е X(к),

Щ(к)(*) -Щ(к)(р)\ < е1 (к),Щ(к)(*, р) ^^2(к,*,р)},

5к > 1,к = 1,2,...,К,« = 1,2,...5,р = « +1,...,5,

где

е1(к) = , в2(к,5,р) = ехр(-|Щ(к)(*) -Щк)(р)1п5к).

Этап выделения граничных экземпляров. Целью данного этапа является выявление экземпляров, находящихся вблизи границ классов, что позволит устранить остальные экземпляры, находящиеся внутри области класса.

Вначале необходимо определить индексы для всех экземпляров выборки относительно центров всех под-выборок:

Is (к) = round(R(k )(s) ln Sk ) +— arccos

j=1

kxp

jxj

j=1 V j=1

где round - функция округления до ближайшего целого числа.

Это позволит отобразить исходную выборку на одномерные оси 1(к) (заметим, что при этом произойдет потеря части информации вследствие неявного квантования пространства признаков при преобразовании).

Просматривая каждую одномерную ось 1(к) можно выделить скопления (области пространства) близко расположенных экземпляров одного класса, выделив интервалы для каждого из них 7(к)={/;(к)}, где I (к) - 1-й интервал к-й оси, либо для простоты разбить эту ось на несколько равных интервалов и определить доминирующий класс в каждом из них.

До тех пор, пока Зк,к = 1,2,...,К: X(к) Ф 0, выполнять в цикле:

- если для области пространства, где расположены экземпляры к-го класса не существует попавших в нее экземпляров других классов (—З*, * = 1,2,..., 5: у* = к, I* (к) < 1р (к), Vp = 1,2,..., 5,« Ф р, ур = к), то данный класс расположен компактно и отделен от других классов. Следовательно, из экземпляров к-го класса в новую выборку следует включить лишь те экземпляры, которые находятся вблизи его внешней границы:

Н* Н* «л гл

X = X и{хр | р = 1,2,...,5: хр е X(к),

1р (к) ци* (к )| у* = к},

5 *=1

5

где а - задаваемый пользователем коэффициент, регулирующий долю помещаемых в новую выборку экземпляров к-го класса (например, можно рекомендовать задавать а = 1).

После чего необходимо исключить экземпляры к-го класса из дальнейшего рассмотрения:

X(к) = X(к)\{хр | ур = к, р = 1,2,...,5};

- если для области пространства, где расположены экземпляры к-го класса, существуют попавшие в нее экземпляры других классов (З*,р : * = 1,2,...,5,р = 1,2,...,5,

* Ф р, х* г X*, хр г X*,у* Ф к,ур = к,I* (к) < 1р (к)), но число экземпляров других классов 5* (к), попавших в область к-го класса невелико: 5* (к) <Р 5(к), где 5(к) - число экземпляров к-го класса, Р - заданный коэффициент (0<Р<1), то из экземпляров к-го класса в новую выборку следует включить лишь те экземпляры, которые находятся вблизи его внешней границы, а также экземпляры, ближайшие к экземплярам других классов: 1

ю(к ,/, т) =

шах

*=1,2,...,5:

{I* (к) - р (к )| у* е I, (к), у* е т (к)}

X = X и{хр|р = 1,2,...,5 :хр еX(k), 1р(к)> — Ц{1*(к)|у* = к},

5 *=1

X = X и {х1^ = 1,2,...,5,х1 г X,у1 = к,Зр,р = 1,2,...,5: ур ф к, |11 (к) - 1р (к )|<| I* (к) - 1р (к )|, V* = 1,2,..., 5, у* = к, * ф <?}.

Все экземпляры других классов, попавшие в область к-го класса, также следует включить в новую выборку:

X = X и{х* | * = 1,2,...,5,р = 1,2,...,5,* Ф р,

х* г X* у* Ф к,ур = к,I* (к) < 1р (к)};

- если для области пространства, где расположены экземпляры к-го класса, существуют попавшие в нее экземпляры других классов (З*,р : * = 1,2,..., 5,

р = ^..^S, * фр,х* гX*, хр гX*, у* Фк,ур = к, Iя (к) < Iр (к)), но число экземпляров других классов, попавших в область к-го класса велико (5* (к) > Р5(к)), то на оси !(к) следует выделить отдельные скопления экземпляров каждого класса и включить в новую выборку лишь те экземпляры, которые находятся вблизи его внешней границы, а также граничные экземпляры каждого интервала и экземпляры, ближайшие к ним:

X* = X* и {хр | р = 1,2,...,5 : хр е X(к),I1’(к) >

(к )| у* = к},

5 *=1

5

X = X и {х1 и х1

1, р = 1,2,..., 5,

х1 гX*,хр гX*,у1 = к, ур фк, т(х1, к) -т(хр, к) = 1, 11 (к) -1р (к)

< у (к, т (х1, к), т (хр, к ))| 15 (к) -1* (к)

у~ е гт(х1 ,к)(к),у* е гт(хр.к)(к),*,* = !,2,...,5},

т( хр ,к)

где т(х , к) =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I/,х* е ц(к), I = 1,2,...,Дк);

10, в противном случае;

Ь(к) - число интервалов значений, на которые разбита ось !(к), у - заданный коэффициент, регулирующий размер области вблизи межклассовых границ, экземпляры из которой включаются в формируемую выборку,

0 < у (к,/, т) < ю(к,/, т), где

*=1,С’, .5

0,тт {I*(к) -1*(к) ||у* е I,(к),у* е 1т(к)}

тш^ I* (к)-1* (к) |у* е I , (к), у* е 1т (к)}> 0;

После чего из дальнейшего рассмотрения следует исключить экземпляры к-го класса, а также те экземпляры остальных классов, которые были включены в новую выборку:

X(д) = X| 5 = 1,2,...,£,р = 1,2,...,£,5 Ф р,х* £ X*, У* = д, У* Ф к, ур = к,I* (к) < 1р (к)},д = 1,2,...,К,

X(к) = X(к)\{хр | хр еX*,р = 1,2,...,£}.

В результате выполнения предложенного метода будет сформирована выборка X‘£X.

3. АНАЛИЗ ВЫЧИСЛИТЕЛЬНОЙ И ПРОСТРАНСТВЕННОЙ СЛОЖНОСТИ МЕТОДА

Предложенный метод не требует хранения в памяти ЭВМ всей исходной выборки. На этапе анализа характеристик классов метод делает один проход по исходной выборке для определения значений ее характеристик. При этом для каждого класса определяются минимальное, максимальное и среднее значения каждого признака. Таким образом, при максимальной экономии оперативной памяти (исходная выборка размещается во внешней памяти) пространственная сложность этих действий составит О(3КЛ), а вычислительная - О(3КЖ£) без учета системных затрат на доступ ко внешней памяти.

Определение расстояний до центров классов характеризуется пространственной сложностью О(КЛБ + Ж +£!) и вычислительной сложностью О(2КШ +2ЖУ!).

Используя символ Ландау «О» в так называемом «мягком виде», оценим общую сложность данного этапа: пространственную - О(3КЖ+КЖ£+£К+£2), вычислительную - О(5КЛБ +2Л/5'2).

Этап устранения дубляжа не требует существенных затрат оперативной памяти, а его вычислительная сложность в предельном случае составит О(К^).

На этапе выделения граничных экземпляров метод делает один проход по исходной выборке для расчета значений одномерных индексов. Его вычислительная сложность составит О(6ЖЖ), а пространственная - О(£К).

Далее метод оперирует только множеством индексов. Его пространственной сложностью можно пренебречь, а вычислительную сложность грубо оценим как О(2^).

В итоге оценим общую сложность метода: вычислительную - О(11КЛ£ +£!(2Ж+К+2)), а пространственную -О(КЛ(£+3)+2£К+£2). Полагая из практических соображе-

ний для простоты К=2, N<<5 (например, N«0,015) и, обозначив размерность исходной выборки п=Ж5, получим оценки сложности метода: вычислительную -

0(0,0253+452+0,225)^ 0(20пл/й +400п+2,2^п), пространственную - 0(1,0252+4,065)0(102п+40,6).

4. ЭКСПЕРИМЕНТЫ И РЕЗУЛЬТАТЫ

Для экспериментальной проверки работоспособности предложенного метода была разработана его программная реализация на языке пакета МЛТЬЛБ, с помощью которой проводились эксперименты по сокращению объема выборок данных для различных практических задач [14-16], характеристики которых приведены в табл. 1.

Результаты проведенных экспериментов подтвердили работоспособность и практическую применимость предложенного метода, а также программного обеспечения, реализующего его. Как видно из таблицы, использование предложенного метода позволяет существенно сократить объем выборки (в 7,7-12,5 раз), не требуя при этом загрузки в память ЭВМ исходной выборки, а также многочисленных проходов по исходной выборке, что существенно снижает требования к ресурсам ЭВМ, обеспечивая при этом сохранение в сформированной под-выборке важнейших для последующего анализа топологических свойств исходной выборки.

ЗАКЛЮЧЕНИЕ

В работе решена актуальная задача формирования и редукции выборок для интеллектуального анализа данных.

Научная новизна результатов работы заключается в том, что впервые предложен метод формирования и редукции выборок, который обеспечивает сохранение в сформированной подвыборке важнейших для последующего анализа топологических свойств исходной выборки, не требуя при этом загрузки в память ЭВМ исходной выборки, а также многочисленных проходов по исходной выборке, что позволяет существенно сократить объем выборки, существенно уменьшает требования к ресурсам ЭВМ.

Практическая значимость результатов работы состоит в том, что разработано программное обеспечение, реализующее предложенный метод формирования и редукции выборок, а также проведены эксперименты по их исследованию при решении практических задач, результаты которых позволяют рекомендовать разработанный метод для использования на практике при решении задач интеллектуального анализа данных.

Таблица 1. Характеристики исходных и сформированных выборок

Задача К N 5 п 5* 5*/5

Классификация автотранспортных средств по изображению [14] 2 26 1062 27612 139 0,13

Диагностирование патологий плода по кардиотокограмме [15] 3 23 2126 48898 182 0,09

Предсказание типа лесного покрова [16] 7 54 581012 31374648 49386 0,08

СПИСОК ЛИТЕРАТУРЫ

1. Олійник, А. О. Інтелектуальний аналіз даних : навчальний посібник / А. О. Олійник, С. О. Субботін, О. О. Олійник. -Запоріжжя : ЗНТУ, 2012. - 271 с.

2. Рутковская, Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рутковская, М. Пилиньский, Л. Рутковский ; нер. с нольск. И. Д. Рудинского. - М. : Горячая линия - Телеком, 2004. - 452 с.

3. Интеллектуальные информационные технологии проектирования автоматизированных систем диагностирования и распознавания образов : монография / [С. А. Субботин, Ан. А. Олейник, Е. А. Гофман, С. А. Зайцев, Ал. А. Олейник ; нод ред. С. А. Субботина]. - Харьков : ООО «Компания Смит», 2012. - 317 с.

4. Прогрессивные технологии моделирования, оптимизации и интеллектуальной автоматизации этапов жизненного цикла авиационных двигателей : монография / [А. В. Бо-гуслаев, Ал. А. Олейник, Ан. А. Олейник, Д. В. Павленко, С. А. Субботин ; нод ред. Д. В. Павленко, С. А. Субботина]. - Запорожье : ОАО «Мотор Сич», 2009. - 468 с.

5. Субботин, С. А. Формирование выборок и анализ качества моделей на основе нейронных и нейро-нечетких сетей в задачах диагностики и распознавания образов / С. А. Субботин : монография. - Saarbrncken: LAP Lambert academic publishing, 2012. - 232 с.

6. Jensen, R. Computational intelligence and feature selection: rough and fuzzy approaches / R. Jensen, Q. Shen. - Hoboken: John Wiley & Sons, 2008. - 339 p.

7. Chaudhuri, A. Survey sampling theory and methods / A. Chaudhuri, H. Stenger. - New York: Chapman & Hall, 2005. - 416 p.

8. Encyclopedia of survey research methods / ed. P. J. Lavrakas. -Thousand Oaks: Sage Publications, 2008. - Vol. 1-2. - 968 p.

9. Кокрен, У. Методы выборочного исследования / У. Кок-рен ; нер. с англ. И. М. Сонина ; нод ред. А. Г. Волкова,

Н. К. Дружинина. - М. : Статистика, 1976. - 440 с.

10. Subbotin, S. A. The training set quality measures for neural network learning / S. А. Subbotin // Optical Memory and Neural Networks (Information Optics). - 2010. - Vol. 19. -№ 2. - P. 126-139.

11. Субботин, С. А. Комплекс характеристик и критериев сравнения обучающих выборок для решения задач диагностики и распознавания образов / С. А. Субботин // Математичні машини і системи. - 2010. - № 1. - С. 25-39.

12. Субботин, С. А. Критерии индивидуальной информативности и методы отбора экземпляров для построения диагностических и распознающих моделей / С. А. Субботин // Біоніка інтелекту. - 2010. - № 1. - С. 38-42.

13. Субботин, С. А. Методы формирования выборок для построения диагностических моделей по прецедентам / С. А Субботин // Вісник Національного технічного університету «Харківський політехнічний інститут» : зб. наук. нраць. - Харків: НТУ «ХПІ», 2011. - № 17. -C. 149-156.

14. Субботин, С. А. Синтез нейро-нечетких моделей для выделения и распознавания объектов на сложном фоне по двумерному изображению / С. А. Субботин // Комн ’ю-терне моделювання та інтелектуальні системи : збірник наукових праць за ред. Д. М. Пізи, С. О. Субботіна. -Запоріжжя : ЗНТУ, 2007. - С. 68-91.

15. Cardiotocography Data Set [Electronic resource]. - Access

mode: http://archive.ics.uci.edu/ml/datasets/

Cardiotocography.

16. Covertype Data Set [Electronic resource]. - Access mode: http://archive.ics.uci.edu/ml/datasets/Covertype.

Стаття надійшла до редакції 03.09.2012.

Субботін С. О.

Канд. техн. наук, доцент, Запорізький національний технічний университет, Україна

ФОРМУВАННЯ І РЕДУКЦІЯ ВИБІРОК ДЛЯ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ

Вирішено задачу формування і редукції вибірок для інтелектуального аналізу даних. Запропоновано метод формування і редукції вибірок, що забезпечує збереження у сформованій підвибірці найважливіших топологічних властивостей вихідної вибірки, не вимагаючи при цьому завантаження у пам’ять ЕОМ вихідної вибірки, а також численних проходів вихідної вибірки, що дозволяє скоротити обсяг вибірки і зменшити вимоги до ресурсів ЕОМ.

Ключові слова: вибірка, відбір екземплярів, редукція даних, інтелектуальний аналіз даних, скорочення розмірності даних.

Subbotin S. A.

Doctor of philosophy (Cand. Tech. Sc.), associate professor (docent), Zaporizhian National Technical University, Ukraine

SAMPLE FORMATION AND REDUCTION FOR DATA MINING

In data mining problem solving it has to operate with a large amount of data samples. This entails a significant amount of time to process the data. Therefore, an urgent task is to reduce the dimensionality of the data samples. The aim of paper is to provide a method for the formation and reduction of samples, allowing to handle a large amount of the original sample.

The problem of sample formation and reduction for data mining was solved.

The scientific novelty of the work lies in the fact that the method of sample formation and reduction is firstly proposed. It provides a saving of the most important topological properties of original sample in the formed sub-sample without the need for downloading the original sample to the computer memory, and without numerous passages of the original sample. It allows to reduce the size of the sample and to reduce the resource requirements of a computer.

The practical significance of the work lies in the development of software, which implements the proposed method of sample formation and reduction, also as conducting of experiments on research of proposed method to solve practical problems, the results of which allows to recommend the developed method for use in practice in solving problems of data mining.

Using the proposed method one can significantly reduce the amount of a sample (in 7,7-12,5 times), without the need to download

the original sample into computer memory, providing preservation in the generated sub-sample the most important for analysis of the

topological properties of the original sample.

Keywords: sample, example selection, data reduction, data mining, data dimensionality reduction.

REFERENCES

1. Olijnik A. O., Subbotin S. O., Olijnik O. O. Intelektual’nij analiz danih : navchal’nij posibnik. Zaporizhzhja, ZNTU, 2012, 271 p.

2. Rutkovskaja D., Pilin’skij M., Rutkovskij L.; per. s pol’sk.

I. D. Rudinskogo. Nejronnye seti, geneticheskie algoritmy i nechjotkie sistemy. Moscow, Gorjachaja linija, Telekom, 2004, 452 p.

3. Subbotin S. A., Olejnik An. A., Gofman E. A., Zajcev S. A.,

Olejnik Al. A.; pod red. S. A. Subbotina Intellektual’nye informacionnye tehnologii proektirovanija

avtomatizirovannyh sistem diagnostirovanija i raspoznavanija obrazov : monografija. Har’kov, OOO «Kompanija Smit», 2012, 317 p.

4. Boguslaev A. V., Olejnik Al. A., Olejnik An. A., Pavlenko D. V, Subbotin S. A.; pod red. D. V. Pavlenko, S. A. Subbotina. Progressivnye tehnologii modelirovanija, optimizacii i intellektual’noj avtomatizacii jetapov zhiznennogo cikla aviacionnyh dvigatelej : monografija. Zaporozh’e, OAO «Motor Sich», 2009, 468 p.

5. Subbotin S. A. Formirovanie vyborok i analiz kachestva modelej na osnove nejronnyh i nejro-nechjotkih setej v zadachah diagnostiki i raspoznavanija obrazov : monografija. Saarbrucken, LAP Lambert academic publishing, 2012, 232 p.

6. Jensen R., Shen Q. Computational intelligence and feature selection: rough and fuzzy approaches. Hoboken, John Wiley

& Sons, 2008, 339 p.

7. Chaudhuri A., Stenger H. Survey sampling theory and methods, New York, Chapman & Hall, 2005, 416 p.

8. Encyclopedia of survey research methods. ed. P. J. Lavrakas, Thousand Oaks, Sage Publications, 2008, Vol. 1-2, 968 p.

9. Kokren U.; per. s angl. I. M. Sonina ; pod red. A. G. Volkova, N. K. Druzhinina. Metody vyborochnogo issledovanija. Moscow, Statistika, 1976, 440 p.

10. Subbotin S. A. The training set quality measures for neural network learning. Optical Memory and Neural Networks (Information Optics), 2010, Vol. 19, No. 2, pp. 126-139.

11. Subbotin S. A. Kompleks harakteristik i kriteriev sravnenija obuchajuwih vyborok dlja reshenija zadach diagnostiki i raspoznavanija obrazov. Matematichm mashini і sistemi, 2010, No. 1, pp. 25-39.

12. Subbotin S. A. Kriterii individual’noj informativnosti i metody otbora jekzempljarov dlja postroenija diagnosticheskih i raspoznajuwih modelej. Bіonіka mtelektu, 2010, No.1, pp. 38-42.

13. Subbotin S. A. Metody formirovanija vyborok dlja postroenija diagnosticheskih modelej po precedentam. Vіsnik Nadonal 'nogo tehmchnogo umversitetu «HarMvs'kij poHtehmchnij mstitut» : zb. nauk. prac', Harkiv, NTU «HPI», 2011, No. 17, pp. 149-156.

14. Subbotin S. A. Sintez nejro-nechetkih modelej dlja vydelenija i raspoznavanija objektov na slozhnom fone po dvumernomu izobrazheniju. Komp'juterne modeljuvannja ta ^te^tuaim sistemi : zbwnik naukovih prac', za red. D. M. Pizi,

S. O. Subbotina, Zaporizhzhja, ZNTU, 2007, pp. 68-91.

15. Cardiotocography Data Set [Electronic resource]. - Access

mode: http://archive.ics.uci.edu/ml/datasets/

Cardiotocography.

16. Covertype Data Set [Electronic resource]. - Access mode: http://archive.ics.uci.edu/ml/datasets/Covertype.

i Надоели баннеры? Вы всегда можете отключить рекламу.