Научная статья на тему 'Алгоритм для серии задач разделения смеси распределений'

Алгоритм для серии задач разделения смеси распределений Текст научной статьи по специальности «Математика»

CC BY
238
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ / ЭЛЕКТРОРАДИОИЗДЕЛИЯ / РАЗДЕЛЕНИЕ СМЕСИ РАСПРЕДЕЛЕНИЙ / CLUSTERING ALGORITHMS / ELECTRONIC COMPONENTS / SEPARATION OF MIXTURE DISTRIBUTION

Аннотация научной статьи по математике, автор научной работы — Сташков Д. В., Гудыма М. Н., Казаковцев Л. А., Рожнов И. П., Орлов В. И.

Представлен генетический алгоритм метода жадных эвристик для задач разделения смеси распределений. Новый алгоритм на основе EM-алгоритма позволяет одновременно решать серию таких задач, различающихся только числом распределений. Статистически показано преимущество нового алгоритма по точности результата для таких задач, как выявление однородных партий электрорадиоизделий.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Сташков Д. В., Гудыма М. Н., Казаковцев Л. А., Рожнов И. П., Орлов В. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM FOR SERIES OF MIXTURE DISTRIBUTION SEPARATION PROBLEMS

We propose new genetic algorithm mixture distribution separation based on ideas of the Greedy Heuristic Method. Based on the EM algorithm, this algorithm allows to solve simultaneously series of such problems with only one various parameter (number of distributions in the mixture). We prove statistically the advantage of our new algorithm by accuracy and stability of its result for such problems as separation homogeneous production batches of microelectronic devices.

Текст научной работы на тему «Алгоритм для серии задач разделения смеси распределений»

Электронная компонентная база щ>смических,систем

УДК 519.6

АЛГОРИТМ ДЛЯ СЕРИИ ЗАДАЧ РАЗДЕЛЕНИЯ СМЕСИ РАСПРЕДЕЛЕНИЙ

Д. В. Сташков*, М. Н. Гудыма, Л. А. Казаковцев, И. П. Рожнов, В. И. Орлов

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Представлен генетический алгоритм метода жадных эвристик для задач разделения смеси распределений. Новый алгоритм на основе EM-алгоритма позволяет одновременно решать серию таких задач, различающихся только числом распределений. Статистически показано преимущество нового алгоритма по точности результата для таких задач, как выявление однородных партий электрорадиоизделий.

Ключевые слова: алгоритмы кластеризации, электрорадиоизделия, разделение смеси распределений ALGORITHM FOR SERIES OF MIXTURE DISTRIBUTION SEPARATION PROBLEMS

D. V. Stashkov*, M. N. Gudyma, L. A. Kazakovtsev, I. P. Rozhnov, V. I. Orlov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation

*E-mail: [email protected]

We propose new genetic algorithm mixture distribution separation based on ideas of the Greedy Heuristic Method. Based on the EM algorithm, this algorithm allows to solve simultaneously series of such problems with only one various parameter (number of distributions in the mixture). We prove statistically the advantage of our new algorithm by accuracy and stability of its result for such problems as separation homogeneous production batches of microelectronic devices.

Keywords: clustering algorithms, electronic components, separation of mixture distribution.

Данные весьма высокой размерности (несколько сотен измерений) встречаются в задаче выделения однородных партий электронных изделий, например, интегральных схем из сборной партии [1]. В такого рода задачах требуется получение не просто приемлемого результата, но очень точного и стабильного при многократных запусках. Например, такие задачи возникают при проверке качества состава (однородности/неоднородности) смеси однотипных микроэлектронных изделий [2] в космической промышленности. Разделение смеси на предполагаемые однородные партии производится на основе анализа данных тестовых испытаний, представленных векторами данных очень большой размерности (сотни измерений) [1; 3].

Простой ЕМ-алгоритм с двумя чередующимися шагами для разделения смеси распределений [4] в случае многомерных данных сильно зависит от начального решения.

Одной из хорошо зарекомендовавших себя стратегий глобального поиска является применение эволюционных (генетических) алгоритмов. Сложности кодирования решений, традиционно представляемых в классических генетических алгоритмах ¿-битными строками, в алгоритмах метода жадных эвристик [5] решены применением так называемого генетического алгоритма с вещественным алфавитом, в котором «особи» - промежуточные решения задач ^-медиан или ^-средних - представлены непосредственно множествами точек в пространстве Ка (т. е. непосредственно множествами медиан или центроидов).

Алгоритм с гетерогенной популяцией для задачи разделения смеси распределений.

1. Сгенерировать случайным образом NPOpHa4 начальных решений, представленных парой множеств распределений и их весовых коэффициентов

D ,Wm) = ({N (ц<;> , а J°>2)}, (а<;> = 1/k }, i = Wm,

m = 1, NpQp^. Начальные значения среднеквадратичных отклонений устанавливаются равными для всех кластеров и вычисляются для всей выборки:

а/02 = 1 Z||х-■ Значения устанавливаются

равными координатам случайно выбранных векторов данных. Для каждого из начальных решений запускается EM-алгоритм, полученные значения целевой функции сохраняются в переменных ./¡,...,/N ■ Присвоить Niter = 0.

2. Niter = Niter + 1; Npop = тах{^0РНИ;j"^ 1 + NUer ] + 2}.

Если NPOP изменилось, то инициализировать особь XNpop аналогично шагу 1. Выбрать случайным образом

kbk2e [1, Npop], kx£k2.

3. (D„w,Wj) = {Dh UDh, Wki UWh).

4. Пока \Dnew\ > pmax выполнять: выбрать

j = arg, mDXw|L (Dnw \ {n(h, ,а,, )}, Wmw \ {а,});

Dnw = Dnw \ {n(hj, аj )}, Wmw = Wnw \ {а j}. Следующая итерация 4.

Решетневскуе чтения. 2017

Сравнительные результаты серийного алгоритма

Набор данных, число вектор., Число класт. к, тип Алгоритм Ср. рез-т Ср.кв. откл.

размерн. распр., время (лог. ф-ция пр-подобия) результатов

Europe (UCI), N - 169308, 40, сфер, Новый -3625694,1* 20,148

d - 2 1.5 часа EM -3625957,3 49,561

CEM -3625779,0 25,064

SEM -3625740,2 29,064

Тесты ИС 1526ТЛ1, N - 1234, 5, сфер., Новый 3673,671* 44,043

d - 120 5 сек. EM 3598,160 32,160

Примечание:* - лучший результат;

5. Выбрать случайным образом pchild е {2, pmax}.

Если pchild > D new L т0 pchild - |D new 6 /child, = L (Dnew , ^^neW)) ;

7. Пока |Dnew| > pchüd выполнять: выбрать

j = аГё Ж/ (Dnew \ {N (Mj , ° j )} ,Wnew \ {«j }) i

Dnew = Dnew \ {n(мj, ° j )}, = \ {a j} Следующая итерация 7.

8. П°ка ^ > 2: ТфЖЮИТЪ /"Child DneW = L(Dnew ,Wnew

k = \Dnew\; Jk JD_I = L(Dnew ,Wnew X еС™ Jk Jd_| < ^ ™

присвоить F* = fk^D j; Выполнить шаги 4.1 и 4.2 для

Dnew. Следующая итерация 8.

9. Выбрать j3e{1, NPOp} с использованием турнирного замещения. Присвоить

Dj3 Dnew ; Wj3 Wnew ; "j^ ,k Jchild .

10. Проверить условия останова, перейти к шагу 2. Было выполнено по 30 попыток запуска каждого

из алгоритмов. Фиксировались лучшие результаты, достигнутые в каждой попытке, затем эти результаты были усреднены. Результаты работы EM-алгоритма в режиме мультистарта и его модификаций обозначены EM, CEM, SEM.

Таким образом, с одной стороны, метод жадных эвристик [5] может быть успешно применен для построения эффективных алгоритмов решения задач разделения смеси распределений. При этом сохраняется важное свойство алгоритмов, полученных с применением данного подхода: высокая точность получаемых результатов. Для некоторых практических задач, к примеру, задачи автоматической группировки электрорадиоизделий [1; 3], сформулированные в виде задач разделения смеси гауссовых распределений результатов тестовых испытаний, новый алгоритм в ходе нескольких (не более 10) попыток запуска позволяет найти, вероятно, точный результат задачи или, по крайней мере, результат, который не получается превзойти с применением известных алгоритмов.

Получен новый алгоритм, стабильно превосходящий по точности получаемых результатов известные алгоритмы для некоторых классов задач, позволяющий получить решение сразу для серии задач разделения смеси распределений. В частности, таким классом задач являются задачи разделения смесей сферических и некоррелированных гауссовых распределений в пространствах большой размерности (десятки-сотни измерений) с числом векторов данных от сотен до десятков тысяч.

Библиографические ссылки

1. Федосов В. В., Казаковцев Л. А., Масич И. С. Метод нормировки исходных данных испытаний электрорадиоизделий космического применения для алгоритма автоматической группировки // Системы управления и информационные технологии. 2016. Т. 65 (3). С. 92-96.

2. Федосов В. В. Вопросы обеспечения работоспособности электронной компонентной базы в аппаратуре космических аппаратов : учеб. пособие / Сиб. гос. аэрокосмич. ун-т. Красноярск, 2015. 68 с.

3. Kazakovtsev L. A., Antamoshkin A. N., Masich I. S. Fast Deterministic Algorithm for EEE Components Classification // IOP Conf. Series: Materials Science and Engineering. 2015. Vol. 94. article ID 012015, 10 p. DOI: 10.1088/1757-899X/04/1012015.

4. Королев В. Ю. ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. М. : ИПИ РАН. 2007. 94 c.

5. Казаковцев Л. А., Антамошкин А. Н. Метод жадных эвристик для задач размещения // Вестник СибГАУ. 2015. № 2. С. 317-325.

References

1. Fedosov V. V., Kazakovtsev L. A., Masich I. S. [Method of normalization of raw data of spaceship electronic components testings for automatic grouping algorithm]. Sistemy upravleniya i informatsionnye tekhnologii. 2016. Vol. 65, iss. 3. P. 92-96. ' (In Russ.)

2. Fedosov V. V. Voprosy obespecheniya rabotospo-sobnosti elektronnoy komponentnoy bazy v apparature kosmicheskikh apparatov: ucheb.posobie. [Ensuring the operability of the electronic component base in spacecraft equipment: textbook], Krasnoyarsk, 2015. 68 p.

3. Kazakovtsev L. A., Antamoshkin A. N., Masich I. S. Fast Deterministic Algorithm for EEE Components Classification. IOP Conf. Series: Materials Science and Engineering. 2015. Vol. 94. Article ID 012015, 10 P. DOI: 10.1088/1757-899X04/1012015.

4. Korolev V. Yu. EM-algoritm, ego modifikatsii i ikh primenenie k zadache razdeleniya smesey veroyatnost-nykh raspredeleniy. Teoreticheskiy obzor. [EM algorithm, its modifications and their application to the problem of mixture probability distribution separation. Theoretical overview]. Moscow, Institute of Informatics Problems of RAS, 2007. 94 p.

5. Kazakovtsev L. A., Antamoshkin A. N. [Greedy Heuristic Method for Location Problems] // Vestnik SibGAU. 2015. Issue 2. P. 317-325. (In Russ.)

© Сташков Д. В., Гудыма М. Н., Казаковцев Л. А., Рожнов И. П., Орлов В. И., 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.