УДК 519.237.8:519.233.5
С.Н. ЛАПАЧ*, С.Г. РАДЧЕНКО*
РЕГРЕССИОННЫЙ АНАЛИЗ В УСЛОВИЯХ НЕОДНОРОДНОСТИ ФАКТОРНОГО ПРОСТРАНСТВА
Национальный технический университет Украины «Киевский политехнический институт», Киев, Украина
Анотаця. Досл1джуетъся застосування нечткого кластерного аналгзу для видшення одноргдних тдобластей факторного простору при побудов1 регрестних моделей. Викладено застосування нечткого кластерного анал1зу. Проведений обчислювалъний експеримент показав, що необх1дно зро-бити анал1з резулътат1в по сут1 задач1 i перев1рку р1зних вар1ант1в розбиття на кластерi для отримання правильного розв'язку. Виконано аналiз моделювання болтового з'еднання композицт-них матерiалiв в авiабудуваннi. Приведено дiаграми розподшу експериментiв по 4-х кластерах. Дано рекомендаци щодо формалiзацii процесу тдбору методiв i засобiв з метою розбиття на одно-рiднi пiдобластi факторного простору при апрiорi невiдомих формi i ^brn^i кластерiв. Ключовi слова: кластерний аналiз, регрестний аналiз, нечткий кластерний аналiз, розбиття факторного простору на однорiднi пiдобластi.
Аннотация. Исследуется применение кластерного анализа для выделения однородных подобластей факторного пространства при построении регрессионных моделей. Изложено применение нечеткого кластерного анализа. Проведение вычислительного эксперимента показало, что необходим смысловой анализ резулътатов и проверки различных вариантов разбиения на кластеры для получения правильного решения. Проанализировано моделирование болтового соединения композиционных материалов в авиастроении. Приведены диаграммы распределения экспериментов по 4-м кластерам. Даны рекомендации по формализации процесса подбора методов и средств с целью разделения на однородные подобласти факторного пространства при заранее не известных форме и количестве кластеров.
Ключевые слова: кластерный анализ, регрессионный анализ, нечеткий кластерный анализ, разбиение факторного пространства на однородные подобласти.
Abstract. The application of cluster analysis for selection of homogeneous subfields of the factor space under the building of regression models is investigated. The use of fuzzy cluster analysis was outlined. The computational experiment has shown that it is necessary to make semantic analysis of the results and tests of the different options of partitioning on clusters to obtain the correct solution. Simulation analysis of bolted connection of composite materials in aircraft construction was done. The charts of distribution of experiments in 4 clusters were given. Recommendations for formalization of processes of selection of methods and tools in order to separate into homogeneous subfields of the factor space with an a priori unknown form and number of clusters.
Keywords: duster analysis, regression analysis, fuzzy cluster analysis, partitioning on the factor space into homogeneous subfields.
1. Введение
Качественную и надежную регрессионную модель невозможно построить в случае, если факторное пространство неоднородно или разрывно. Необходимо определить неразрывные (однородные) подобласти и построить в каждой модель отдельно. Эта проблема в настоящее время не получила разрешения [ 1, 2]. Использование традиционного кластерного анализа не приносит гарантированного успеха даже в достаточно простых случаях. Успешность его применения зависит от значений параметров, которые нужно подбирать в соответствии с формой кластеров. В общем случае уверенное определение возможно для кластеров простой вытянутой формы, расстояние между которыми больше, чем расстояние между элементами в кластере [3-5]. Для широкого практического применения это малопригодно, поскольку, во-первых, форма кластеров и их расположение a priori неизвестно, а
© Лапач С.Н., Радченко С.Г., 2016
ISSN 1028-9763. Математичш машини i системи, 2016, № 3
во-вторых, кластеры часто имеют сложную форму и частично связаны друг с другом, а иногда и частично перекрываются.
Цель статьи — исследовать возможность применения нечеткого кластерного анализа для выделения однородных подобластей факторного пространства при построении регрессионных моделей.
Постановка вопроса: определение однородных подобластей факторного пространства.
2. Нечеткий кластерный анализ
При нечеткой кластеризации методом к -средних предполагается [6], что некоторые точки могут принадлежать нескольким кластерам одновременно. Принадлежность элементов выборки к определенному кластеру описывается матрицей
II = // ^, /л е 0,1 , / = 1, А', / = \,к . Строка г содержит значение, соответствующее степе-
к N
ни принадлежности объекта г к кластеру у . При этом ^ ¡лц — 1, 0 < ^ /л1} < N, здесь N -
]=1 г=1
количество объектов (в нашем случае число опытов), к - число кластеров. Кластеризация выполняется следующим образом:
1. Выбираются параметры: к, ge - экспоненциальный вес, е - значение критерия остановки.
2. Случайным образом генерируется начальная матрица нечеткого разбиения на кластеры и.
3. Рассчитываются центры кластеров по формуле
N
Ц(муУех1
1 -,у=и,
г=1
где V - вектор длиной М ;
Хг- - матрица размера Л^хМ;
М - число факторов (при разбиении на кластеры отклик входит в число факторов).
4. Рассчитываются расстояния между объектами и центрами кластеров
|2
5. Пересчитываются элементы матрицы нечеткого разбиения:
1
-> ¿у
к 1
* ^ Л2
1 = 1 ¿ц
(ёе ~ 1)
У> 0
| 1 ¿у = °,1= у
10, ¿у = 0,Ы j
6. Проверяется условие остановки. Если иначе - выполняется переход в п.3.
и-и
, то процедура заканчивается,
Для оценки качества разбиения используют параметры рассеивания. Общее рассеи-
N _ 1 N
вание , где X = — ^ Хг- - общий центр веса, межгрупповое рассеивание (между
■ л N . л
1=1 1=1
к к
пенIрамп кластеров) В - ^ ^¡d2{Xi,X^, внутригрупповое рассеивание
/=1у=1
к п1 _
( = ^ 2(X ■ ) . Здесь п^ - количество элементов в кластере. /=1у=1
Для нечеткого кластерного анализа в этих формулах добавляется множитель \Лу.
Статистика Т, которая показывает долю общего рассеивания, поясняемую межгрупповым рассеиванием, определяется как Т = \ — QI Б. Кластером считается множество точек, для которых выполняется условие <2■ / N < Б / N, а сгущением - множество точек при выполнении условия шах <81N.
Был проведен вычислительный эксперимент со специально сконструированными кластерами разной формы и с разным расстоянием друг от друга. Анализ их результатов показал, что, с одной стороны, нечеткий кластерный анализ может определять кластеры произвольной формы и с различными расстояниями друг от друга. С другой стороны, без смыслового анализа результатов и проверки различных вариантов разбиения на кластеры правильное решение невозможно.
Для определения разделения на кластеры с использованием нечеткого кластерного анализа предлагается выполнять следующие действия:
1. Выдвижение гипотезы о количестве кластеров в выборке.
2. Выполнение разбиения на кластеры.
3. Анализ результатов разбиения и выдвижение уточненной гипотезы о количестве кластеров. Здесь выполняется как анализ качества разбиения с точки зрения кластерного анализа в сравнении с другими вариантами, так и смысловой анализ полученного разбиения на кластеры с точки зрения знаний предметной области.
4. Проверка уточненной гипотезы.
5. П.п. 2-4 могут повторяться несколько раз до получения удовлетворительных результатов.
6. Выбор наилучшего разбиения и использование его для регрессионного анализа.
3. Моделирование болтового соединения композиционных материалов
В [7] подробно описана задача по моделированию болтового соединения композиционных материалов в авиастроении. Факторы Хфакт1 •••Хфакт10, с которыми была построена математическая модель, приведены в табл. 1.
В работе была получена регрессионная модель разрушающей удельной нагрузки от описанных выше факторов. Модель имеет отличные информационные свойства, хорошую вычислительную стойкость. К недостаткам относится формальная неадекватность модели по критерию Фишера. Кроме того, описывающие свойства можно назвать только удовлетворительными, что контрастирует с высокой информативностью.
Неадекватность и недостаточно хорошие описывающие свойства предположительно связаны с неоднородностью факторного пространства. Разработанный алгоритм разделения на кластеры с помощью нечеткого кластерного анализа был апробирован в этой задаче, как раз требующей именно такого решения, поскольку описывающие свойства модели не позволяют использовать её в системах автоматизированного проектирования.
Таблица 1. Описание факторов
Фактор Название Условное обозна- Обозначение уровня в матрице Натуральное значение уровня
чение плана эксперимента
V факт1 Толщина пластины болтового соединения с усилением, мм 8о щ = -1; 0; 1 §с = ёш + 2щ+ dшnl / 6
V факт2 Диаметр болта номинальный, мм 6; 8; 10; 12 6; 8; 10; 12
Величина перемычки
V фактЗ вдоль действия силы (от центра отверстия до края пластины), мм а 2; 2,5; 3; 4 ^ш
Величина перемычки
V л факт4 поперек действия силы (от центра отверстия до края пластины), мм Ь 2; 2,5; 3; 3,5 Мш
Относительная вели-
V факт5 чина усиления толщины пластины к у 0,2; 0,4; 0,6; 1 0,2; 0,4; 0,6; 1
Угол направления
V фактб волокон в усиливающих слоях относительно направления действия силы, град 0; 30; 60; 90 0; 30; 60; 90
V факт7 Кол-во прослоек усиления п2 0; 1; 2; 3 2 + (0^ш - 2)п2
у ^ факт8 Характер посадки болта в отверстии пластины П 0; 1; 2; 3 Н9/ И 6; Н9/ И 6 dш + 0,1; Н9 ГОСТ131042-79
Н9/ И 6 ВК-9
у ^ факт9 Кол-во болтов и их шаг в соединении, мм ш 0; 1; 2; 3; 4; 5; 6 15 3 х 3,5^уу1 3 х 4^уу1 3 х 5dш; 5 х 3,5dш; 5 х 4 б/ уц 5 5 х 5 б/ уу^
V ^ факт10 Разбиение плана на ортогональные блоки Б 0; 1; 2; 3; 4; 5; 6; 7 0; 1; 2; 3; 4; 5; 6; 7
Первоначально было выдвинуто предположение о разделении пространства на два кластера. Явное разделение на два кластера подтверждено кластерным анализом. В каждом кластере была получена регрессионная модель. Их характеристики приведены в табл. 2.
Как видно из таблицы, полученные модели У и ^ имеют близкие характеристики
к модели У, полученной по всей выборке, при этом их описывающие свойства значительно лучше. Это показывает анализ последних четырех строк табл. 2. Вместе с тем эти характеристики все еще неудовлетворительны с точки зрения требований предметной области: погрешности слишком велики для практического использования в САПР. В связи с этим проведен анализ принадлежности объектов (экспериментов) к отдельным кластерам, то есть значения элементов массива и (рис. 1). Из рисунка видно, что прослеживается предположительное разбиение выборки на 4 кластера.
Таблица 2. Статистические характеристики моделей для всей выборки и при разбиении на два кластера
Параметры статистического анализа Условные обозначения У У2
23 Дисперсия воспроизводимости 5 2 восп 0,608812 0,927009 0,29016
к „ о £ И О о о Среднеквадратическое отклонение 5восп 0,780264 0,962813 0,539088
£ я ат д £ | Число степеней свободы для дисперсии воспроизводимости / восп 64 32 32
и ч £р О ей ей И К Экспериментальное значение С-критерия ^ эксп 0,131403 0,172598 0,225948
£р и и о о Н Критическое значение С-критерия ^ крит 0,165178 0,289486 0,289486
£р С Уровень значимости а 0,05 0,05 0,05
Однородность дисперсий Однородные Однородные Однородные
Число обусловленности еопё(ХтХ) 1,91327 1,11724 2,02779
ю о Дисперсия адекватности 5 2 5 ад 7,45993 4,45534 1,94985
3 со к Экспериментальное значение ^-критерия ^--эксп 12,2533 4,80616 6,70929
К ^ о со пн К Н га ав >> и ва о Критическое значение ^-критерия для адекватности ^--крит 1,54931 2,31 2,31
Число степеней свободы для адекватности /ад 49 11 11
£р С Уровень значимости а 0,05 0,05 0,05
Адекватность модели Неадекватн. Неадекватн. Неадекватн.
Коэффициент множественной корреляции я 0,958281 0,980104 0,989976
К ч 8 ^ о н ос 2 О зН К ой нв К С Число степеней свободы для коэффициентов модели /к' 14 11 11
Число степеней свободы для остаточной суммы квадратов / ^ остй 113 52 52
Й * уч р Экспериментальное значение ^-критерия ^--эксп 39,3405 44,3326 89,3332
лиз пол на инфс Критическое значение ^-критерия для информативности ^--крит 1,78025 1,97821 1,97821
й К Уровень значимости а 0,05 0,05 0,05
< Значение параметра для критерия Бокса и Веца У 4 3 5
Информативность модели Высокая Хорошая Высокая
и Е? й Среднее абсолютных величин погрешностей аппроксимации К1 3,0754 1,36096 0,942767
о и га 0 й « Доля рассеивания, объясняемая моделью 0,918302 0,960603 0,980053
Л о св К о п Средняя погрешность аппроксимации, % ^ср 22,5927 9,9847 8,27
О Максимальная погрешность аппроксимации, % ^тах 77,89 42,06 17,66
0,8 -
0,4 -
0 ____ННННННННННпппппппппппппппп
3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63
Рис. 1. Степень принадлежности (по вертикали) экспериментов (по горизонтали)
к разным кластерам
Проверка разбиения на четыре кластера показала, что это разбиение предпочтительней с точки зрения кластерного анализа (табл. 3, рис. 2).
Таблица 3. Качество разбиения при разном количестве кластеров_
Характеристика разбиения Количество кластеров
4 2
Параметр экспоненциального веса 2 2
Критерий остановки 0,00001 0,00001
Внутригрупповое рассеивание 3716,965 17876,97
Межгрупповое рассеивание 36212,92 7684,063
Качество разделения 0,906914 0,300324
Внутригрупповое рассеивание для случая четырех кластеров на порядок меньше межгруппового в отличие от сравнимых характеристик этих величин для разбиения на два кластера. Это позволяет отдавать предпочтение четырем кластерам [5].
□ Кластер 1 □ Кластер 2 □ Кластер 3 □ Кластер 4
Рис. 2. Диаграмма распределения экспериментов по 4-м кластерам
Смысловой анализ разбиения показал, что каждому кластеру соответствует свой угол ориентации волокон композита (значение фактора Хфактб в табл. 1). То есть в кластерах собраны эксперименты, в которых значение угла ориентации волокон составляет 0° для первого кластера, 30° для второго и соответственно 60° и 90° для третьего и четвертого. Это позволяет сделать физическую интерпретацию причин разбиения именно на такие кластеры.
В каждом кластере была построена регрессионная модель. Характеристики моделей 7о, 7зо, 7бо, У90 приведены в табл. 4. Анализ табл. 4 показал, что описательные свойства этих моделей значительно лучше, чем модели У, построенной на всей выборке, и моделей У\ и У2, полученных для двух кластеров (табл. 3), и они могут быть использованы на практике.
Таблица 4. Статистические характеристики моделей для всей выборки и при разделении на четыре кластера_
Параметры статистического анализа Условные обозначения У Уо У30 У60, У90
1 2 3 4 5 6 7 8
« о Дисперсия воспроизводимости 5 2 5восп 0,608812 0,233894 0,347337 1,04414 0,809881
ей н Ю о 1— Среднеквадратическое отклонение 5восп 0,780264 0,483625 0,589353 1,02183 0,899934
ы п Число степеней свобо-
О Л в тс ды для дисперсии /в осп 64 16 16 16 16
оо £ я й & у воспроизводимости
Экспериментальное значение С-критерия ^гэксп 0,131403 0,561486 0,166408 0,267569 0,395120
ей к « И Критическое значение С-критерия ^гкрит 0,165178 0,451677 0,451677 0,451677 0,451677
Уровень значимости а 0,05 0,05 0,05 0,05 0,05
О р м П Однородность дисперсий Одно- Неодно- Одно- Однород- Одно-
родные родные родные ные родные
Число обусловленности соп^Х) 1,91327 1,27991 1,4872 2,20828 2,01531
ю о Дисперсия адекватности 5 2 5 ад 7,45993 0,387069 1,16761 1,25423 6,04992
рка гипотезы декватности Экспериментальное значение ^-критерия ^--эксп 12,2533 1,6549 3,3615 1,20123 7,47013
Критическое значение ^-критерия ^--крит 1,54931 2,6572 2,6572 2,34194 2,49351
для адекватности
и га о К Число степеней свободы для адекватности /ад 49 8 8 9 5
Уровень значимости а 0,05 0,05 0,05 0,05 0,05
Продолж. табл. 4
Адекватность модели Неадек-ватн. Адекватн Неадек-ватн. Адекватн. Неадек-ватн.
1 2 3 4 5 6 7 8
Анализ полученной модели на информативность Коэффициент множественной корреляции Я 0,958281 0,996182 0,995247 0,996684 0,983331
Число степеней свободы для коэффициентов модели /к' 14 8 8 9 5
Число степеней свободы для остаточной суммы квадратов $о стИ 113 23 23 22 26
Экспериментальное значение ^-критерия ^--эксп 39,3405 113,929 91,4166 100,021 25,7505
Критическое значение ^-критерия для информативности ^--крит 1,78025 2,37481 2,37481 2,34194 2,58679
Уровень значимости а 0,05 0,05 0,05 0,05 0,05
Значение параметра для критерия Бокса и Веца г 4 5 4 4 2
Информативность модели Высокая Высокая Высокая Высокая Хорошая
Среднее абсолютных величин погрешностей аппроксимации ы 3,0754 0,31089 4 0,63752 9 0,548391 1,55774
Доля рассеивания, объясняемая моделью 0,91830 2 0,99238 7 0,99051 5 0,993379 0,92800 7
Средняя погрешность аппроксимации, % £ср 22,5927 4,48608 4,31869 3,61086 13,659
Максимальная погрешность аппроксимации, % етах 77,89 14,3384 15,0079 16,1326 49,6679
Степень улучшения по сравнению с моделью для всей выборки У показана в табл. 5. Как видно, имеют место существенные улучшения характеристик - это улучшения в разы.
Таблица 5. Улучшение описывающих характеристик моделей Уд, У30, Убо, У90
Характеристика Обозначение Улучшение (разы)
Среднее абсолютных величин погрешностей аппроксимации «2... 10
Средняя погрешность аппроксимации, % 8ср 1,65...6,26
Максимальная погрешность аппроксимации, % ^тах 1,57.5,43
4. Выводы и рекомендации
Проведенные исследования по использованию нечеткого кластерного анализа для выделения однородных (неразрывных) подобластей факторного пространства позволили установить, что его можно использовать для уверенного определения областей типа сгущений.
Алгоритм успешно апробирован на реальных задачах. Вместе с тем общий алгоритм не является полностью формализованным и требует выдвижения предположений о количестве кластеров, сравнения результатов разбиения с точки зрения кластерного анализа, характеристик полученных регрессионных моделей и смыслового анализа полученного разбиения.
Раньше было установлено [4, 5], что для кластеров, имеющих протяженные формы, успешно применяются классические алгоритмы кластерного анализа с подбором параметров.
Поскольку для реальных задач форма кластеров a priori неизвестна, то в настоящее время требуется экспериментирование с подбором методов и смысловым анализом. Направлением дальнейшей работы могут быть формализация и программное обеспечение процессов подбора методов или параметров кластерного анализа с целью разделения на однородные подобласти факторного пространства при заранее не известных форме и количестве кластеров.
СПИСОК ЛИТЕРАТУРЫ
1. Котюков В.И. Многофакторные кусочно-линейные модели / Котюков В.И. - М.: Финансы и статистика, 1984. - 216 с.
2. Лапач С.Н. Основные проблемы построения регрессионных моделей / С.Н. Лапач, С.Г. Радченко // Математичш машини i системи. - 2012. - № 4. - С. 125 - 133.
3. Лапач С.Н. Статистические методы в фармакологии и маркетинге фармацевтического рынка / Лапач С.Н., Пасечник М.Ф., Чубенко А.В. - К.: ЗАТ «Укрспецмонтаж», 1999. - 312 с.
4. Лапач С.М. Кластерний анатз при визначенш однорщних областей факторного простору в ре-гресшному аналiзi / С.М. Лапач // П'ятнадцята мiжнар. конф. iм. акад. Михайла Кравчука, (м. Кшв, 15-17 травня 2014 р.). - Т. 3: Теорiя ймовiрностей та математична статистика. - К.: НТУУ «КП1», 2014.- С. 82 - 84.
5. Лапач С.М. Визначення оптимально! кшькосп кластерiв / С.М. Лапач // Математичш машини i системи. - 2015. - № 3. - С. 53 - 56.
6. Штовба С.Д. Проектирование нечетких систем средствами MATLAB / Штовба С.Д. - М.: Горячая линия - Телеком, 2007. - 288 с.
7. Математическое моделирование прочности болтовых соединений композиционных материалов типа углепластиков / С.Г. Радченко, С.Н. Лапач, А.З. Двейрин [и др.] // Открытые информационные и компьютерные интегрированные технологии: сб. научных трудов. - Харьков: «ХАИ», 2014. -Вып. 63. - С. 61 - 71.
Стаття над1йшла до редакцп 17.03.2016