_ 05.13.00 ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ _
05.13.17 УДК 519.23
СТРУКТУРНАЯ ОПТИМИЗАЦИЯ НЕЧЕТКИХ РЕГРЕССИОННЫХ МОДЕЛЕЙ С МИНИМИЗАЦИЕЙ ОШИБКИ ПРОГНОЗА НА ТЕСТОВОЙ ВЫБОРКЕ
© 2018
Александр Александрович Попов, доктор технических наук, профессор кафедры «Теоретическая и прикладная информатика» Абдурахмон Абдуллоевич Холдонов, аспирант кафедры «Теоретическая и прикладная информатика»
Новосибирский государственный технический университет, Новосибирск (Россия)
Аннотация
Введение: в работе рассматривается проблема струтурной оптимизации регрессионных моделей в рамках концепции нечетких систем (Fuzzy Systems). Структурная оптимизация регрессионных моделей подразумевает решение задачи по определению модели оптимальной сложности. Модель оптимальной сложности имеет хорошие обобщающие способности и не несет в себе эффект переобучения. Приведены различные критерии селекции моделей, которые основываются на разбиении выборки на обучающую и тестовую части.
Материалы и методы: в качестве метода оценивания неизвестных параметров используется метод наименьших квадратов в так называемом глобальном варианте. В этом случае осуществляется совместное оценивание всей совокупности неизвестных параметров. В качестве системы правил использовалась модель Такаги-Сугено. При разбиении области определения входных факторов использовались трапециевидные функции принадлежности. Проблему разбиения выборки на тестовую и обучающую части предлагается решать с использованием метода D-оптимального планирования эксперимента. При этом основное внимание в работе уделено использованию в качестве критерия селекции моделей критерию регулярности, который представляет собой ошибку прогноза на тестовой части выборки.
Результаты: для оценки работоспособности данного критерия и процедуры разбиения выборки на обучающую и тестовую части проведен вычислительный эксперимент. Для проведения вычислительного эксперимента было разработано соответствующее программное обеспечение.
Обсуждение: вычислительный эксперимент проводился на модельных данных. В качестве модели, порождающей данные, использовалась кусочная линейная зависимость от входного фактора. Результаты проведенных вычислительных экспериментов приведены в отдельных таблицах и рисунках. Контроль точности проверяемых моделей проводился по среднеквадратичной ошибке (MSE).
Заключение: вычислительный эксперимент показал, что критерий регулярности, основанный на использовании тестовой выборки, полученной по процедуре оптимального планирования эксперимента, позволяет определять модель оптимальной сложности.
Ключевые слова: D-оптимальный план, критерий регулярности, метод наименьших квадратов (МНК), метод центра масс, модель Такаги-Сугено, нечеткие системы (Fuzzy System), обучающая выборка, оптимальное планирование эксперимента, оценивание параметров, регрессионная модель, среднеквадратичная ошибка (MSE), система нормальных уравнений, тестовая выборка, функция принадлежности.
Для цитирования: Попов А. А., Холдонов А. А. Структурная оптимизация нечетких регрессионных моделей с минимизацией ошибки прогноза на тестовой выборке // Вестник НГИЭИ. 2018. № 2 (81). С. 7-19.
STRUCTURAL OPTIMIZATION OF FUZZY REGRESSIONAL MODELS WITH MINIMIZING THE ERROR ON THE TEST SAMPLE
© 2018
Aleksandr Aleksandrovich Popov, Dr. Sci. (Engineering), professor of the chair «Theoretical and Applied Computer Science» Abdurakhmon Abdulloevich Kholdonov, postgraduate student of the chair «Theoretical and Applied Computer Science»
Novosibirsk State Technical University, Novosibirsk (Russia)
7
Abstract
Introduction: the paper considers the problem of string optimization of regression models within the concept of fuzzy systems (Fuzzy Systems). Structural optimization of regression models implies the solution of the problem of determining the model of optimal complexity. The model of optimal complexity has good generalizing abilities and does not carry the effect of retraining. Various criteria for selection of models are presented, which are based on splitting the sample into the training and test parts.
Materials and methods: as a method of estimating unknown parameters, the least-squares method is used in the so-called global version. In this case, a joint evaluation of the whole set of unknown parameters is carried out. As rules systems, the Takagi-Sugeno model was used. When dividing the domain of input factors, trapezoidal membership functions were used. The problem of splitting a sample into a test and training part is proposed to be solved using the D-optimal experimental design method. At the same time, the main attention is paid to using the criterion of regularity as a selection criterion for the models, which is a forecast error on the test part of the sample.
Results: to evaluate the efficiency of this criterion and the procedure for splitting the sample into a training and test part, a computational experiment was performed. For the computational experiment, the corresponding software was developed.
Discussion: the computational experiment was carried out on model data. The piecewise linear dependence on the input factor was used as the model of the data generator. The results of the computational experiments are given in separate tables and figures. The control of the accuracy of the tested models was based on the mean square error (MSE). Conclusion: the computational experiment showed that the regularity criterion, based on the use of a test sample obtained by the procedure of optimal experiment planning, allows to determine the model of optimal complexity. Keywords: D-optimal plan, regularity criterion, least-squares method, center-of-mass method, Takagi-Sugeno model, fuzzy system, training sample, optimal experiment planning, parameter estimation, regression model, mean-square error ( MSE), system of normal equations, test sample, membership function.
For citation: Popov A. A., Kholdonov A. A. Structural optimization of fuzzy regressional models with minimizing the error on the test sample // Bulletin NGIEI. 2018. № 2 (81). P. 7-19.
Введение
На практике часто приходится сталкиваться с задачами восстановления регрессии. Для решения такой проблемы разработаны различные подходы, приводящие к созданиям математических моделей, которые служат для описания и прогнозирования поведения объектов изучения. Технология построения регрессионных зависимостей в рамках концепции нечетких систем (FS) является достаточно удобным инструментом моделирования при отсутствии априорных предположений о структуре модели (составе регрессоров) [1-5]. В этом случае выбор модели происходит, как говорят, на основе самих данных. Универсальность данной методологии базируется на возможности управлять сложностью модели через выбор числа и формы нечетких партиций для входных факторов, а также видом локальных моделей. Однако эта гибкость и универсальность создаёт и определенные трудности. Перечислим некоторые из них: необходимо, например, контролировать полноту покрытия области определения факторов нечетким партициями; высока вероятность получения переусложненной модели; есть сложности моделирования при наличии выбросов. В число факторов, действующих на объект, могут входить факторы, измеренные не только в абсо-
лютной шкале отношений, но и в номинальной шкале. В этом случае необходимо учитывать условия идентифицируемости таких моделей [5-6].
Сложность моделирования при наличии выбросов связана с тем, что рассматриваемая методология направлена на получение описаний с локальными особенностями. Имеющиеся выбросы в данных могут провоцировать формирование такой локальной особенности, а также приводить к общему смещению решения, поскольку для его получения, как правило, используется метод наименьших квадратов (МНК). В последние годы в рамках концепции нечетких систем также стали подниматься вопросы построения робастных решений [7-8]. Схожие проблемы, связанные с необходимостью обеспечения устойчивости решений, характерны и для других методов построения зависимостей, основанных на данных. В качестве примера можно рассматривать проблему получения робастных решений в методе опорных векторов [9-10].
Сложность получаемых нечетких регрессионных моделей, как мы отмечали, может варьироваться числом нечетких партиций и видом локальных моделей. При этом исследователь сталкивается с проблемой выбора оптимальной по сложности структуры модели. Для решения этой задачи назна-
чаются определенные критерии «качества», которым должна удовлетворять искомая модель. Будем в дальнейшем называть их критериями селекции моделей. Перечень, используемых критериев селекции достаточно широк и подробно представлен в обзорах [11]. Нас в первую очередь будут интересовать, так называемые, внешние критерии селекции моделей, основанные на использовании тестовых выборок. На примере использовании одного из них рассмотрим вопрос формирования тестовой части выборки с использованием методов оптимального планирования эксперимента.
Материалы и методы
Пусть модель объекта подчиняется следующему уравнению наблюдения:
У = У + Б = ХР + Б , (1)
где 7 —(их 1) - вектор ненаблюдаемого не зашум-лёиного выхода объекта, Х-(пхт) - расширенная матрица плана, соответствующая истинному набору регрессоров 5су,...,хт , е-(пх 1) - вектор ненаблюдаемых случайных ошибок измерения, относительно которых выполнены предположения E(е) = 0И ,
E(ееТ) = с21п , где 0п - вектор, состоящий из нулей,
С - неизвестная дисперсия наблюдения, 1п - единичная матрица размера п . Набор регрессоров х\,...,хт образует множество X, о котором известно, что 1сЯ , где 91 - некоторое расширенное множество регрессоров. Пусть в результате наблюдения объекта получена Z — (п х p) - расширенная матрица плана из п наблюдений над р регрессора-ми из 91 и требуется определить множество X и получить оценку параметров ¡} . Для поиска наилучшей аппроксимации для (1) воспользуемся каким-либо переборным алгоритмом. Пусть X — (п х 5) - расширенная матрица наблюдений для текущей модели из 5 регрессоров, образующих множество Ь с ЭТ . Регрессия отклика у по Ь будет определяться по уравнению наблюдения:
у = Хв+е, (2)
где е — (п х 1) - вектор ненаблюдаемых случайных ошибок измерения, относительно которых выполнены предположения Е(е) = 0п, Е(ееТ) = с21п.
Предположим, что выборка наблюдений Ш разбита на две части А и В . В методах структурной оптимизации активно используются следующие, так называемые внешние критерии, селекции моделей [11-15]:
критерий регулярности:
А2(Б) = А2(Б/А) = |Jb -XBвА\2,
где запись А2 (Б / А) означает «ошибка» на выборке Б модели, коэффициенты, которой получены с использованием выборки А ;
критерий симметричной регулярности:
d2 = А2(Б/А) + А2(А/Б) = 1|уг -0а\' +
II II2 ;
+ | У А - ХАвБ\
критерий стабильности:
S2 =А2(А и Б / А) + А2(А и Б / Б) =
Уш — Xw вл\ Уш — XW вв || критерий непротиворечивости:
псм = ||XW вл — XW вв || ; критерий несмещенности по коэффициентам:
Пс = ||$ А — в Б 11 ; критерий вариативности:
V2 = (XW в А — Хшвш )T (Хшвш — ХшвБ ) . Теоретическое обоснование внешних критериев проведено в работах [11-14]. Анализ этих работ показывает, что в отношении методов структурной идентификации складывается теория, в основу которой положен принцип ./-оптимальности модели. Рассмотрим его.
J-оптимальная модель определяется решением задачи:
f * = Arg min J (f) , (3)
где i2f - множество всех возможных моделей,
формируемых на основе наблюдаемой Z . Теоретический (идеальный) J(f) определяет собой среднеквадратичную ошибку предсказания истинного отклика либо на всей выборке, либо на прогнозной части Б :
1 II И2 1 и и-
ЛЛ--Е\у-Х(\ , JBif) = ^EЪв-ХввЛ •
п И И Пб 11 11
При решении задачи (3) минимуму функционала J (f) соответствует оптимальная сглаживающая модель, а минимуму Jb (f) - оптимальная прогнозирующая. Теоретическое исследование критериев J(f) и Jb (f) показало, что в условиях шума с нулевой дисперсией минимумы этих критериев
приходятся на модель сложности s0 = m . При дис-
2
персии наблюдения а > 0 функции J(f) и Jb (f)
имеют единственный минимум в точке s й s® . 2*
С ростом а > 0 сложность s уменьшается, т. е. J-оптимальной становится все более простая мо-
дель. В пределе при относительно сильной зашумленности данных в качестве модели оптимальной сложности будет выбираться модель среднего. В качестве оценок для идеальных критериев 3(/) и
2
3в (/) могут выступать внешние критерии А (В) ,
2 2? ? й , 5 , ' А2к . Исследования [11-14] показы-
2 2 2 2 вают, что внешние критерии А (В) , й , 5 , А^
несмещённо оценивают ./-оптимальную модель.
Предлагаемые к использованию внешние критерии допускают достаточно простую статистическую интерпретацию с позиций проверки линейных гипотез [6]. Предположим, что ошибки наблюдения распределены по нормальному закону N(0, а21п) . Пусть априорные сведения о параметрах модели определены информацией из выборки А и состоят в выполнении ХТАХАв = ХтАуА . Поступают новые данные в виде выборки В . По выборке В производится оценивание параметров и осуществляется проверка гипотезы Н : ХААХАв = ХХА ■ Обозначим
^55 = (Ув - Хв 0В )Т (^В - Хв&в ) , ЯЯЯн = (Ув - Хв Он )т (Ув - Хв Он) , где 4 - оценки, полученные при ограничениях ХТХа6 = хАуа ■ ^-статистика для проверки гипотезы будет иметь вид:
„ (Я58н - Ш8) / 5 (А2 (в) - е2 (в)) / $
Г = - = ---
ЕББ /(пв - 5) е2 (в) / (пв - 5)
С учетом взаимосвязи критериев числитель ^-статистики можно записать в виде: ЛХ?н - ЕББ = п2см (в) = (вв - в а )т ХтвХв Фв - в А ) ■ Изменим постановку задачи. Пусть теперь параметры оцениваются на всей выборке Ж = А[]В и по-прежнему проверяется гипотеза Н : ХАХАв = ХАул ■ Тогда Е55 = (у - Х0)т (у - Хв) = е2 , ЕБ^ = (у - ХвА )А (у - ХвА). Числитель ^-статистики будет определяться величиной
ЕБ^ -Е55 = е2(А) + А2(в)-е2 =
= ф-6А)ТХТХ (в-6аА ,
а полностью ^-статистика запишется как:
„ (е2(А) + А2 (в)-е2)/5
г =-;-
е2/^ - ¿) ■
Можно рассмотреть также и проверку гипотезы о равенстве регрессий на выборках А и В. Гипотеза записывается как Н : вА = в в, а Г - статистика:
р__V 2/ 5
(е2(А) + е2(в))/(N - 25) ■
Таким образом, дополнительно к рассмотренным выше в качестве критериев селекции можно использовать функции, в виде соответствующих Е-статистик проверки гипотез.
Завершая обзор внешних критериев, отметим, что в практике регрессионного моделирования получило распространение использования повторных выборок. В этом случае можно предложить к использованию так называемый субидеальный критерий стабильности [15]. Для многомерных моделей, имеющих векторный отклик, в работах [16] предложены и исследованы матричные аналоги критериев селекции, использующие тестовые выборки.
Помимо рассмотренных выше в задачах поиска моделей оптимальной сложности в качестве критерия селекции моделей может быть использован так называемый критерий скользящего контроля. Как и для других внешних критериев селекции моделей, желательно, чтобы критерий скользящего контроля имел выраженный минимум на множестве моделей. Рассмотрим решение задачи повышения дискриминирующих свойств критерия скользящего контроля за счет выбора соответствующего плана эксперимента [17].
Пусть модель объекта подчиняется уравнению наблюдения (2). Используя всю выборку объема п , найдем оценку неизвестных параметров по методу наименьших квадратов (МНК оценку):
в = (ХТХ)-1 Хту ■ (4)
Критерий скользящего контроля строится следующим образом. Из выборки удаляется г -й элемент (х,, у¡) , а по остальным п -1 элементам
проводится оценивание параметров и осуществляется прогноз в эту неучтенную точку. Процедура повторяется п раз и результат усредняется:
п
VI = £(у, -хЩ})2, (5)
1=1
где хА - вектор регрессоров в /-ой точке выборки, в^ - оценки параметров в , вычисленные по выборке без /-го элемента. Используя известные формулы рекуррентного вычисления обратной матрицы, можно V а представить в матричном виде:
V\ = (у - ХА 3)ТО (у - Хт в), (6)
где О - диагональная матрица с элементами [О], = (1-хА(ХАХ)-1х,)-2, г = 1, п ■ Вводя обозначение Н = (I - ХА (ХА Х )~1 Х) и учитывая (1), запишем:
V 2л = (у + е)тНОН(у + е) = утНОНу + +2 ут НСН е + ет НСН е
Используя (7), легко выписывается математическое ожидание для у^:
/•'(У,2/.) = Е((у + е)Т НОН (у + /;)) =
= утнону+а11гна н
Учитывая, что К.АВ = 1тВА, Н2 = Н, а G - диагональная матрица, то
Е(у2ск)=утН0Ну + а2(Г0112. (8)
В работе [13] исследовалось поведение Е(ув зависимости от тех или иных ошибок спецификации X . Показано, что в случае, когда X включает X с избытком, первое слагаемое в (8) равно нулю. Второе слагаемое р = а21т01/2, как показано в [13], ограничено сверху и ведет себя как функция штрафа за переусложнение модели. Чем большее значение принимает 1тО112 , тем быстрее сдвигается минимум у ^ в сторону простых моделей при увеличении дисперсии шума С. Исследуем возможность уменьшить (тО1^ выбором плана эксперимента. Пусть X соответствует некоторому
плану эксперимента 4п . Тогда можно запи-
сать в виде:
min V Ck = Аmin(G)P, Аmin(G)
trGm =Ё (1 — d(Xj ,4п)У ,
(9)
j=1
где й(ху ,4п) = хТ (ХТХ ) 1 xj - дисперсия оценки у в j-ой точке плана [6]. Известно, что:
п
(XJ = Р .
(10)
j=1
Для любого плана 4п . Минимум 1тОУ2 по 4п
будет достигаться при условии, что все й(ху ,4п)
равны между собой. Это достигается, если 4 п - D-оптимальный план [6]. Для ненормированного D-оптимального плана й(х.,4п) = т/п, у = 1,...,п. Таким
образом минимальное значение 1тО1 2 достигается на D-оптимальном плане и равно ртШ = Сп2 / (п — р).
Если 4п не D-оптимальный план, то среди й(ху ,4п)
имеется разброс значений. Чем больше этот раз-
1/2
брос, тем больше 1гО и тем меньше помехоустойчивость критерия у 2Л.
К аналогичным выводам приходим, если анализировать не математическое ожидание критерия у2Л , а его оценку (6). Рассмотрим у2Л в (8) как квадратичную форму от матрицы G. Зафиксируем остаточную сумму квадратов
52Ф) = (у—ХТв)Т (у—ХТв) = р . Тогда:
S ( в)=P
1
(11)
^jüп (1 — d(Xj ,4n)f
Минимум (11) достигается в точке x*, которая соответствует максимуму d(Xj). Для произвольного ненормированного плана 4 п выполняется
max d(Xj,4J > p/n . (12)
j
Для D-оптимального плана в (12) достигается равенство и можно утверждать, что max min V2л = Pn2 / (n — pf .
in S г(в) = P
Выбирая в качестве 4 D-оптимальный план,
,, о
мы исключаем случай, когда минимум V ^ достигается не столько в результате правильно выбранной структуры Z , а за счет «ущербности» плана.
Использование внешних критериев селекции при решении задачи выбора модели оптимальной сложности, отличных от критерия скользящего контроля, предполагает разбиение выборки наблюдения на две части: обучающую и проверочную. В данной работе основное внимание будет уделено критериям качества моделей, связанным с точностью прогнозирования, в частности - критерию регулярности. В силу этого неизбежно встает задача управления разбиением выборки. Некоторые подходы к решению задачи разбиения с использованием методов оптимального планирования эксперимента предложены в работах [6; 18].
л
Записывая критерий А (Б) в канонической форме, легко получить его математическое ожидание [19]:
Е(А2 (ВУ) = (Хв - PBAxßf (Хв - РВАХАв) + +а2 (пб + tr (XTXa У (XtT )), где Р^ = XB (XAXA)—1XA . В [14] рассмотрены условия, при которых оптимальная структура, соответствующая минимуму (13), совпадает с истиной структурой s = m . Эти условия диктуют «квадратично зависимое» разбиение матрицы X :
(14)
(13)
р2XTXA = XBsXB ,
где р - некоторое произвольное число.
Точное квадратичное разбиение (14) может иметь место в лишь для специально подобранной матрицы X, что на практике маловероятно. Кроме того, рекомендации типа (14) не учитывают поведение второго слагаемого в (13). С учетом (14) его можно записать как:
(5,с) = а2(пв + 5/р2). (15)
Скорость возрастания (а) в зависимости от а определяет помехоустойчивость критерия селекции моделей. Ясно, что необходимо выбирать
разбиение с возможно большим значением р при малой величине пв ■
В общем случае разбиения Х на Х А и Х в величина в соответствии с (13) равна:
За(5,а) = а2(щ + К(ХТАХАУ ХТВХв)) ■ (16) Исследуем возможность минимизации (16) путем выбора того или иного варианта разбиения Х на Х А , Х при условии, что пв зафиксировано. Введем следующие обозначения. Пусть % есть непрерывный нормированный план, а М (%) -информационная матрица, равная
п
Х1ХА / пА = £ р1х1хА . Далее пусть Х определяет со-
1=1
бой множество точек, среди которых необходимо выбрать пА точек, присвоив им веса, равные 1/пА , а остальным точкам присвоить веса, равные 0. Оптимальный план % будем находить как решение следующей экстремальной задачи
%% = А^тах Ф[М(%)] ■ (17)
р
В качестве функционала Т[М(%)] будем рассматривать определитель информационной матрицы, что соответствует ^-оптимальному планированию эксперимента [20]. Для решения задачи (17) воспользуемся методом проекции градиента функционала ¥\М(%)] на активные гиперплоскости.
Пусть вектор р = (р,...,рп)А соответствует такому состоянию, что первые его пА компонент равны 1/пА , а остальные пв компонент равны 0. В этом случае линейное многообразие, на которое проектируется вектор-градиент будет образовано гиперплоскостями активных ограничений
п
Рпл + 1 = 0,..., Рпл +пв = 0 , £ Р, = 1 . В соответствии с тео-
1=1
*
ремой Куна-Таккера для того, чтобы точка р была
решением задачи (17) необходимо и достаточно выполнение условий [18]:
дТ[М (%')] дТ[М (%')]
■ а (х,,%) = хАМ (%)-1 х.
др,
г, А = па +1,...,п ; (18)
£ дПМ(%)-\±__дШ£Ж > о, г = п ■ (19)
1=1 дрА ПА дрпл+А
Для рассматриваемого функционала Т[М (%)] компоненты вектора градиента имеют вид:
д pJ "А ЧТ7у "А , (20) = ггМ (%)-1 ххА где а(ха ,%) - дисперсия оценки математического ожидания отклика в точке х, . По теореме оптимальности [20] в точках ^-оптимального плана % значения а(х ,%') равны 5, где 5 - размерность матрицы М(%). С учетом этого (19) можно записать как:
1 па
а (х ,С) ^ — £ а (х %*) = 5, г = па +1,..., п ■ (21)
пА 1=1 А
Если некоторый план % не является ^-оптимальным и для него рПл+; = 0,...,р^ + = 0 , то
а(х,,%) > 5, г = па +1,...,п ■ (22)
Утверждение. Если на Х существует ^-оптимальный план % , такой, что Р* =... = рПл+пв =1/Па, рА = а А = Па + Х..^п , то для него (гМ~'(%* )ХАвХв < (гМ~ 1(%)ХАвХв , где % - не Б -оптимальный план.
Проведенный анализ задачи разбиения Х , на Ха , Хв позволяет предложить достаточно простую схему действий: для заданного полного плана эксперимента в виде имеющейся выборки решается задача построения Б -оптимального плана %* с па точками из Х ■
Остановимся на вопросе как именно осуществлять ^-оптимальное разбиение выборки. В работах [21-22] предложена схема, по которой план эксперимента строится последовательным добавлением точек, начиная с выбора первой точки. Пусть исследуется объект, регрессионная модель наблюдения которого имеет вид:
у = г/( х, в) + е = вА / (х) + е
(23)
где вА = (в1,в2,в3,...,вт) - вектор неизвестных параметров модели, подлежащих оцениванию по результатам эксперимента; /А(х) = (/(х), /г(х), /г(х),..., /т(х)) -вектор известных функций; х - в общем случае вектор управляемых факторов; е - помеха наблюдения.
Определим задачу построения
^-оптимального п-точечного (п > т) плана эксперимента е* как следующую
е* = А^ тах \М(е* )|, (24)
еп
где информационная матрица нормированного плана
М(е*) = £Пр1/(х1 )/А(х), = I,
1=\ ■ (25)
р > 0, г = 1,...,п
Обозначим план эксперимента, состоящий из 5 точек, через е5 . Задачу (24) будем решать по последовательной схеме, добавляя точки в план в соответствии с критерием D-оптимальности. Информационная матрица «неполного» плана, т. е. при 5 < т , будет вырожденной. Применим регуляризацию по единичной матрице, вводя в рассмотрение матрицу
М(е3) = М (ея) + у1, (26)
где у - некоторый малый положительный параметр регуляризации. Запишем определитель матрицы
М(е), выраженный через ее собственные числа:
M (s+0
= MS) + yl\ = (it (Л S) + у)) • lm_s, (27)
где ^(е),1 = 1,..^ -ненулевые собственные числа матрицы М(ел.) в предположении, что они расположены на первых 5 позициях, 5 = щМ (е). Добавим к плану е5 новое 5 +1 - е наблюдение. Тогда собственные значения матрицы М ) будут не меньше собственных значений матрицы М(е) , т. е.
т
Лг (е+) = Лг е ) + 5р,0 <5, < 1 £6,. = Ц = !,..., т ,
,=1
где р - собственное значение матрицы однократного наблюдения М(х5+1) для добавленной точки х5+1, равное р = /Т (хх+/(хх+. Определитель матрицы
М(^) будет зависеть от распределения добавок 5, между собственными числами ^(е), что в конечном счете зависит от взаимных свойств матриц
М(е) и М(х5+1) . Запишем определитель матрицы М) в другом известном виде [20]:
М(е5) + Г (х,+1)ГТ (х^)
M S)
• [1 + fT (xs+1)M-\es )f(xs+1)]. (28)
Максимальное увеличение определителя достигается при
xs = Arg max f (x)M~\ss )f (x) ,
(29)
xeX
где х — область действия факторов х. По существу данной процедурой мы планируем получение квазимаксимального значения определителя главного минора ранга 5 +1, отличного от нуля, в условиях уже известного главного минора ранга 5 с преды-
дущего шага. Ссылка на квазиоптимальность идет по причине использования регуляризованной матрицы M(es) . Для того, чтобы на m -м шаге мы получили невырожденную информационную матрицу M(ss) необходимо на каждом шаге обеспечивать
возрастание ранга матрицы M(ss) . Обычно для этого достаточно, чтобы все m=s включенных точек были различны. Более строго можно потребовать, чтобы для включаемой на 5-ом шаге точки x выполнялось f (xs) £ R(M(ss_1)) , где R(M(ss_1)) - пространство образов, порождаемое столбцами M (ss-1) . Существование последовательности планов sl,s2,s3,...,sm приводящей к невырожденному плану ет , вытекает из самого факта существования невырожденного насыщенного плана. Последовательная схема начинается с поиска первой точки для включения в план. В этом случае М~1 (<<;0) = у~Ч и в соответствии с (29) первая точка x, включаемая в
план, будет доставлять максимум на X евклидовой норме вектора f (x) . Это равносильно тому, что
отыскивается матрица M(x) = f (x) fT (x) с максимальным ненулевым собственным числом p = fT (^[) f (xJ+. После m -го шага процедуры необходимость в регуляризации матрицы M(s) отпадает.
Нечёткие модели Такаги-Сугено типа MISO (multiple input, single output) представляют собой совокупность правил вида [1]:
IF x с Ai &• & xk с THEN y = Г (x), (30) где Aj¡ - нечеткое подмножество для переменной x с функцией принадлежности цА (x}) ; M — число правил i = 1, •.., M , r¡ (x) — функция, определяющая локальную зависимость отклика y от набора регрессий x = (xl,„.,xk)T . Четкое значение переменной y , полученное с использованием дефаз-зификации по методу центра тяжести, вычисляется по формуле
M
Lw k
y = J=M—; M = Пм (x). (31)
M
Lm,
j=1
Модель в виде (30), (31) будем называть FLR (Fuzzy Logic Regression) регрессионной моделью. Рассмотрим технику построения FLR регрессии для случая построения одномерной зависимости.
i=1
i =1
Для случая одной переменной x система правил (30) приобретает вид:
IF x с A THEN y = f (x), (32)
где Ai имеют функцию принадлежности (x) .
Необходимость нормировки в (31) отпадает, если считать, что функции принадлежности обладают тем свойством, что в любой точке x выполняется условие:
M
(*) = 1.
i=1
(33)
В случае локальной линейной зависимости отклика от фактора функции r¡' (x) приобретают
вид Г (х) = в'0 + в[х , i = 1, ..., M . В итоге можно считать, что регрессия y по x подчиняется следующему уравнению наблюдения:
M
У и )Ма, (Хи ) + ^ ,
i= . (34)
и = 1, ..., N В случае использования метода наименьших квадратов в глобальном его варианте все неизвестные параметры, входящие в (34), оцениваются совместно. При этом в качестве регрессоров используются следующие:
MA ( x ) . . . ^ Mam ( x ),
XMa1 ( Х )XMAM ( Х ) ( )
Одной из серьезных проблем построения нечетких TS (Takagi - Sugeno) моделей является быстрый рост числа правил вида (30) как при увеличении числа нечетких партиций при разбиении области определения входных переменных поровну, так и при увеличении числа входных факторов. В определенной степени снизить остроту данной проблемы можно, если использовать метод раздельного (локального) оценивания зависимостей Г (x), i = 1,...,M по взвешенному МНК. Пусть Mi из (31) - сила высказывания для i -го правила в (30). Введем в рассмотрение целевую функцию для взвешенного МНК следующего вида:
S (ff ) = (y - Xff )TW (У-Xff ) = = УТЩУ - 2ffT XTWy + eTXTWiXei где Wi = diagM M,2,..., MiN) , Mij - значение Mi в j-ой точке. Первые частные производные S (в' ) по
параметрам в1 имеют вид:
5S (ei )
d0i
= -2XTWy + 2XTWiX0i .
Приравнивая их нулю и решая получаемую систему нормальных уравнений, находим решение:
в = (XTWX) XTWy .
Видим, что параметры локальных моделей в этом случае оцениваются независимо.
Результаты Целью вычислительного эксперимента являлось исследование возможности определения модели оптимальной сложности, ориентируясь на критерий регулярности. При этом разбиение выборки на тестовую и обучающую осуществлялось с помощью D -оптимального планирования. Качество получаемых моделей оценивалось по среднеквадратичной ошибке MSE.
В качестве модели, порождающей данные, использовалась модель:
if( x е A )then rf = 4 - 8x, if(x е A) then f = 4 + 8x,'
где Aj - нечеткое подмножество для переменной x, заданной на отрезке [-1; 1] с функцией принадлежности ¡лА (x), j = 1,2 трапециевидного типа:
1; a < x < c
»4 =
1 -
0;
x - c d - c
c < x < d
d < x < t
» л
'0; a < x < c
x - c c < x < d
d - c
1- d < x < b
где а - с - ширина зоны пересечения. В нашем случае с = -0.25, а = 0.25 ■
В качестве помехи использовались нормально распределенные величины. Уровень помехи (дисперсия случайной величины) выбирался как 8 % от мощности незашумленного сигнала. Количество наблюдений выбиралось равным 50. Число подобластей, на которое разбивался весь интервал варьирования входного фактора, изменялось от 1 до 4, 5 - число параметров в TS модели. При этом использовались трапециевидные функции принадлежности.
Общая сложность нечеткой регрессионной модели при подборе оптимального ее варианта варьировалась от 1 до 12. При этом в качестве локальных моделей рассматривались модель сингл-тон, линейная и квадратичная. Описание моделей дано в таблице 1
Таблица 1. Виды тестируемых моделей Table 1. The types of tested models
Общая сложность, s / Число партиций / Вид локальной модели /
The overall complexity, s The number of partitions The type of local model
1 1 Синглтон
2 1 Линейная
2' 2 Синглтон
3 1 Квадратичная
3' 3 Синглтон
4 4 Синглтон
4' 2 Линейная
6 2 Квадратичная
6' 3 Линейная
8 4 Линейная
9 3 Квадратичная
12 4 Квадратичная
Ниже в таблице и на рисунках приведены результаты вычислительного эксперимента при использовании критерия регулярности.
Обсуждение По результатам вычислительного эксперимента видим, что минимум критерия регулярности приходится на TS модель с двумя партициями и линейной локальной моделью (табл. 2). Это соответствует
структуре истинной модели, которая использовалась для генерации данных. Отметим также, что характер зависимости критерия регулярности от сложности модели практически не изменяется при варьировании объема тестовой части выборки. Это дает возможность применять данный критерий, в том числе и при относительно малых объемах выборки данных.
Таблица 2. Значение критерия регулярности и MSE для моделей различной сложности s Table 2. The value of the criterion of regularity and MSE for models of varying complexity s
Критерий регулярности / The criterion of regularity
5 MSE Количество точек в тестовой части в % /
Number of points in the test sample in %
5 % 10 % 15 % 20 % 25 % 30 % 35 % 40 % 45 % 50 %
1 6,4762 36,6829 38,6291 73,0982 76,6864 102,9955 125,0439 135,3312 140,9731 159,4068 170,8733
2 6,4782 36,7370 38,8046 73,0624 76,7548 105,5034 125,0284 135,4470 141,2822 161,2357 171,2805
2' 6,4526 37,1429 39,4148 72,8938 76,3623 104,9540 124,7134 135,5518 141,7252 161,8034 172,4313
3 0,5535 3,4346 3,5750 9,0775 11,0749 11,0824 11,5303 15,2540 15,5373 22,3275 25,3949
3' 0,6251 9,8918 11,9539 14,5324 15,2884 22,1420 27,5157 32,3735 33,2761 34,7180 35,6558
4 0,9846 5,9169 11,4667 18,5816 19,1356 23,9402 26,5315 30,1576 32,0701 36,0808 42,6335
4' 0,0575 1,2929 2,3164 4,6224 4,8880 7,0329 8,8055 12,8592 13,2076 16,5151 18,0730
6 0,0655 1,5743 2,8556 5,6016 6,0685 10,8415 12,9567 15,8870 17,6983 18,4147 19,1165
6' 0,2547 2,6467 3,9972 7,1666 7,1335 11,5716 14,8966 19,3798 20,2081 21,1648 22,2404
8 0,0806 2,0053 3,6407 7,5068 8,1473 14,6594 16,5722 16,4878 18,4533 19,6693 20,0921
9 0,0731 2,4693 3,9699 6,9339 7,6426 16,3347 17,3407 16,7852 19,6263 21,3441 22,1235
12 0,1175 4,3838 4,8933 11,0526 11,2191 16,6875 20,4392 27,9854 27,6564 47,5308 36,2118
3 3' 4 4' б в 8
Рис. 1. График значений критерия регулярности Fig. 1. The graph of values of criterion of regularity
Рис. 2. График значений MSE Fig. 2. The graph of MSE values
Заключение
В данной работе рассмотрена проблема структурной оптимизации нечетких регрессионных Т8 моделей. Предлагается выбор оптимальной структуры осуществлять на основе критерия регулярности, который представляет собой ошибку прогноза на тестовой части выборки. Для повышения
устойчивости работы данной процедуры предлагается разбиение выборки на обучающую и тестовую части проводить с использованием D-оптимального планирования эксперимента. Для построения обучающей выборки в виде D-оптимального плана предлагается использовать процедуру последовательного наращивания спектра плана.
СПИСОК ЛИТЕРАТУРЫ
1. Takagi T., Sugeno M. Fuzzy Identification of Systems and Its Applications to Modeling and Control. IEEE Trans. on Systems, Man and Cybernetics, 1985. V. 15. No. 1. P. 116-132.
2. Babuska R.. Fuzzy Modelling for Control. London. Boston: Kluwer Academic Publishers, 1998. 257 P.
3. H. John and Lilly. Fuzzy control and identification. Wiley, 2010. 231 P.
4. Hao Ying. «General SISO Takagi-Sugeno Fuzzy Systems with Linear Rule Consequent are Universal Approximators», Transactions on Fuzzy Systems, Vol. 6, No. 4, November, 1998. P. 582-587.
5. Пегат А.. Нечеткое моделирование и управление. Пер. с англ. 2-е изд. Москва, 2013. 798 с.
6. Попов А. А. Оптимальное планирование эксперимента в задачах структурной и параметрической идентификации моделей многофакторных систем. Новосибирск, 2013. 296 с.
7. BANG-YONG SOHN. Robust fuzzy linear regression based on M-estimators. J. Appl. Math. & Computing Vol. 18 (2005), No. 1-2, P 591-601.
8. Chen-Chia Chuang, Shun-Feng Su, and Song-Shyong Chen. Robust TSK Fuzzy Modeling for Function Approximation With Outliers // IEEE Transactions On Fuzzy Systems, Vol. 9, No. 6, 2001. P. 810-821.
9. Попов А. А., Саутин С. А. Построение регрессионных зависимостей с использованием алгоритма опорных векторов с адаптивными функциями потерь // Научный вестник НГТУ. 2011. № 1 (42). С. 17-26.
10. Гультяева Т. А., Попов А. А., Саутин С. Методы статистического обучения в задачах регрессии и классификации: монография. Новосибирск, 2016. 322 с.
11. Степашко В. С., Кочерга Ю. Л. Методы и критерии решения задач структурной идентификации // Автоматика. 1985. № 5. С. 29-37.
12. Кочерга Ю. Л. J - оптимальная редукция структуры модели в схеме Гаусса - Маркова // Автоматика. 1988. № 4. С. 34-38.
13. Сарычев А. П. Усредненный критерий регулярности метода группового учета аргументов в задаче поиска наилучшей регрессии // Автоматика. 1990. № 5. С. 28-33.
14. Степашко В. С. Асимптотические свойства внешних критериев выбора моделей. // Автоматика. 1988. № 6. С. 75-82.
15. Попов А. А. Использование повторных выборок в критериях селекции моделей. Планирование эксперимента, идентификация, анализ и оптимизация многофакторных систем. Новосибирск. электротехн. ин-т. Новосибирск, 1990. С. 82-88.
16. Лисицин Д. В. Исследование критериев селекции многооткликовых регрессионных моделей. Сборник научных трудов НГТУ. Новосибирск, 1996. 2. С. 19-28.
17. Попов А. А. Планирование эксперимента в задачах структурного моделирования с использованием критерия скользящего прогноза // Заводская лаборатория. Диагностика материалов. 1996. Т. 62. № 10. С.42-44.
18. Попов А. А. Разбиение выборки для внешних критериев селекции моделей с использованием методов планирования эксперименто // Заводская лаборатория. Диагностика материалов. 1997. Т. 63. № 1. С. 49-53.
19. Юрачковский Ю. П. Грошков А. Н. Применение канонической формы внешних критериев для исследования их свойств // Автоматика. 1979. № 3. С. 85-89.
20. Федоров В. В. Активные регрессионные эксперименты. Математические методы планирования эксперимента. Новосибирск: Наука. 1981. С. 19-73.
21. Попов А. А. Последовательные схемы построения оптимальных планов эксперимента // Сборник научых трудов НГТУ. Новосибирск, 1995. Вып. 1. С. 39-44.
22. Попов А. А. Последовательные схемы синтеза оптимальных планов эксперимента // Доклады Академии наук высшей школы России. 2008. № 1 (10). С. 45-55.
23. Popov A. A., Holdonov A. A. Comparative research of estimation accuracy of parameters of fuzzy regression models with various types of M-estimates // 13th International scientific technical conference Actual problems of electronic instrument engineering (APEIE-2016): Proceedings: in 12 volumes, Novosibirsk, October 03.06, 2016. Volume 1, Part 2. P. 321-326.
Дата поступления статьи в редакцию 18.12.2017, принята к публикации 25.01.2018.
Информация об авторах: Попов Александр Александрович, доктор технических наук, профессор кафедры «Теоретическая и прикладная информатика» Адрес: Новосибирский государственный технический университет, 630073, Россия, г. Новосибирск, пр. Карла Маркса, 20 Телефон: +7 (913) 739-87-17 E-mail: [email protected] Spin-код: 1060-4707
Холдонов Абдурахмон Абдуллоевич, аспирант кафедры «Теоретическая и прикладная информатика»
Адрес: Новосибирский государственный технический университет,
630073, Россия, г. Новосибирск, пр. Карла Маркса, 20
Телефон: +7(906) 994-52-28
E-mail: [email protected]
Spin-код: 7073-2754
Заявленный вклад авторов:
Попов Александр Александрович: определение подходов к решению проблемы, общее руководство проектом, анализ, редактирование и дополнение текста статьи.
Холдонов Абдурахмон Абдуллоевич: разработка программного инструментария, проектирование и проведение вычислительного эксперимента, подготовка первоначального варианта текста.
Все авторы прочитали и одобрили окончательный вариант рукописи.
REFERENCES
1. Takagi T., Sugeno M. Fuzzy Identification of Systems and Its Applications to Modeling and Control. IEEE рTrans. on Systems, Man and Cybernetics, 1985. Vol. 15. No. 1, pp. 116-132
2. Babuska R. Fuzzy Modelling for Control. London. Boston: Kluwer Academic Publishers, 1998. 257 p.
3. John H. Lilly. Fuzzy Control and Identification. Wiley, 2010. 231 p.
4. Hao Ying. «General SISO Takagi-Sugeno Fuzzy Systems with Linear Rule Consequent are Universal Approximators», Transactions on Fuzzy Systems, Vol. 6, No. 4, November, 1998. pp. 582-587.
5. Pegat A. Nechetkoe modelirovanie i upravlenie (Fuzzy modeling and control), Trans. with English. 2 th ed. Moscow, 2013. 798 p.
6. Popov A. A. Optimal'noye planirovaniye eksperimenta v zadachakh strukturnoy i parametricheskoy identifikatsii modeley mnogofaktornykh system [Optimal experiment planning in problems of structural and parametric identification of models of multifactor systems], Novosibirsk, 2013. 296 p.
7. BANG-YONG SOHN. Robust fuzzy linear regression based on M-estimators. J. App1. Math. & Computing Vol. 18 (2005), No. 1-2, P. 591-601.
8. Chen-Chia Chuang, Shun-Feng Su, and Song-Shyong Chen. Robust TSK Fuzzy Modeling for FunctionApproximation With Outliers. IEEE TRANSACTIONS ON FUZZY SYSTEMS, Vol. 9, No. 6, 2001. pp. 810-821.
9. Popov A. A., Sautin S. A. Postroyeniye regressionnykh zavisimostey s ispol'zovaniyem algoritma opornykh vektorov s adaptivnymi funktsiyami poter' [The construction of regression dependencies using the support vector algorithm with adaptive loss functions], Nauchnyy vestnikNGTU. 2011. No. 1 (42), pp. 17-26.
10. Gul'tyayeva T. A., Popov A. A., Sautin S. Metody statisticheskogo obucheniya v zadachakh regressii i klassifikatsii [Methods of statistical learning in regression and classification problems], monograph. Novosibirsk, 2016.322 p.
11. Stepashko V. S., Kocherga Yu. L. Metody i kriterii resheniya zadach strukturnoi identifikatsii [Methods and criteria for solving problems of structural identification], Avtomatika [Automation], 1985. № 5. pp. 29-37.
12. Kocherga YU. L. J - optimal'naya reduktsiya struktury modeli v skheme Gaussa - Markova [Optimal reduction of the structure of the model in the Gauss-Markov scheme], Avtomatika [Automation]. 1988. No. 4, pp. 34-38.
13. Sarychev A. P. Usrednennyy kriteriy regulyarnosti metoda gruppovogo ucheta argumentov v zadache poiska nailuchshey regressii [The average criterion of regularity of the method of group accounting of arguments in the problem of finding the best regression], Avtomatika [Automation]. 1990. No. 5, pp. 28-33.
14. Stepashko V. S. Asimptoticheskiye svoystva vneshnikh kriteriyev vybora modeley [Asymptotic properties of external criteria for the choice of models], Avtomatika [Automation]. 1988. No. 6. pp. 75-82.
15. Popov A. A. Ispol'zovaniye povtornykh vyborok v kriteriyakh selektsii modeley. Planirovaniye eksperimenta, identifikatsiya, analiz i optimizatsiya mnogofaktornykh system [Use of repeated samples in the selection criteria of models. Experiment planning, identification, analysis and optimization of multifactor systems], Novosibirsk. electrotechnical. in-t. Novosibirsk, 1990. pp. 82-88.
BecmHUK НГHЭH. 2018. № 2 (81)
16. Lisitsin D. V. Issledovaniye kriteriyev selektsii mnogootklikovykh regressionnykh modeley [Investigation of selection criteria for multiple-regression regression models], Sbornik nauchnykh trudov NGTU [Collection of scientific works of NSTU], Novosibirsk, 1996. No. 2, pp. 19-28.
17. Popov A. A. Planirovaniye eksperimenta v zadachakh strukturnogo modelirovaniya s ispol'zovaniyem kriteriya skol'zyashchego prognoza. Zavodskaya laboratoriya [Planning an experiment in problems of structural modeling using the sliding forecast criterion.] Zavodskaya laboratoriya. Diagnostika materialov. [Factory laboratory, Diagnostics ofmaterials]. 1996. Vol. 62. No. 10. pp. 42-44.
18. Popov A. A. Razbiyeniye vyborki dlya vneshnikh kriteriyev selektsii modeley s ispol'zovaniyem metodov planirovaniya eksperimentov [Split the sample for external selection criteria for models using experiment planning methods], Zavodskaya laboratoriya. Diagnostika materialov. [Factory laboratory, Diagnostics of materials]. 1997. Vol. 63. No. 1, pp. 49-53.
19. Yurachkovskiy YU. P. Groshkov A. N., Primeneniye kanonicheskoy formy vneshnikh kriteriyev dlya issledovaniya ikh svoystv [Application of the canonical form of external criteria for the study of their properties], Avtomatika [Automation]. 1979. No. 3, pp. 85-89.
20. Fedorov V. V. Aktivnyye regressionnyye eksperimenty. Matematicheskiye metody planirovaniya eksperimenta [Active regression experiments. Mathematical methods of experiment planning], Novosibirsk: Science. 1981.pp. 19-73.
21. Popov A. A. Posledovatel'nyye skhemy postroyeniya optimal'nykh planov eksperimenta [Sequential schemes for constructing optimal experiment plans. Collection of scientific works of the NSTU] Novosibirsk, 1995. Issue. No. 1, pp. 39-44.
22. Popov A. A. Posledovatel'nyye skhemy sinteza optimal'nykh planov eksperimenta [Sequential schemes for the synthesis of optimal experiment plans], Doklady Akademii nauk vysshei shkoly Rossii [Reports of the Academy of Sciences of the Higher School ofRussia]. 2008. No. 1 (10), pp. 45-55.
23. Popov A. A., Holdonov A. A. Comparative research of estimation accuracy of parameters of fuzzy regression models with various types of M-estimates. 13th International scientifictechnical conference Actual problems of electronic instrument engineering (APEIE-2016): Proceedings: in 12 volumes, Novosibirsk, October 03.06, 2016. Volume 1, Part 2. pp. 321-326.
Submitted 18.12.2017, revised 25.01.2018.
About the authors:
Aleksandr A. Popov, Dr. Sci. (Engineering), professor of the chair «Theoretical and Applied Computer Science». Address: Novosibirsk State Technical University, 606340, Russia, Novosibirsk, 20, Prospekt K. Marksa Telephone: +7(913) 739-87-17 E-mail: [email protected] Spin-code: 1060-4707
Abdurakhmon A. Kholdonov, postgraduate student of the chair «Theoretical and Applied Computer Science». Address: Novosibirsk State Technical University, 606340, Russia, Novosibirsk, 20, Prospekt K. Marksa Telephone: +7(906) 994-52-28 E-mail: [email protected] Spin-code: 7073-2754
Contribution of the authors:
Aleksandr A. Popov, determination of approaches to solving problems, managed the research project, analysing, editing and supplementing the text.
Abdurakhmon A. Kholdonov, development of software tools, designing and conducting computational experiment, preparation of the initial version of the text.
All authors have read and approved the final manuscript.