Алгоритм и методика отбора данных для моделирования

Сарьян Анна Сергеевна

Подсистема выявления паттернов сбоев функционирует в режиме реального времени, выполняя краткосрочный (до 1 ч) анализ изменений состояния устройств, на основе которого формируются паттерны сбоев устройств ЖАТ. В период тестовой эксплуатации подсистемы паттерны подлежат обязательной проверке технологами ЦТДМ, в будущем же планируется перевод подсистемы в автономный режим работы. Поддерживается интерактивный режим, в котором подсистема предоставляет пользователю (технологу ЦТДМ) возможность самостоятельно сформировать паттерн искомой последовательности сбоев (изменений состояния устройства) и выполняет в базе данных ЦТДМ поиск последовательностей, удовлетворяющих условиям паттерна.

Информирование эксплуатационного персонала о возможных сбоях будет осуществляться с применением различных средств визуализации, в сочетании с текстовым резюмированием и «нечеткими» оценками уровня технического состояния устройства.

Использовать систему предполагается в составе программного обеспечения Центра технического диагностирования и мониторинга Северо-Кавказской железной дороги (ЦТДМ СКЖД), рабочее название системы - ИАД-ЦТДМ.

Выводы

Разработка и внедрение предлагаемой системы интеллектуального анализа данных технического диагностирования позволит снизить число возникающих отказов за счет их предупреждения. Применение вероятностной модели зависимостей при разработке базы знаний системы ИАД технического диагностирования позволит оценивать вероятность возникновения отказа устройств ЖАТ и соответствующим образом корректировать план-график ТО.

Библиографический список

1 Федорчук, А.Е. Новые информационные технологии: автоматизация технического диагностирования и мониторинга устройств ЖАТ (система АДК-СЦБ) / А.Е. Федорчук, А.А. Сепетый, В.Н. Иванченко. - Ростов н/Д : РГУПС, 2008. - 443 с.

2 Piatetsky-Shapiro, G.I. Knowledge Discovery in Databases / G.I. Piatetsky-Shapiro, W. Fraw-ley. - Cambridge : MIT Press, 1991.

3 Нестеров, В.В. Совершенствование технического обслуживания устройств ЖАТ на основе внедрения систем диагностирования на примере АПК-ДК и АСУ-Ш / В.В. Нестеров // Сб. докл. «ТрансЖАТ-2005». Автоматика и телемеханика на железнодорожном транспорте. - Ростов н/Д, 2005.

- С. 48-52.

4 Аверкиев, С.А. Проблемы проектирования, строительства и сопровождения при эксплуатации автоматизированной системы диспетчерского контроля АСДК «ГТСС-Сектор» / С.А. Аверкиев // Сб. докл. «ТрансЖАТ-2005». Автоматика и телемеханика на железнодорожном транспорте.

- Ростов н/Д, 2005. - С. 3-4.

5 Федорчук, А.Е. Система диагностики, структура построения и технология использования в эксплуатации на примере АДК-СЦБ / А.Е. Федорчук, Е.А. Гоман // Сб. докл. «ТрансЖАТ-2005». Автоматика и телемеханика на железнодорожном транспорте. - Ростов н/Д, 2005. - C. 118-119.

6 Сапожников, В.В. Надежность систем железнодорожной автоматики, телемеханики и связи : учеб. пособие для вузов ж.-д. трансп. / В.В. Сапожников, Вл. В. Сапожников, В.И. Шаманов.

- М. : Маршрут, 2003. - 260 с.

7 Тулупьев, А.Л. Байесовские сети. Логико-вероятностный подход : научное издание / А. Л. Тулупьев, С И. Николенко, А.В. Сироткин. - СПб. : Наука, 2006. - 607 с.

8 Рассел, С. Искусственный интеллект: современный подход / С. Рассел, П. Норвиг. - М. : Вильямс, 2006. - 1408 с.

9 MacKay, D. Information theory, inference and learning algorithms / D. MacKay. - Cambridge University Press, 2005. - 628 p.

10 Murphy, K. A Brief introduction to graphical models and Bayesian networks / K. Murphy.

- Berkeley, 2001. - 19 p.

УДК 519.85 + 06

А.С. Сарьян

АЛГОРИТМ И МЕТОДИКА ОТБОРА ДАННЫХ ДЛЯ МОДЕЛИРОВАНИЯ

Задача управления сложными объектами, каким является сортировочная станция, требует построения адекватных моделей технологических процессов сортировки и процедур принятия оптимальных решений оператором. Показано [1], что ресурсов теории автоматического управления и регулирования недостаточно для обеспечения безопасности и качества роспуска составов. Решение проблемы видится в создании систем интеллектуального функционирования.

Разработка интеллектуальных систем предполагает, что человек в этой системе выполняет новые роли. Он является биологической составляющей этой системы. С одной стороны, он обучает машину, так как ряд моделей строится на данных, полученных от человека, как эксперта, и одновременно обучается принятию решений - с другой, если модель построена машиной на статистически полученных данных. Взаимодействие человека и машины дает положительный синергетический эффект, повышающий качество системы управления.

Синтез математических моделей процессов и процедур принятия решений связан с преодолением ряда вычислительных трудностей [2], важнейшей из которых является проблема отбора данных для статистической обработки результатов наблюдений за идентифицируемым процессом. Ее решение требует как привлечения опыта и интуиции эксперта (постановка задачи, выбор критериев оптимизации и пр.), так и использования преимуществ машинной обработки информации (высокие быстродействие и память).

В теории известны два подхода:

- методы пассивной идентификации (данные собираются без активного вмешательства человека в рабочий процесс) [3];

- методы активной идентификации (тестовые сигналы на объект рассчитываются заранее)

[4].

Оба подхода имеют свои преимущества и недостатки. Для компенсации недостатков и объединения преимуществ получил развитие, так называемый, активно-пассивный подход к моделированию сложных объектов, позволяющий использовать теорию самоорганизации вычислительных процессов, снимающий жесткие ограничения на условия моделирования [5]. Суть подхода состоит в том, что исходные данные собираются по результатам реальной работы сортировочного комплекса (пассивно), но для моделирования процесса из этих данных отбираются (активная составляющая метода) наблюдения, обеспечивающие устойчивость и точность вычислительного процесса.

Рассмотрим подробнее механизм осуществления отбора данных и построения модели.

Пусть модель объекта имеет вид

У

m

Z

J = 1

a .x . + є = ax + J J

є,

(1)

где х = (хі, Х2, xm)T - m-мерный входной вектор, некоррелированных факторов исследуемого про-

цесса;

у - выход объекта;

а = (аі, а2, ..., ат)т- вектор искомых весовых коэффициентов;

є - ошибка наблюдения величины у с математическим ожиданием М (є) = 0 и постоянной дисперсией.

При роспуске составов с горки компонентами входного вектора х могут быть параметры отцепа: вес, число вагонов и осей в отцепе, тип вагонов (платформа, полувагон, цистерна и пр.), тип подшипника и т.д. В качестве выходной переменной у могут выступать скорость отцепа в заданной точке (стрелка разделения отцепов, тормозная позиция), дальность пробега отцепа в парке формирования.

Линейность модели (1) не является ограничивающим фактором. Если реальная зависимость имеет нелинейные члены (степени, произведения исходных факторов), то переобозначением их (введением фиктивных факторов), мы достигаем вида (1).

В этом случае, а также при нарушении иных ограничений задачи (коррелированность х, , аддитивность ошибки є, ее нулевое математическое ожидание), речь идет об аппроксимации неизвестной зависимости моделью вида (1).

Для идентификации объекта моделью (1) достаточно из n>m имеющихся наблюдений отобрать m штук, составить систему линейных алгебраических уравнений и решить ее:

Xta = Y, a = Ö-1Y = ZY,

(2)

где X = -J x I - матрица значений J-го фактора в i-м наблюдении;

o 1iJ J

Y = (Уі,..., ym) - наблюдения выходной величины.

Для увеличения статистической достоверности можно использовать и число уравнений количеством больше m. В этом случае переходим к обобщенному решению системы линейных алгебраических уравнений, умножив левую и правую части исходной прямоугольной системы на транспонированную матрицу левой части.

ISSN 0201-727X

ВЕСТНИК РГУПС

№ 2/2010

Чувствительность оценок а к небольшим изменениям вектора Y можно определить выражением:

S.. = ^ = Z.

Jl dy

(3)

Элемент zj. матрицы Z отражает чувствительность а. к l-му наблюдению, l-й столбец Z характеризует чувствительность всего вектора а к l-му наблюдению. Численную оценку чувствительности можно получить, вводя различные нормы матрицы Z и ее столбцов.

В [5] предложено перераспределить наблюдения в Х0 таким образом, чтобы с увеличением номера уравнения чувствительность решения убывала, тогда наиболее чувствительное уравнение окажется на первом месте. Вводя нижней строкой новое уравнение (отражающее новое наблюдение) и выводя соответственно первую строку, получим матрицу Х1, для которой вся процедура повторяется. При этом используется известный факт, что перемена местами строк матрицы Х влечет за собой перестановку соответствующих столбцов в матрице Xі. Алгоритм заканчивается при полном переборе n - наблюдений. Различные начальные матрицыХ0 приводят, в общем, к различным конечным наборам наблюдений, отличающихся повышенной устойчивостью вычислительного процесса к ошибкам в данных, поэтому здесь целесообразно использовать самоорганизующиеся процедуры, обеспечивающие снижение размерности задачи.

Рассмотрим действие данного принципа на примере работы автомата-советчика по прогнозу скорости выхода отцепа из тормозной позиции [6]. Для К разных отцепов имеется таблица, основанная на данных, полученных от экспертов.

i Xı *2 Хз х4 V i Хі *2 Хз х4 V

г р эксп. г р эксп.

1 1 1 5,0 810 3,42 11 4 1 4,0 300 1,69

2 1 2 4,0 30 1,50 12 4 1 5,0 512 2,47

3 1 3 5,0 217 2,81 13 4 2 4,5 190 1,72

4 2 1 5,0 362 2,50 14 4 3 4,5 75 1,50

5 2 1 5,0 462 2,81 15 5 1 4,5 270 1,66

6 2 2 4,5 199 1,97 16 5 2 5,0 106 1,50

7 2 3 4,0 420 2,25 17 5 3 5,0 420 2,31

8 3 1 4,5 646 2,63 18 6 1 4,5 300 1,69

9 3 2 4,0 780 2,84 19 6 2 5,0 255 1,66

10 3 3 4,0 300 1,97 20 6 3 4,5 346 1,70

Здесь Vp - начальная расчётная скорость отцепа, определенная экспертом; х1 - вес отцепа;

х2 - длина отцепа в вагонах; х3 - ходовые свойства отцепа; х4 - длина участка свободного пробега

отцепа до соударения с накапливаемым составом.

Из имеющегося набора данных необходимо выбрать такой, при котором модель будет наиболее продуктивной. Рассмотрим механизм осуществления отбора данных, наиболее устойчивых к ошибкам, и построения модели нашего примера.

В среде программирования Delphi разработана программа, осуществляющая механизм отбора данных, описанный выше. На первом шаге программа просит указать количество наблюдений («количество строк входной матрицы») и количество учитываемых признаков («количество параметров входной матрицы»). Далее с клавиатуры заполняется входная матрица с данными таблицы.

Затем происходит расчет по следующему алгоритму:

1 Из исходной матрицы выбираются первые 4 наблюдения.

2 Формируется промежуточная матрица.

3 Находится обратная матрица.

4 Вычисляются суммы по столбцам обратной матрицы (Sl

4

^ x.n , где l - номер столбца

n=1

обратной матрицы, n - количество строк обратной матрицы).

5 Строка промежуточной матрицы, соответствующая столбцу с наибольшей суммой в обратной матрице, записывается в результирующую таблицу и в промежуточной заменяется следующим по номеру уравнением исходной матрицы.

6 В случае, когда промежуточная матрица является вырожденной, программа автоматически меняет строки местами, до тех пор, пока не найдется решение (рис. 1).

7 В итоге получаем таблицу с отсортированными в порядке убывания наблюдениями (рис. 2).

Анализируя полученный результат, делаем вывод, что последние 9 наблюдений результирующей матрицы наименее чувствительны к ошибкам в данных (значения их чувствительности S; < 1). Следовательно, строим модель, используя наблюдения из таблицы с номерами: 4; 8; 7; 17; 20; 18; 9; 3; 1.

Таким образом, на основании соотношения расчетов и данных таблицы имеем систему девяти уравнений с четырьмя неизвестными:

2^1 + ^2 + 5аз + 362^4 = 2,5;

3^1 + ^2 + 4,5аз + 646^4 = 2,63;

2^1 + 3^2 + 4^3 + 420^4 = 2,25;

5^1 + 3^2 + 5^3 + 420^4 = 2,31;

< 6^1 + 3^2 + 4,5^3 + 346^4 = 1,7 (4)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6^1 + Ü2 + 4,5й3 + 300^4 = 1,69;

3^1 + 2^2 + 4^3 + 780^4 = 2,84; a + 3^2 + 5^3 + 217 ^4 = 2,81; a + ^2 + 5^3 + 810^4 = 3,42.

В общем виде систему (4) можно записать так:

a1 ха + a2 хг 2 + a3 хг 3 + а4 хг 4 = V,

(5)

где i = 1, 2, ... n, а n - число уравнений системы (в нашем случае n = 9).

Эта система, очевидно, не имеет решения в обычно понимаемом смысле, так как результаты наблюдений и экспертные оценки характеризуются ошибками. Математически задача поставлена некорректно. Следует использовать методы решения некорректных задач [5]. В данном случае наиболее подходящим является метод квазирешения, суть которого состоит в нахождении таких коэффициентов, при которых минимизируется сумма квадратов разностей левых Лі и правых Пі частей решаемой системы (4). Аналитически эту идею можно представить следующим образом (6):

J =£ (Л i - П i )2 ^ min

(6)

i=0

Рис. 1. Фрагмент протокола расчетов

Рис. 2. Результат работы программы

Для нахождения неизвестных коэффициентов aj, удовлетворяющих (6), продифференцируем полученное выражение по aj, где j = 1, ..., 4, приравняем полученные уравнения к нулю и получим систему из четырех уравнений с четырьмя неизвестными:

dJ

да,

= 2V(а1 Xı + a2x2 + a3xi3 + a4x4 -Уі)(xij) = 0

(7)

"j і=1

В нашем примере, после упрощения, получаем следующую систему уравнений:

125a1 + 60a2 + 132,5a3 + 12845a4 - 64 = 0;

60a, + 44a2 + 82,5a3 + 7887a4 - 43 = 0;

I 1 2 3 4 (8)

132,5a, + 82,5a2 + 192,75a3 + 19659a4 -103 = 0;

12845a, + 7887a2 + 19659a3 + 2422465a4 -11210 = 0.

Ее решение имеет вид:

a1 = -0,168; a2 = 0,067; a3 = 0,457; a4 = 0,002.

Следовательно, расчетная скорость вычисляется по формуле:

- 0,168xn + 0,067xt2 + 0,45xi3 + 0,002xt4 = V.

Производя необходимые вычисления, получаем следующие значения:

V1p = 2,59; V2p = 2,65; ^ = 2,36;^ = 2,32;^ = 1,80;V6p = 1,59; = 2,70; V8p = 2,66; = 3,47.

Определим погрешность вычисления Vp по формуле:

-= 1V (Vi

- iV Vpyenî

V'p).

(9)

После подстановки значений Vp эксп. и Vp получим - = 0,097, что составляет 3,9 % от среднего значения Vp эксп., взятого из таблицы.

Самую большую разницу между скоростью, заданной экспертом, и рассчитанной скоростью наблюдаем при I = 8 (соответствует третьему наблюдению из таблицы). Разность составляет 0,0213 (менее 1 %).

Для сравнения построим модель по всем данным таблицы, не производя отбора данных.

После аналогично произведенных вычислений имеем следующую систему уравнений (10):

293a1 + 132a2 + 317a3 + 22815a4 -136 = 0;

132ax + 86a2 + 172,5a3 + 12116a4 - 79 = 0;

* 317a! + 172,5a2 + 421,75a3 + 32157a4 -196 = 0; (10)

^ 22815a! + 12116a2 + 32157a3 + 3309440a4 -16772 = 0.

Ее решение имеет вид:

a1 =-0,161; a2 =0,063; a3 =0,413; a4 =0,002.

Следовательно, расчетная скорость вычисляется по формуле:

- 0,161хя + 0,063хг.2 + 0,413хг3 + 0,002хг.4 = V.

Производя необходимые вычисления, получаем:

V p = 3,53;V2 p = 1,68; V3 p = 2,51;V4 p = 2,51; V5 p = 2,70; V, p = 2,05; V7 p = 2,33;

V p = 2,69;V9 p = 2,80; Vw p = 1,94;Vn p = 1,65; V12 p = 2,47V p = 1,71; Vu p = 1,55;

V15 p = 1,64;V16 p = 1,59;V17 p = 2,26;V18 p = 1,54;V19 p = 1,72;V20 p = 1,75.

Погрешность вычисления є = 0,102, что составляет 5 % от среднего значения Vp эксп., взятого из таблицы.

Самую большую разницу между скоростью, заданной экспертом, и рассчитанной скоростью наблюдаем при i = 3. Разность составляет 0,0880 (3,2 %). Следует заметить, что наибольшая разница при построении модели с учетом чувствительности данных к ошибкам также определилась в третьем наблюдении, но составила менее 1 %.

Выводы

В данной работе развит метод, предложенный в [1]. А именно:

1 Сняты следующие ограничения:

- известности и линейности идентифицируемой модели;

- некоррелированности входных факторов модели;

- нормальность распределения ошибки наблюдения выходной величины;

- требования М (є) = 0 и постоянной дисперсии.

Достигнуто это за счет постановки задачи аппроксимации в отличие от задачи идентификации «физической» модели.

2 Разработано программное обеспечение метода.

Библиографический список

1 Железнодорожный транспорт: на пути к интеллектуальному управлению : монография / С.Е. Ададуров, В.А. Гапанович, Н.Н. Лябах, А.Н. Шабельников. - Ростов н/Д, 2010.

2 Сарьян, А.С. Разработка систем функционирования на железнодорожном транспорте: проблемы, пути развития / А.С. Сарьян // Сб. тр. конф. «Транспорт-2009». - Ростов н/Д, 2009.

3 Муха, Ю.А. Описание процесса скатывания отцепов с горки при помощи метода планирования эксперимента / Ю.А. Муха. - Днепропетровск : ДИИТ, 1975. - Вып. 168/9. - С. 3-19.

4 Круг, Г.К. Планирование эксперимента в задачах идентификации и экстраполяции / Г.К. Круг, Ю.А. Сосулин, В.А. Фатуев. - М. : Наука, 1977. - 208 с.

5 Лябах, Н.Н. Техническая кибернетика на железнодорожном транспорте : учеб. пособие / Н.Н. Лябах, А Н. Шабельников. - Ростов н/Д : РГУПС; СКНЦ ВШ, 2002. - 283 с.

6 Шабельников, А.Н. Совершенствование системы прицельного торможения отцепов на сортировочных горках / А.Н. Шабельников, В.Р. Одикадзе // Известия вузов. Северо-Кавказский регион. - 2007. - № 4.

Алгоритм и методика отбора данных для моделирования Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Сарьян Анна Сергеевна

Похожие темы научных работ по математике , автор научной работы — Сарьян Анна Сергеевна

Algorithm and methods for modelling data selection

Текст научной работы на тему «Алгоритм и методика отбора данных для моделирования»