Научная статья на тему 'Обработка и разведочный анализ числовых массивов данных'

Обработка и разведочный анализ числовых массивов данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
370
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫБОРКА / БИНАРНЫЙ РЯД / ОБРАБОТКА ДАННЫХ / ФИЛЬТРАЦИЯ / РАЗВЕДОЧНЫЙ АНАЛИЗ / СТАЦИОНАРНОСТЬ ЗНАЧЕНИЙ ВЫБОРКИ / АНАЛИЗ НА ВЫБРОС / СТАТИСТИЧЕСКИЕ КРИТЕРИИ / SAMPLE / BINARY SEQUENCE / DATA PROCESSING / FILTERING / EXPLORATORY ANALYSIS / STATIONARITY OF SAMPLE VALUES / OUTLIER ANALYSIS / STATISTICAL CRITERIA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чокой Владимир Захарьевич

Управление процессами обслуживания авиационной техники предполагает выполнение разнообразных комплексов работ логистического, организационно-технического и технологического характера. Общими для перечисленных составляющих являются вопросы наблюдений за объектами и процессами с целью сбора количественной информации, ее обработки и первичного (разведочного) анализа перед использованием для принятия решений. В этой связи рассмотрены актуальные вопросы математического и инструментального обеспечения обработки и разведочного анализа числовых массивов в условиях эксплуатирующих организаций и при обучении в образовательных учреждениях гражданской авиации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чокой Владимир Захарьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Data processing and exploratory data analysis

Aircraft maintenance procedures imply doing different work of logistic, organizational and technical and technological character. Their common issues are those of surveillance objects and processes for the purpose of numerical data collection, processing and exploratory data analysis before using for taking decisions. The urgent issues of mathematical and instrumental support for processing and exploratory data analysis within the operating company and under teaching in educational establishments of civil aviation are discussed in this regard.

Текст научной работы на тему «Обработка и разведочный анализ числовых массивов данных»

Международный информационно-аналитический журнал «Crede Experto: транспорт, общество, образование, язык». № 3 (14). Сентябрь 2017 (http://ce.if-mstuca.ru)

УДК 004.588 ББК 74.5 Ч-751

В. 3. Чокой Иркутск, Россия

ОБРАБОТКА И РАЗВЕДОЧНЫЙ АНАЛИЗ ЧИСЛОВЫХ МАССИВОВ ДАННЫХ

Управление процессами обслуживания авиационной техники предполагает выполнение разнообразных комплексов работ логистического, организационно-технического и технологического характера. Общими для перечисленных составляющих являются вопросы наблюдений за объектами и процессами с целью сбора количественной информации, ее обработки и первичного (разведочного) анализа перед использованием для принятия решений. В этой связи рассмотрены актуальные вопросы математического и инструментального обеспечения обработки и разведочного анализа числовых массивов в условиях эксплуатирующих организаций и при обучении в образовательных учреждениях гражданской авиации.

Ключевые слова: выборка, бинарный ряд, обработка данных, фильтрация, разведочный анализ, стационарность значений выборки, анализ на выброс, статистические критерии.

V. Z. Chokoj Irkutsk, Russia

DATA PROCESSING AND EXPLORATORY DATA ANALYSIS

Aircraft maintenance procedures imply doing different work of logistic, organizational and technical and technological character. Their common issues are those of surveillance objects and processes for the purpose of numerical data collection, processing and exploratory data analysis before using for taking decisions. The urgent

© Чокой В. 3., 2017

issues of mathematical and instrumental support for processing and exploratory data analysis within the operating company and under teaching in educational establishments of civil aviation are discussed in this regard.

Key words: sample, binary sequence, data processing, filtering, exploratory analysis, stationarity of sample values, outlier analysis, statistical criteria.

Необходимые объемы и требуемое качество (достоверность) исходных данных во многом являются определяющими при управлении сложными организационно-техническими системами гражданской авиации, где цена ошибок управления чрезвычайно велика. Это обусловливает важность математического, методического и программного обеспечения вопросов первичной обработки и анализа числовых данных. При этом важно, чтобы рекомендуемые средства обработки и анализа соответствовали реальным условиям и возможностям эксплуатирующих организаций и образовательных учреждений.

К классу задач первичной обработки результатов наблюдений и к предварительному анализу результатов наблюдений можно отнести, прежде всего, разведочный анализ, фильтрацию, анализ стационарности данных, анализ динамики нестационарных процессов.

Разведочный анализ предполагает выявление в данных значимо отличающихся значений, называемых выбросами, и близких к ним значений, называемых маргиналами. Такие значения, если они случайны, могут в последующем существенно исказить результаты использования накопленных данных, например, при формировании прогнозных моделей. В этой связи выявленные аномалии, после дополнительного анализа, должны быть своевременно устранены.

Разведочный анализ обычно сводится к проверке гипотезы о статистической однородности выборки после добавления к ней нового значения хп, не укладывающегося в текущий размах значений. С этой целью используются различные алгоритмы, инвариантные к аномальным максимуму и минимуму, и основанные на критериях Диксона, r-статистики, Граббса, трех сигм, Ирвина, Романовского, Кокрена и других.

Алгоритм с критерием Диксона. После ранжирования исходной выборки в порядке не убывания рассчитывают фактическое значение критерия:

Далее, задавшись уровнем значимости а, определяют табулированное (например, в [Айвазян, 1998]) пороговое значение критерия п. На завершающем этапе сравнивают фактическое и пороговое значения критерия. Если п<йп (или йа, п<й), то исследуемое значение Хп (или Х1) признается значимо аномальным, в противном случае - нормальным (то есть значимо не отличающимся от предшествующих значений выборки).

Алгоритм с г-статистикой. Вначале выполняют ранжирование выборки в порядке не убывания и расчет фактического значения г-статистики: % _^

гп = —---при подозрении хп на аномальный максимум;

где: х - среднее по выборке (с учетом анализируемого значения);

Их - дисперсия выборки (с учетом анализируемого значения).

Далее, задавшись уровнем значимости а, и рассчитав число степеней свободы / = п-2, определяют табулированное (например, в [Айвазян, 1998]) пороговое значение критерия га,/. На завершающем этапе сравнивают фактическое и пороговое значения критерия. Если га,/< гп (или га, /< г1), то исследуемое значение хп (или х1) признается значимо аномальным, в противном случае - нормальным.

Алгоритм с критерием Граббса. Вначале выполняют ранжирование выборки в порядке не убывания и расчет фактического значения критерия:

йп = Хп Хп 1 - при подозрении хп на аномальный максимум;

--при подозрении х± на аномальный минимум.

%П_Х1

%2_х1

^ = —— ПрИ подозрении х± на аномальный минимум,

подозрении х± на аномальный минимум.

Далее, задавшись уровнем значимости а, определяют табулированное (например, в [Айвазян, 1998]) пороговое значение критерия дап. На завершающем этапе сравнивают фактическое и пороговое значения критерия. Если дап < дп (или дап < д±), то исследуемое значение хп (или х1) признается значимо аномальным, в противном случае - нормальным.

Алгоритм с критерием «трех сигм». Используется для нормально и квазинор-мально распределенных выборок. Вначале рассчитываются среднее х и СКО ох. Далее проверяется выполнение условия |х — хп| > 3 • ох. Если условие выполняется, то хп признается аномальным, в противном случае - нормальным. Часто условие «трех сигм» считают чрезмерно жестким, приводящим к излишней отбраковке значений исходной выборки. В этой связи используют более лояльные условия:

- при 6 < п < 100 используют условие |х — хп| >4 • ах;

- при 100 < п < 1000 используют условие |х — хп| > 4,5 • ах;

- при 1000 < п < 10000 используют условие |х — хп| >5 • ах.

Алгоритм с критерием Ирвина. Вначале выполняют ранжирование выборки

в порядке не убывания, оценку СКО ох и расчет фактического значения критерия:

X'п Х'П—Л ^

=--при подозрении хп на аномальный максимум;

ах

^ = Х2_Х1 _ подозрении х± на аномальный минимум.

ах

Далее, задавшись уровнем значимости а, определяют пороговое значение критерия:

Ла.п = 2 • 7^+0,6 - при а = 0,1;

Ла.п = 2,5 • 7п + 0,75 - при а = 0,05;

Ла.п = 3 • 7^+1,15 - при а = 0,01.

На завершающем этапе сравнивают фактическое и пороговое значения критерия. Если < цп (или < ), то исследуемое значение Хп (или х^) признается значимо аномальным, в противном случае - нормальным.

Алгоритм с критерием Романовского. Часто используют для коротких выборок (п< 20). Вначале выполняют ранжирование выборки в порядке не убывания, оценку СКО ох и расчет фактического значения критерия:

Рп = —--при подозрении хп на аномальный максимум;

X Хл

=--при подозрении хг на аномальный минимум.

Далее, задавшись уровнем значимости а, определяют пороговое значение критерия:

(]ап = 0,571 • 1п(п - 1) + 0,951 - при а = 0,1;

Ра,п = 0,651 • 1п(п - 1) + 0,883 - при а = 0,05;

Ра,п = 0,837 • 1п(п - 1) + 0,642 - при а = 0,01.

На завершающем этапе сравнивают фактическое и пороговое значения критерия. Если ра п < рп (или ра п < то исследуемое значение Хп (или Х]) признается значимо аномальным, в противном случае - нормальным.

Фильтрация (элиминирование) данных выполняется в ситуациях, когда текущая выборка мала, и/или наблюдаемые значения имеют недостаточную досто-

верность. Формально получение элиминированного значения х г (£ = 1, п) сводится к корректировке наблюдаемого значения Хг с учётом смежных значений {..., 1, х,х1 +1, • • }. Один из простых вариантов элиминирования может выполняться по алгоритму «нелинейного сглаживания по 7 точкам», предполагающему вычисление последовательности:

* 39 • х± + 8 • х2 — 4 • х3 — 4 • х4 +• х5 + 4 • х6 — 2 • х7 Х1* = 42 ;

* 8 • х± + 19 • х2 + 16 • х3 + 6 • х4 — 4 • х5 — 7 • х6 + 4 • х7 Х'= 42 ;

* _ _4-х1 + 16-х2 + 19-Хз + 12-х4 + 2-х5_4-х6+х7

Хз = Тг ;

7 • X; + 6 • + x¿_1) + 3 • (^¿+2 + х_) — 2 • (Х;+3 + Х;_3)

* _

= 21 '

4<1<п — 3;

* _ хп_6 — 4 • ХП_5 + 2 • Хп_4 + 12 • Хп_з + 19 • Хп_2 + 16 • Хп_1 — 4 • хп Хп_2 = ^

* _ 4-хп-б_7-хп-5_4-хп-4+б-хп-з + 16-хп-2 + 19-хп-1 + 8-хп^

хп_ 1 _

42

у* _

"п 42

Анализ стационарности данных обычно выполняется с целью своевременного обнаружения в наблюдаемых процессах восходящего или нисходящего тренда. Для оценки стационарности (нестационарности) значений в выборках используют различные алгоритмы на базе тех или иных критериев, например, серий, модифицированного критерия серий, поворотных точек, Аббе, Стьюдента, Фишера.

Алгоритм с критерием серий. Вначале на основе исходной выборки (х;, I _ 1, п} формируется бинарный ряд (у^} по правилу:

И если X' ^ х ■

У1 _ Iп ли V1 < где Хт - медиана исходной выборки.

[^и, если л^ \

Далее в бинарном ряде подсчитывают число однородных серий V, задаются уровнем значимости а и определяют табулированные (например, в [Айвазян, 1998]) пороговые значения критерия Уп,1-а/2 и vn,a/2. Если V удовлетворяет условию ^пд_а/2 < V < уп,а/2, то гипотеза о стационарности исходной выборки принимается, в противном случае - отвергается.

Алгоритм с модифицированным критерием серий. Здесь, помимо числа серий V, дополнительно фиксируется длина самой протяженной серии т. Гипотеза о стационарности исходной выборки принимается, если одновременно выполняются два условия:

V > 0,5 • (п + 1 — • 7п — 1); т < 3,3 + 1),

где - квантиль нормального распределения при уровне значимости а.

Алгоритм с критерием поворотных точек исследует бинарный ряд, образованный по правилу:

¡"1, если — X; > 0;

_ |о',

если + х — XI < 0.

Статистики V и т вычисляют аналогично предыдущему алгоритму, но для стационарной исходной выборки эти статистики должны удовлетворять двум условиям:

где т0 =

V > 0,33 • (2 • п — 1) — иа • т > т0,

5, если п < 26;

6, если 26 < п < 153; Л, если п > 153 .

Алгоритм с критерием Аббе. Вначале рассчитывают фактическое значение критерия

Уф

я*'

где: 2!

П_1

- дисперсия значений исходной выборки. Далее, задавшись уровнем значимости а, определяют пороговое значение критерия уп а. Для п < 59 пороговые значения табулированы (например, в [Айвазян, 1998]), а при п > 60 пороговое значение критерия определяют по формуле

Уп,а = 1 +

Если Уф < упа, то гипотеза о стационарности исходной выборки принимается, в противном случае - отвергается.

Алгоритм с ¿-критерием Стьюдента. Вначале исходную выборку разбивают на два участка, в каждом из которых по п значений. Для каждого участка вычисляют дисперсии (£>!, Б2), после чего рассчитывают фактическое значение критерия

|Я1,-Я2|

£ф =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Д1,+Д2

Далее, задавшись доверительной вероятностью р и скорректировав ее по формуле р' = рассчитывают число степеней свободы V = (п + 1) • +

где т = гаГ^р1' р2}' после чег0 определяют табулированное (например, в [1]) пороговое значение критерия tvpf. На завершающем этапе сравнивают фактическое и пороговое значения критерия, если условие ¿ф < tv p, выполняется, то исходная (объединенная) выборка признается стационарной, в противном случае -нестационарной.

Информацию о характере, месте возникновения и величине нестационарности исходной выборки обеспечивают дополнительные математические подходы, например, аппарат анализа процессов по первой и второй производным.

Функциональность и интерфейсные решения по инструментам обработки и анализа данных. В соответствии с рассмотренными выкладками на факультете Эксплуатации летательных аппаратов Иркутского филиала МГТУ ГА в последние годы сформирован пакет инструментов обработки и разведочного анализа числовых массивов данных. Эти инструменты включены в рассчетно-информа-ционный пакет Модельер 2.1 и для пользователей доступны через группу «Решения при риске» головного меню (рис. 1).

Рис. 1. Головная панель пакета Модельер 2.1 (раскрыта группа «Информационные карты» головного меню)

В частности, в пакет включены следующие инструменты обработки и разведочного анализа:

- фильтрация (элиминирование) данных (рис. 2);

- анализ процесса на стационарность (рис. 3);

- анализ процесса по производным (рис. 4);

- анализ процесса на выбросы (рис. 5).

Основные интерфейсные решения по перечисленным инструментам, и в целом по пакету, соответствуют требованиям действующих стандартов и норм СЛЬБ-технологий для компьютерных ресурсов [Ганьшин, 1993]. Пакет представляет собой полнофункциональное штёошз-приложение, функционирующее на типовых ШМ-подобных ЭВМ с операционной системой Windows-xx. Для инсталляции пакета на жестком диске достаточно 1,8 Гб памяти. При необходимости каждая из инструментальных оболочек пакета может изыматься из состава пакета и использоваться как автономное windows-пpилoжeниe.

Рис. 2. Панель инструмента «Фильтрация (элиминирование) данных»

Рис. 3. Панель инструмента «Анализ процесса на стационарность»

Особенностями пакета являются:

- наличие справочной системы, как по общим вопросам охваченной пакетом предметной области, так и по частным вопросам, относящимся к конкретным инструментам;

- возможность выбора пользователем комфортного дизайна экранных панелей;

- наличие всплывающих подсказок по назначению кнопок управления, а также по формату и по допустимому диапазону вводимых числовых исходных данных;

- использование в справке и в наименованиях полей для данных терминов, доступных пользователям без углубленной математической подготовки.

Рис. 4. Панель инструмента «Анализ процесса по производным»

Рис. 5. Панель инструмента «Анализ процесса на выбросы» Представленные инструменты по обработке и предварительному анализу массивов числовых данных используются при изучении ряда учебных дисциплин, например, «Методы и алгоритмы обработки статистических данных», «Прикладные методы вычислений». При этом, как правило, они используются не самостоятельно, а в связке с другими (основными) инструментами (например,

моделирования, регрессионного анализа, прогнозирования, факторного анализа, принятия решений). Такое комплексирование позволяет повысить корректность итоговых результатов, получаемых с помощью основных инструментов пакета. Библиографический список

1. Айвазян С. А. Прикладная статистика и основы эконометрики / С. А. Айвазян, В. С. Мхитарян. М.: ЮНИТИ, 1998. 1022 с.

2. Ганъшин В. Н. Применение методов математической статистики в авиационной практике / В. Н. Ганьшин и др. М.: Транспорт, 1993. 211 с.

3. Информационная поддержка жизненного цикла изделий. Информационные материалы. НИЦ CALS-технологий «Прикладная логистика» // [Электронный ресурс]. - 2008. URL: http://www.cals.ru (дата обращения: 10.04.2017).

4. Крянев А. В. Математические методы обработки неопределенных данных / А. В. Крянев, Г. В. Лукин. М.: Физматлит, 2003. 311 с.

5. Тъюки Дж. Анализ результатов наблюдений. М.: Мир, 1981. 696 с. References

1. Ajvazyan S. A. (1998). Applied Statistics and the Fundamentals of Econometrics / S. A. Ajvazyan, V. S. Mhitaryan. M.: YUNITI, 1998. 1022 p. (in Russian).

2. Gan'shin V.N. (1993). The Use of the Methods of Mathematical Statistics in Aviation / V.N. Gan'shin, etc. M.: Transport, 1993. 211 p. (in Russian).

3. The Information Support of the Product Lifecycle. Informational Materials. CALS R&D Center «Applied Logistics» // [Electronic resource]. - 2008. URL: http://www.cals.ru [accessed 10 April 2017] (in Russian)

4. Kryanev A. V. (2003). Mathematical Methods of Ambiguous Data Processing / A. V Kryanev, G. V. Lukin. M.: Fizmatlit, 2003. 311 p. (in Russian).

5. Tukey J. (1981). Exploratory Data Analysis. M.: Mir, 1981. 696 p. (in Russian).

i Надоели баннеры? Вы всегда можете отключить рекламу.