Задача параметрического синтеза систем обеспечения целостности данных в информационных системах и метод её решения

Беркетов Геннадий Александрович; Микрюков Андрей Александрович; Цуркин Анатолий Петрович

вак омзоо ГА" Беркетов, А.А. Микрюков, А.П. Цуркин

РИНЦ 20.53.00

Задача параметрического синтеза систем обеспечения целостности данных в информационных системах и метод её решения

В статье рассматривается математическая модель процесса восстановления данных в информационных с системах. Предлагается метод оптимизации периода регенерации копии базы данных, используемой при восстановлении информации.

Ключевые слова: контроль целостности базы данных и модель ее восстановления, точка синхронизации целостности, оптимальный интервал копирования, оптимизация и параметрический синтез систем.

THE PROBLEM OF PARAMETRIC SYNTHESIS OF SYSTEMS TO ENSURE DATA INTEGRITY IN INFORMATION SYSTEMS AND METHOD FOR ITS SOLUTION

In the article the mathematical model of the recovery process data in information systems is considered. We propose a method to optimize the regeneration copies of the database used in the recovery of information.

Keywords: control of integrity of database and model of its restoration, synchronization point integrity, the optimal interval copy, optimization and parametric synthesis of the system.

Введение

Обеспечение целостности данных является важной задачей, которую приходится решать как при разработке автоматизированных информационных систем (АИС), так и в процессе их эксплуатации. Целостность базы данных (БД) может быть нарушена в результате неисправностей в работе оборудования, программного обеспечения или неверных действий обслуживающего персонала и терминальных пользователей. В реальных условиях полностью защитить данные от ошибок или разрушения не удается, поэтому в СУБД предусматриваются средства контроля и восстановления БД. Один из самых распространенных методов обеспечения процесса восстановления заключается в том, что через определенные интервалы времени создается копия базы данных, которая затем используется в процессе восстановления

[1, 2]. При нарушении целостности копия загружается на место БД, после чего в нее вносятся все изменения, накопленные с момента ее получения. Для накопления изменений используется так называемый системный журнал, в который заносятся тексты входных сообщений, тип изменений и адреса изменяемых данных наряду с их значениями до и после изменения. Длительность отдельного восстановления зависит от объема журнала, который, в свою очередь, определяется «возрастом» используемой копии и интенсивностью входного потока сообщений. При копировании база данных вначале проверяется с помощью специальных программ контроля, которые позволяют выявить нарушения ограничений целостности. В дальнейшем проверку целостности и получение новой копии БД будем называть точкой синхронизации целостности (ТСЦ).

Одной из проблем, связанных с восстановлением баз данных, является определение оптимального интервала между ТСЦ. Проблема заключается в том, что при более частом копировании много времени уходит на создание копий, в противном случае много времени требуется для восстановления. Поэтому при выборе интервала между ТСЦ необходимо учитывать нагрузку системы и ее надежность.

В работе рассматривается математическая модель определения оптимального интервала копирования базы данных из условия минимизации относительных потерь, измеряемых отношением непроизводительного времени системы, т.е. времени на копирование и восстановление, к общему времени ее функционирования. Подобные проблемы обсуждались также в работах [1-4]. Рассматриваемая в настоящей статье модель является уточнением и обобщением моделей, описанных в этих работах.

Геннадий Александрович Беркетов, к.т.н., профессор, профессор кафедры автоматизированных систем обработки информации и управления, Московский государственный университет экономики, статистики и информатики (МЭСИ) Тел.: 8 (495) 442-61-11 Эл. почта: [email protected]

Gennady A. Berketov,

PhD in Technical Sciences, Professor, Department of Automated Systems of Information Processing and Management, Moscow State University of Economics, Statistics and Informatics Tel.: 8 (495) 442-61-11 E-mail: [email protected]

Андрей Александрович Микрюков, к.т.н., доцент, зав. кафедрой автоматизированных систем обработки информации и управления, Московский государственный университет экономики, статистики и информатики (МЭСИ) Тел.: 8 (495) 442-61-11 Эл. почта: [email protected]

Andrey A. Mikrukov,

PhD in Technical Sciences, Associate Professor, Head of Department of Automated Systems of Information Processing and Management, Moscow State University of Economics, Statistics and Informatics Tel.: 8 (495) 442-61-11, E-mail: [email protected]

1. Описание модели

Неисправности, возникающие при работе АИС, приводят к отказам, которые состоят в прерывании нормальной работы АИС (например, «зависание» системы) или выдаче неверных выходных данных. В дальнейшем рассматриваются только такие отказы, которые возникают в результате нарушения целостности БД и для устранения которых необходимо выполнение процедуры восстановления. При этом предполагается, что СУБД содержит необходимые программные средства для обнаружения ошибок и обеспечения процесса восстановления БД в случае отказа. К таким средствам относятся программы контроля, разгрузки, ведения системного журнала и программы восстановления [1, 2].

Рассматривается следующая схема системы восстановления (СВ). Через определенный интервал времени Т производится копирование БД. Перед копированием БД проверяется с помощью программ контроля. Если при этом выявляются какие-либо нарушения целостности (ошибки), то выполняется редактирование БД с целью их устранения.

В качестве исходных данных для операции восстановлении используется последняя копия БД, а также системный журнал, в котором фиксируются вносимые в БД изменения. При отказе копия загружается на место БД, после чего в нее вносятся все изменения, накопленные с момента ее получения. Заканчивается операция восстановления действиями по обработке прерванных и поступивших за время восстановления сообщений.

<-

<

На рис. 1 изображена диаграмма функционирования системы восстановления. Интервал времени между двумя последовательными моментами начала выполнения ТСЦ обозначен через и называется циклом системы восстановления. Случайная величина v(t1) равна затратам времени на восстановление системы после 1-го отказа, происшедшего в момент ^ после выполнения ТСЦ. Величина ^ равна интервалу времени до появления отказа после очередного восстановления.

Примем следующие допущения.

1. Интервалы времени безотказной работы ^ являются независимыми одинаково распределенными случайными величинами с одной и той же функцией плотности вероятности р£х).

2. Интервал времени между сообщениями, поступающими в систему, является случайной величиной со средним значением ц и стандартным отклонением д. Сообщения, поступающие во время восстановления, накапливаются в системе и обрабатываются после его окончания.

3. Время загрузки копии БД при выполнении операции восстановления q является случайной величиной с плотностью распределения рд(х) и средним Q.

Рассмотрим интервал времени, соответствующий одному циклу системы восстановления. Через t обозначим текущее время от момента выполнения последней ТСЦ. При вычислении суммарных потерь времени на восстановление исходный процесс будем интерпретировать как процесс накопления [5], который определяется следующим образом.

-V

Т

-1-->

ti v(ti)

Выполнение ТСЦ

Восстановление Функционирова-ИС ние ИС

Выполнение ТСЦ

Рис. 1. Диаграмма функционирования системы восстановления данных

J

V

w

t1 t2 t3

Рис. 2. Иллюстрация процесса накопления

0

t

Анатолий Петрович Цуркин,

к.ф.-м.н., доцент, профессор кафедры автоматизированных систем обработки информации и управления, Московский государственный университет экономики, статистики и информатики (МЭСИ) Тел.: 8 (495) 442-61-11 Эл. почта: [email protected]

Anatoly P. Tsurkin,

PhD in Physics and Mathematics, Associate Professor, Professor, Department of Automated Systems of Information Processing and Management, Moscow State University of Economics, Statistics and Informatics Tel.: 8 (495) 442-61-11 E-mail: [email protected]

С /-м отказом, происшедшим в момент времени свяжем случайную величину v(ti), равную затратам времени па восстановление системы после отказа; эта величина зависит от времени отказа Затем введем величину м>((), определяемую равенством

N (1)

^ (1 )=Х у(1,г),

1=1

где Щ) - число отказов за время t.

Последовательность значений {м>^)} образует процесс накопления, иллюстрация которого представлена на рис. 2.

Средние суммарные потери времени на восстановление за период [0, Т], где Т - время между ТСЦ, обозначим через W(Т) = М[м>(Т)]. Тогда средние потери времени на копирование и восстановление на цикле будут равны С + W(Т), где С - среднее время выполнения ТСЦ.

Обозначим через R(Т) относительные потери времени, т.е. отношение средних потерь на интервале 5 к средней величине самого интервала:

R(T) = [С + W(T)] / (С + Т).

Задача оптимизации частоты копирования базы данных заключается в определении интервала Т*, такого, что R(T*) = minR(Т) при заданных характеристиках системы.

2. Определение оптимального интервала копирования базы данных

Для оптимизации интервала копирования БД необходимо найти выражение относительных издержек времени через заданные характеристики системы.

Рассмотрим интервал времени, соответствующий одному циклу системы восстановления. Для определения средних затрат времени на восстановление W(Т) необходимо найти условное распределение р(х;() случайного интервала времени до следующего отказа т, при условии что предыдущий отказ произошел в момент t.

Случайная величина т может быть представлена в виде т = v(t) + £, где £ - длительность безотказной работы ИС после восстановления. В свою очередь, v(t) = q + 2(1), где q - время загрузки копии БД, 2(Г) -затраты времени на обработку журнала и внесения соответствующих изменений в копию БД при отказе в момент t. Таким образом, т = q + + 2(Г) + £. Так как плотности распределения случайных величин q и £ предполагаются известными, для определения рт(х^) необходимо найти лишь плотность распределения величины 2(Г). В соответствии с принятым допущением интервалы времени между моментами поступления сообщений в систему являются независимыми, одинаково распределенными величинами со средним значением м и стандартным отклонением д. Известно [5], что в этом случае число сообщений т($), поступивших за время t, будет иметь асимптотически нормальное распределение со средним t/¡ и дисперсией д^/м3. Так как предполагается, что средняя наработка на отказ £0 = М[£] значительно превышает величину М, действительное распределение для т(() можно аппроксимировать асимптотическим распределением. Обозначим через т число сообщений, обрабатываемых за единицу времени при повторной обработке в процессе восстановления. Тогда

Рг (х; * ) =

тц^ц 8 2п*

ехр-

т2 цЦ (х - * / тц)2 282*

Условная плотность распределения случайной величины т при фиксированном t определяется сверткой

Рт(х;' ) =

+ да

= 11 Рг(У>1)Р„О - У)Рц(х - ы)8у8и, (1) или в более краткой записи:

= Р/(х;0*р?(х)*р^(х).

Перейдем теперь к выводу соотношения для средних затрат времени на восстановление W(t) за период [0, Введем в рассмотрение функцию плотности восстановления Н(0 = Н(), где Н(Г) = ММ)], М^) - число отказов за время t. Плотность восстановления можно найти, разрешив интегральное уравнение

I

И (? ) = рДО + | рт(1 - и; и)И(и)Ли, (2)

0

вывод которого приводится в приложении.

Из определения Н(^ следует, что приращение Д W(t) функции W(t) на отрезке [^ t + Д] равно

Д W(t) = У(?)Н({)Д1 + о(Д), (3)

где = Q + ^тц - средние затраты времени на устранение отказа, происшедшего в момент t.

Разделив обе части равенства (3) на Д и переходя к пределу при Дt => 0, получим уравнение

W'(t) = ¥(?№)

(4)

Учитывая, что W(0) = 0, можно записать

(

Ш (1)' = 1Г (х)й( х)с1х. (5)

0

Относительные потери времени на копирование и восстановление на цикле СВ вычисляются по формуле

R(T) = [С + W(T)] / (С + Т). (6)

На рис. 3-5 изображен вид графиков функций W(Т), R1(T) = = С / (С + Т), R2(T) = W(T) / (С + Т), полученных в результате численного моделирования для пуассонов-ского потока отказов и экспонен-

циально распределенного времени загрузки копии БД. В большинстве случаев явное выражение для R(Т) либо не удается получить, либо оно имеет громоздкий, малопригодный для практического использования вид. Поэтому для нахождения R(Т) и поиска экстремума следует использовать численные методы.

Уравнение (2) является уравнением Вольтерра второго рода, численные методы решения которых известны. Для вычисления интеграла (5) можно использовать метод механических квадратур.

3. Приближенная формула для оценки оптимального интервала копирования

Приведенный в предыдущем разделе способ оптимизации интервала копирования БД требует применения численных методов, поэтому представляет интерес вывод приближенной формулы, дающей решение задачи в явном виде.

Обозначим, как и прежде, через t время после очередной регенерации копии БД. Предположим, что отказы происходят в моменты

^ = ТЬ t2 = ^ + Т2, tз = t2 + Т3, ...

где т! - интервал времени между двумя последовательными отказами.

Будем считать, что тг, = г > 1, т. е. при определении длительности интервалов между отказами время восстановления не учитывается. В этом случае ть т2,... являются независимыми случайными величинами с одной и той же плотностью распределения р^(х). Обозначим через Щ) число отказов за период [0, /| в рассматриваемом процессе. Поскольку процесс является простым процессом восстановления [5], то для него выполняется соотношение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Н(1) ~ 1/£0, при I ^ да,

где Н(^ - функция плотности восстановления, £0 - средняя наработка на отказ. Как и прежде, с г-м отказом будем связывать величину v(t ) = + q, равную затратам времени на отдельное восстановление БД. Стохастический процесс накопления

N (I)

& (I) = X )

IV, W

t

Рис. 3. Графики функций средних затрат на восстановление (приближенной и точной)

КК2

Ч^Т)

N -- "К2(Т)

/ Чч

/

0

Т

Рис. 4. Графики относительных потерь времени на копирование и восстановление

Т

Рис. 5. Относительные потери времени на копирование и восстановление

приближенно описывает суммарные потери времени на восстановление за период [0, /|. Подставим в уравнение (4) вместо плотности восстановления для процесса Ы(() ее асимптотическое значение, получим

V\г) = — V(г), V (0) = 0, (7)

—0

где У(€) = = t / тц + Q.

Интегрируя (7), найдем оценку для средних затрат времени на восстановление

IV (г) = у2м 2 , (8)

где а= 1/ш^о, в = 0/

Вид графика функции W(t) представлен на рис. 3. Для иллюс-

0

К

0

трации характера отклонения W(t) от W(t) графики этих функций совмещены.

Относительные потери па цикле системы восстановления будут оцениваться величиной

К(Т) = [С +^(Т)] / (С + Т).

Разрешив уравнение ^(Т) = 0, найдем оценку для оптимальной величины интервала копирования

Т = —Ца2С2 + 2аС(1 -в)-аС. (9) а

Очевидно, что Т < Т*. Относительная ошибка д = (Т - Т) / Т* будет небольшой, если Е =W(T) / Т < 0,1.

При нарушении этого условия ошибка быстро возрастает.

Заключение

В настоящей работе рассмотрена задача определения оптимального интервала Т* между моментами получения копий БД, используемых в процессе восстановления. Исследована схема, при которой восстановление БД осуществляется в результате актуализации последней из полученных копий. При актуализации копии используется информация о происшедших изменениях в БД, накапливаемая в системном журнале. Выбор оптимального интервала копирования производится по критерию минимума относительных потерь, определяемых как отношение времени па копирование и восстановление к общему времени функционирования системы. При определении

Рис. 6. График относительной ошибки для приближенной формулы определения интервала копирования

оптимального интервала копирования учитываются характеристики надежности системы и интенсивность ее нагрузки.

Рассмотренная в работе математическая модель процесса восстановления отличается от известных тем, что вместо пуассо-новских потоков отказов в ней рассматриваются более общие потоки Пальма. В модели также учитывается зависимость затрат времени на восстановление от момента возникновения отказа.

Приближенное значение оптимального интервала копирования может быть определено по формуле (9). В предположении, что поток отказов является пуассоновским, аналогичная формула была указана ранее в работе [3]. Качество приближения иллюстрируется на рис. 6, где показана зависимость относительной ошибки приближенной формулы д от относительных потерь на восстановление Е, полученная в результате численных экспериментов.

Предлагаемый в работе метод определения накладных расходов

на организацию восстановления и оптимального интервала копирования БД может быть использован как при разработке АИС, так и в процессе их эксплуатации.

Приложение

Рассмотрим вывод интегрального уравнения (2).

Приращение функции Н(/) на элементарном отрезке [/, t + Д/] равно вероятности отказа на этом отрезке. Введем два события:

А - на отрезке [/, t + Д/] произошел отказ и Щ(Т) = 0;

В - на отрезке [/, / + Д/] произошел отказ, причем ЩТ) > 1.

Тогда ДН = Н(/ + Д/) - Н(/) = = Р(А) + Р(В). Вероятность того, что первый отказ произойдет в промежутке [/, / + Д/], будет равна Р(А) = р£(/)Д/ + о(Д/).

Определим условную вероятность того, что в промежутке [/, / + Д/] произошел очередной отказ при условии, что предыдущий отказ произошел в точке и (0 < и < /). Она равна

р(/ - и;и)Д/ + 0(Д/).

Тогда справедливо равенство

Следовательно,

АЛ (г)/ М = р4(г) +

Р ( - и; и)к(и)(Ли + в(А() / А(.

о

Переходя к пределу при Д/ ^ 0, получим искомое соотношение:

Ь(1) = р^(1) +1 р1 - и; и)Ь(и)йи.

0

Список литературы

1. ГультяевА.К. Восстановление данных. - 2-е изд. - СПб.: Питер, 2006. - 379 с.

2. Беркетов Г.А., Микрюков А.А., Федосеев С.В. Способ восстановления целостности базы данных // Сборник научных трудов XIII научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления процессами и знаниями», г. Москва, 2010. - С. 61-64.

3. Беркетов Г.А., Микрюков А.А., Федосеев С.В. Модель подсистемы восстановления целостности базы данных // Сборник трудов V Международной научно-практической конференции «Информационные и коммуникационные технологии в образовании, науке и производстве», г. Протвино Моск. обл., 2011. - С. 79-83.

4. Беркетов Г.А., Микрюков А.А., Федосеев С.В. Задача обеспечения целостности данных в процессе функционирования информационной системы // Сборник трудов научно-практической конференции «Инновации в условиях развития информационно-коммуникационных технологий». Инфо-211, г. Сочи, 2011 г. -С. 196-199.

5. Вентцель А.Д. Курс теории случайных процессов. - М.: Наука, 1975. - 320 с.

THE PROBLEM OF PARAMETRIC SYNTHESIS OF SYSTEMS TO ENSURE DATA INTEGRITY IN INFORMATION SYSTEMS AND METHOD FOR ITS SOLUTION

Текст научной работы на тему «Задача параметрического синтеза систем обеспечения целостности данных в информационных системах и метод её решения»