ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ
ТЕХНОЛОГИИ
УДК 519.22341
МЕТОДЫ ИССЛЕДОВАНИЯ И ОЦЕНКИ ФУНКЦИОНАЛЬНОЙ НАДЕЖНОСТИ СЛОЖНЫХ МУЛЬТИСЕРВИСНЫХ СИСТЕМ
В статье представлены материалы по возможным методам исследования функциональной надежности в сложных системах связи, какими, являются мультисервисные системы связи. Предложены обобщенные критерии функциональной надежности. Представлены материалы по реализации предложенного метода при создании информационной системы с использованием мультисервисных принципов построения сети связи.
Ключевые слова: функциональная надежность, объект и предмет исследования функциональной надежности, показатели функциональной надежности, расчет показателей функциональной надежности.
Маликов С.Н.
Тютин Н.Н.
Чванин О.Н.
Чудинов С.М.
Кривошеев О.Н.
ОАО «НИИ супер ЭВМ» e-mail:
Введение
Надежность функционирования сложных систем (сетей) связи, какими являются мультисервисные системы связи (МСС), находится в прямой зависимости от их информационной нагрузки, то есть от параметров потоков заявок, поступающих в систему. Следует отметить важную особенность МСС, существенно влияющую на их функциональную надежность, - наличие в них естественной избыточности (структурной, временной, функциональной). МСС рассчитывается на пиковую нагрузку и в ней предусмотрены свободные ресурсы в случайные интервалы времени функционирования этих сетей. В материалах статьи исследуется функциональная особенность мультисервисных систем на примере мультисервисной сети, действующей в Московском регионе. Представлены материалы аналитического расчета показателей функциональной надежности и методы их обеспечения.
1. Объекты и предмет исследования функциональной надежности
Объектом исследований традиционной теории надежности являются технические системы или технические устройства, а предметом исследований - процессы отказов и восстановлений этих систем (устройств). Традиционные классические методы
94
НАУЧНЫЕ ВЕДОМОСТИ
№ 1(56) 2009
теории надежности ограничиваются расчетами нерезервированных и резервированных систем и не позволяют выбрать рациональную стратегию обеспечения безотказности и восстанавливаемости изделия [6]. Известные методы теории надежности не предназначены для расчетов оценок правильности функционирования сложных систем в целом, сертификации выполнения системой информационных и вычислительных процессов, эффективности применения тех или иных способов защиты от возникающих в системе ситуаций.
Опираясь на общие признаки МСС, а также на анализ характера отказов, сбоев, ошибок операторов, ошибок во входной информации, программных ошибок, характерных для МСС, можно утверждать, что в МСС центр тяжести обеспечения надежности находится в области проблем расчета и обеспечения правильности и своевременности выполнения функциональных задач, а не в области обеспечения безотказности и восстанавливаемости технических средств. Поэтому наряду с обеспечением безотказности и восстанавливаемости технических средств МСС необходимо обеспечивать также функциональную надежность МСС [1]. Предметом исследования при этом являются процессы возникновения, обнаружения и устранения ошибок в выходных и промежуточных результатах работы системы, вызванных собственными и привнесенными извне ошибками, а также связанные с характеристиками потока заявок, поступающих на обслуживание (на выполнение предусмотренных функциональных задач). Обобщенным критерием функциональной надежности можно считать время активного сохранения работоспособности МСС при заданной интенсивности отказов её элементов. Под активным сохранением работоспособности целесообразно понимать возможность противостоять отказам с помощью системы управления работоспособностью сети, в частности, за счет восстановления структуры и функций сети связи, управления потоками, нагрузкой, маршрутизацией и т.д. В качестве конкретного предмета исследования используется формирование мультисервисной сети ведомственности информационной системы с решением задачи мониторинга и управления системной передачи данных с целью обеспечения высокой функциональной надежности информационной системы.
Рис. 1. Структурная схема МСС ведомственной информационной системы УФРС МО
На рис. 1 показана структурная схема МСС ведомственной информационной системы управление федеральной регистрационной службы по московской области (УФРС МО).
95
С.Н. Маликов и др. Методы исследования ...
Для решения задачи построения МСС были организованы каналы на сетях общего пользования существующих операторов связи, а управления ФРС по Московской области, ФРС России и ФРС по г. Москве были физически соединены отдельными каналами связи на базе ВОЛС. На рис. 2 показана функциональная схема мультисервисной сети созданная в интересах региональных органов Московской области (МСС УФРС МО), и место центра управления этой сетью.
Мультисервисная сеть включает в себя:
• центральный узел связи;
• территориальные (удаленные) узлы связи;
• центр мониторинга и управления МСС;
• физические каналы связи и каналы передачи данных;
• канала арендованные у региональных операторов связи;
• средства взаимодействия.
Рис.2. Функциональная схема МСС УФРС Московского региона
Мультисервисная сеть в г. Москве организована с использованием топологии кольца, а в Московской области применяется топология звезды. УФРС по Московской области, УФРС по г. Москве, УФРС России соединены каналами с пропускной способностью 1 Гбит/с. Мультисервисная сеть имеет стык с операторами связи регионов РФ на ММТС-9. Для включения структурных подразделений УФРС по Московской области организованы каналы на базе МСС московского филиала ОАО «ЦентрТелеком».
По результатам проведенного анализа ММС УФРС МО возникают следующие требования к центру мониторинга с позицией функциональной надежности:
• Круглосуточный, непрерывный мониторинг работоспособности каналов передачи данных
96
НАУЧНЫЕ ВЕДОМОСТИ
№ 1(56) 2009
Возможность работать с разными типами оборудования от разных производителей
Анализ качества каналов
• Отображение работоспособности, загруженности, качества каналов
Взаимодействие с техническими службами операторов связи, у которых арендуются каналы
Универсальность (возможность применения в других МСС).
Решение этой задачи нашло отражение в создании центра мониторинга ведомственной информационной системы УФРС МО. Центр мониторинга мультисервисной сетью ведомственной информационной системы УФРС МО расположенный в здании ОАО «НИИ супер ЭВМ» представляет собой программно-аппаратный комплекс (рис. 3). Аппаратная часть расположена в отдельном помещении и состоит из следующего оборудования: серверов мониторинга и управления МСС, коммутатора, межсетевого
экрана и маршрутизатора.
Мультисервисная сеть
Сервер мониторинга мультисерви сной сети
Помещение операторов круглосуточной дежурной смены
Рис. 3 Центр мониторинга МСС УФРС МО
Программная часть центра мониторинга состоит из специальной операционной системы, системы мониторинга, и WEB-интерфейса для отображения информации инженерам круглосуточной дежурной смены. Система мониторинга является собственной разработкой ОАО «НИИ супер ЭВМ» и предназначена для контроля изменений состояний объектов мониторинга мультисервисной сети. Она составляет основу Центра мониторинга и управления МСС УФРС МО. В основу построения центра управления была положена концепция обеспечения функциональной надежности функционировании сети.
2. Основы аналитического расчета показателей функциональной надежности 2.1. Расчет показателей вычислительных процессов
Расчет вероятности безотказного выполнения задачи Рз возможен с помощью одного из следующих двух подходов: детализированный подход (с помощью строгих математических моделей, подробных граф-схем) и прогнозирующий подход (приближенный).
Для сложных процессов, которые имеют место в МСС, применение детализированных методов затруднено из-за большой размерности графов алгоритмов задач. Тогда уместно применять следующий подход. Пусть Vi - отношения количества команд i-го вида к среднему количеству команд I, выполняемых в процессе однократной
реализации программ задачи, где i=1 ^ и М-число разновидностей команд, применяемых в вычислительных средствах, на которых реализуется данная программа. Тогда вероятность Рз оценивается по формуле
97
С.Н. Маликов и др. Методы исследования ...
Р _рМк[ Г3~ ГК ’
(1)
м
где Р = I ViPi — вероятность безотказного выполнения средней команды,
i =1
Рi - вероятность безотказного выполнения i-ой команды; веса Vi определяются либо экспериментально, либо при помощи известных методов смеси операций, например, метода Гибсона;
м
Р=^У1т1 _ _
i_1 - усреднённое время выполнения команды, причем xi - среднее время
выполнения i-той команды программы задачи.
В (1) степень ] ^к [ есть округленное сверху до целочисленного значения.
Расчет вероятности безотказного выполнения в течение времени t вычислительного процесса РВП® основывается на результатах вычисления или оценки показателя Рз и на конкретной математической модели, описывающей поток заявок на выполнение задачи. В большинстве практических случаев можно принять поток заявок пуассоновским (простейшим). Это объясняется большим количеством неприоритетных факторов, вызывающих заявки. Отсюда отсутствие последействия и, как правило, ординарность и стационарность потока, т.е. те свойства, которые присущи простейшему потоку. Тогда вероятность того, что в течение времени t поступит ровно i заявок, задается выражением
P(i, t ) = &-1 i!
Следовательно
Р
±вп
е-* ,рз = е
i=0 i
IT = '
■ e
z
где z = ptP3
Окончательно получаем
Р
РВП= е-рtеz=e-р(l- 3 )t=exp[-p(i-P3)t] (2)
Средняя наработка до функционального отказа.
Этот показатель связан с вычислительным процессом и вычисляется в соответствии со следующим выражением:
ад ад
Твп = j PBn(t)dt = jexp[-n(l -рз )dt =
t=0 t=0
Таким образом, средняя наработка до функционального отказа относительно вычислительных процессов обратно пропорциональна вероятности потока заявок на выполнение задач.
2.2. Расчет показателей функциональной надежности информационных процессов
Вероятность безотказного выполнения в течение времени t информационных процессов рассчитывается по формуле (2) с той лишь разницей, что вместо интенсивности р в эту формулу подставляется интенсивность поступления заявок на передачу сообщений у, а вместо вероятности безотказного выполнения задачи Рз подставляется вероятность Рс ошибки при передачи сообщения (пакета).
Аналогичные замены производятся и в формуле (3) при расчете среднего времени до функционального отказа относительно информационных процессов.
3. Методы обеспечения функциональной надежности
Известны различные методы повышения надежности технических средств и систем. Прежде всего — это резервирование аппаратуры и временное резервирование. Применительно к функциональной надежности эффективность структурного резер-
n(l -Рз)
1
98
НАУЧНЫЕ ВЕДОМОСТИ
№ 1(56) 2009
вирования проблематична. Это объясняется тем, что ошибки в вычислительном процессе нельзя устранить переключением на резерв, если эти ошибки вызваны случайными сбоями, программной ошибкой или ошибками во входной информации. В информационном процессе ошибки устраняются с помощью информационной избыточности (например, путем помехоустойчивого кодирования информации). Временное резервирование может дать ощутимый эффект в повышении функциональной надежности, однако применение традиционных методов двойного - тройного счета применимо там, где нет слишком жестких ограничений по времени выполнение задач.
Из этих соображений следует необходимость комплексного применения гибких стратегий обеспечения функциональной отказоустойчивости МСС. К таким стратегиям, наряду с вышеотмеченными, можно отнести введение контрольных точек при реализации вычислительных и информационных процессов. Подход известен, однако если интервалы времени между контрольными точками выбрать таким образом, чтобы в интервалах времени между заявками обеспечить обнаружение и устранение функциональных частичных отказов, то содержание и эффективность такой стратегии в корне изменятся. Другой эффективной стратегией повышения функциональной надежности является использование естественной временной, функциональной и структурной избыточности в МСС.
Для парирования функциональных отказов целесообразно ввести специальные механизмы рационального использования избыточности. Эти механизмы совместно с избыточными средствами образуют средства обеспечения функциональной отказоустойчивости (СОО).
Назначение СОО:
• обнаружение факта ошибки в программе или в функционировании технических средств;
• локализация неисправности;
• классификация неисправности;
• принятие решения о характере неисправности и прерывании процесса выполнения задачи;
• обнаружение местонахождения неисправности;
• реконфигурация МСС и (или) маскирование неисправности;
• восстановление процесса выполнения задачи.
Таким образом, СОО предназначены для обеспечения адаптации МСС к функциональным отказам. Очевидно, что основное слово по определению состава и структуры СОО за разработчиками МСС.
Показателем эффективности СОО является вероятность р успешной адаптации МСС с СОО к функциональным отказом
Р=Р{ООД>,
где Q - ресурс (структурный, временной и т.д.), который возможно использовать без ухудшения других показателей эффективности МСС для защиты от отказов; Qg - допустимый расход ресурса, при котором один или несколько показателей эффективности МСС достигают предельно допустимого значения.
Так, если ресурс есть время и допустимый расход ресурса есть в частном случае допустимое время перерыва в работе МСС tg, то
tg
р = W ^ tg}\ fv (t)di',
0
где V - интервал времени от момента возникновения неисправности до её устранения и восстановления процесса функционирования, а fv(t) - функция плотности распределения случайного времени V.
Если же допустимое время перерыва в работе системы случайно и распределено по экспоненциальному закону с параметром Р g, то по формуле полной вероятности находим, что
99
С.Н. Маликов и др. Методы исследования ...
Р = jp{V — V, ]р,‘e'''dt = \u (t)e-p-:dt = \jr * (S)Ц,
0 0
где fV * (s) - преобразование Лапласа функции fo(t).
Оценим вероятность того, что в процессе выполнения задачи либо не возникнут функциональные отказы, либо возникшие функциональные частичные отказы будут успешно нейтрализованы средствами обеспечения отказоустойчивости на основе допустимых затрат избыточных ресурсов. Обозначим вероятность безотказного выполнения задачи как Рз и вероятность того, что внутри СОО в процессе выполнения задачи не возникли функциональные отказы как Р1. Тогда вероятность безотказного выполнения задачи под прикрытием СОО будет:
Р31=р3р1+(1-р3)р1Р1=1-Е3-Е1+Е3Е1+Р1(Е3-Е3Е1), где pi - вероятность успешной адаптации первого уровня защиты (защиты процесса выполнения задачи без защиты СОО); g1=1-pi; g3=i-p3-
Поскольку g1<1 и g3<1, то с погрешностью, не превышающей второго порядка малости, справедливо выражение
Р31=1^1^3(1-Р1) (4)
Между вероятностью успешной адаптации МСС к функциональным отказам pi и вероятностями g1,g3 функциональных отказов СОО и задачи существует прямая связь. По аналогии с изложенным примем pi=i-exp[-5^], где 5=5...10 - нормировочный
g
коэффициент, а £ =---1—.
g 3 + g-
С помощью данной зависимости моделируется влияние вероятности отказов (а следовательно, и объема) аппаратно-программных средств СОО на эффективность адаптации МСС к функциональных отказам.
Оценим с помощью формулы (4) и приведенной зависимости для Р1 характер уменьшения вероятности функционального отказа в результате применения защиты. Рассмотрение показывает, что при сравнительно небольшом объеме средств защиты (gi/g3<0.5) эффективность защиты наибольшая (имеется в виду пропорциональная зависимость между вероятностью отказа в выполнении задачи g3 или вероятностью отказа в функционировании средств защиты g1 и объемами задач и средств обеспечение отказоустойчивости соответственно). По мере увеличения объема средств защиты увеличивается вероятность успешной адаптации к функциональным отказам. Однако при этом возрастает вероятность возникновения функциональных отказов в самой СОО. Отсюда следует необходимость решения задачи определения допустимой ненадежности средств защиты МСС от функциональных отказов.
Определим допустимые границы ненадежности средств защиты (а это означает также допустимые объемы средств защиты) в зависимости от их эффективности и от ненадежности основных средств.
Рассмотрим вначале одноуровневую защиту. Она имеет смысл только в том случае, если выполняется условие
P3i>P3,
где Р31 - вероятность правильного выполнения задачи с одноуровневой защитой от отказов; Р3 - вероятность правильного выполнения задачи без применения защиты. С учетом выражения (4) указанное условие преобразуется в неравенство
gi<g3Pi ^ (5)
Выражение (5) устанавливает, что объем средств обеспечения отказоустойчивости не должен превышать объема аппаратно-программных средств МСС, реализующих данную задачу. Из этого выражения также следует, что чем больше объем решаемой задачи, тем более разветвленными и эффективными должны быть средства СОО. Так, если pi—>1, то W1—W3, где W1 и W3 - объемы средств обеспечения отказоустой-
100
НАУЧНЫЕ ВЕДОМОСТИ
№ 1(56) 2009
чивости и выполнения задачи соответственно. В свою очередь, если СОО неэффективны (pi^-o), то нет смысла в их применении.
Решим задачу защиты от функциональных отказов средств защиты, которая известна как задача «сторожить сторожей». Пусть в МСС предусмотрены два уровня защиты от функциональных отказов таким образом, что первый уровень защищает средства выполнения задачи и функционирует с вероятностью правильной работы Pi=i-gi, а второй уровень защищает средства первого уровня защиты с вероятностью адаптации к отказам Р2 и функционирует с вероятностью правильной работы P2=i-g2, при этом сам работает без прикрытия средств защиты. Тогда показатель правильности выполнения задачи имеет следующий вид:
Р32=р3р2(р2+glP2)+(l-p3)p2(pl+glP2)
Pl=p2(pl+giP2)(p3+g3Pl).
При n уровнях защиты показатель правильности выполнения задачи определяется выражением:
n-1
Рзп = pn(pn-1+gn-ipn)x(pn-2+gn-2pn-l)... (pl+giP2)(p3+g3Pl) = (l-gn)П(а + giPi+i )
i=0
где ро=р3; go=g3.
Очевидно, что на каждом уровне защиты должно выполняться условия, определенное неравенством (5):
gi<gi-lpi , (6)
где i = 1, n.
На основании условии (6) получим выражение
i
gi < £3 П Pj ,
j=1 „ (7)
где go=g3, определяет границу целесообразности построения многоуровневой защиты.
Таким образом, неравенство (7) показывает, что введение в МСС дополнительных аппаратно-программных средств, в виде центра управления и мониторинга, необходимых для создания нескольких уровней защиты (контроля, диагностики, исправления ошибок), приводит к повышению вероятности правильного выполнения зада-
чи.
Заключение
В работе рассмотрены подходы к оценке функциональной надежности мультисервисной информационной системы, приведены аналитические выражения, позволяющие сформировать основы аналитического расчета показателей функциональной надежности. Показано, что в составе средств мультисервисных систем связи для повышения надежности необходимо иметь средства мониторинга и управления. Установлены граничные условия, определяющие объем дополнительных средств для защиты ММС от функциональных отказов. На основе предложенных подходов могут быть решены задачи по нахождению оптимальных системотехнических и программно-аппаратных решений при разработке и эксплуатации центра мониторинга ММС.
Литература
1. Дёмин В.К., Тютин Н.Н., Чудинов С.М., Храмешин Г.К. Региональные информационные системы, методы их структуры и функциональной оценки. - Белгород, 2008. - 320 с.
2. Антонов С.В., Захаров В.Н., Коновалов М.Г., Соколов И.А., Шоргин С.Я. Информационные технологии моделирования и динамического управления в многоуровневых сетях коммутации каналов. - М.: Наукоемкие технологии, № 4. - 2003. - С. 70-78.
3. Волкова В.Н., Денисов А.А. Темников Ф.Е. Методы формализованного представления систем: Учеб. пособие. - СПб.: СПбГТУ, 1993. - l07 с.
4. Коновалов М.Г. Модели и технологии адаптивной обработки информации для частично наблюдаемых систем: автореф. дис. 2008. - 39 с.
101
С.Н. Маликов и др. Методы исследования ...
5. Соколов И.А., Антонов С.В., Захаров В.Н., Коновалов М.Г., Шоргин С.Я. Разработка математических методов оптимизации распределения потоков в многоуровневой сети коммутации каналов. М.: Обозрение прикладной и промышленной математики. - Т.9, Вып. 2, 2002. -С. 452-453.
6. Голинкевич Т.А. Прикладная теория надежности. - М.: Высшая школа, 1985 - 160 с.
METHODS OF RESEARCH AND RATING OF FUNCTIONAL RELIABILITY OF COMPLEX
MULTISERVICE SYSTEMS
Malikov S.N. Tjutin N.N. Chvanin ON Chudinov S.M. O.N.Krivosheev
In clause the materials on possible methods of research of functional reliability in complex systems of communication are submitted what, the multiservice systems of communication are being. The generalized criteria of functional reliability are offered. The materials on realization of the offered method are submitted at creation of information system with use of multiservice principles of construction of the communication networks.
Keywords: functional reliability, object and subject of research of functional reliability, parameters of functional reliability, account of parameters of functional reliability.