ТЕМА НОМЕРА
П.В. Пекичев
ТЕОРЕТИЧЕСКАЯ ОЦЕНКА ПРОПУСКНОЙ СПОСОБНОСТИ СКРЫТЫХ КАНАЛОВ
Целью статьи является рассмотрение метода оценки количества информации, которая может быть передана в скрытом канале, основанном на вычислении пропускной способности канала передачи данных с шумом. Основное внимание уделяется основной теореме Шеннона для канала с шумом. В данной работе эта теорема доказывается для особого вида шума, который своей деятельностью генерируют обычные пользователи среды передачи данных.
Ключевые слова: скрытый канал передачи данных, теорема Шеннона, пропускная способность, случайный шум, ненадежность.
В 1948 г. вышла статья Клода Элвуда Шеннона «Математическая теория связи»1, которая положила начало математической теории информации. В этой работе он формализует такие понятия, как «информация», «скорость передачи информации» и «канал передачи данных». Предполагается, что источник данных обладает некоторой статистической структурой (в простейшем случае это дискретный источник, который принимает значение а. с вероятностью р.), а скорость создания сообщений отождествляется с мерой неопределенности - энтропией.
Канал передачи данных описывался следующей схемой.
Источник информации
Передатчик
Сигнал —►
Сообщение
Принятый
Приемник
Адресат
Сообщение
Источник шума
© Пекичев П.В., 2011
Подробнее рассмотрим каждый элемент схемы.
1. Источник информации, создающий сообщения, которые должны быть доставлены адресату. В данной работе будут рассматриваться только сообщения, состоящие из букв конечного алфавита.
2. Передатчик - устройство, которое перерабатывает входные сообщения в сигналы, соответствующие характеристикам конкретного канала. Это может быть как преобразование звукового сигнала в электрический ток, так и кодирование входного сигнала.
3. Шум - внешнее воздействие, изменяющее передаваемый сигнал.
4. Приемник - устройство, производящее обратные преобразования по отношению к преобразованиям передатчика.
5. Адресат - конечная точка, которой передается сообщение от источника.
Дискретный канал без памяти и с шумом, т. е. канал, у которого передаваемые символы искажаются независимо, задается своими переходными вероятностями р.(г) - вероятность того, что на выходе обозревается ]-й сигнал при условии, что на входе был г-й. Фундаментальным результатом этой статьи является основная теорема Шеннона для каналов с шумом, которая устанавливает связь величины, С=тахх(Н(Х) - Ну(Х)), которая называется пропускной способностью канала, и количества информации, которая может быть передана без ошибок.
Теорема. Пусть дискретный канал обладает пропускной способностью С, а источник энтропией Н. Если Н< С, то существует такая система кодирования, что сообщения источника могут быть переданы по каналу со сколь угодно малой частотой ошибок. Если Н > С, то сообщения источника можно закодировать так, что ненадежность передачи будет меньше, чем Н- С + е, где е > 0 сколь угодно мало. Не существует способа кодирования, обеспечивающего ненадежность, меньшую Н - С.
Некоторые обобщения и формализация этой теоремы могут быть найдены в работах2, 3.
Эта теорема не указывает конкретную безошибочную передачу, но она говорит о существовании такой передачи и об ограничениях на ее скорость.
Однако эта теорема используется не только для анализа качества построенного канала. На ее основе можно сделать вывод и о безопасности информационной системы с точки зрения сохранностей в ней данных. Рассмотрим несколько примеров.
Модели
Целью данной работы является анализ систем передачи данных для выявления возможности построения в них скрытых каналов, т. е. каналов передачи данных, которые не предусматривались разработчиками.
Рассмотрим классическую систему передачи данных. Имеются N «честных» пользователей секретной сети (clueless) и один «злонамеренный» (будем называть его Alice). Пользователи секретной сети имеют доступ к внешним М-серверам (R.) по уязвимым связям. Данные, находящиеся в сети из n пользователей, не должны быть известны вне этой сети. Пусть имеется дискретное время и в каждый момент времени каждый пользователь посылает (или не посылает) сообщение одному из серверов. Все честные пользователи посылают сообщения в соответствии со своим вероятностным распределением. То есть для каждого пользователя (в том числе и для Alice) задана вероятность P. (R.) отправки пользователем ¿-сообщения на сервер j = 0...M (если j = 0, то считаем, что сообщение не было отправлено).
Eve
Как видно из рисунка, все сообщения сначала по защищенным связям доставляются на Mix-устройство. Для каждого сообщения микс знает адрес сервера, на который оно должно быть доставлено. И уже из микса закодированные сообщения посылаются по незащищенным связям к серверам. Теперь рассмотрим сообщника Alice, которого будем называть Eve. Eve может просматривать все связи от микса к серверам, но читать закодированные сообщения Eve не может, но каждый момент времени Eve знает количество сообщений, отправленных к каждому серверу (в силу наличия микса Eve не знает, от кого сообщения были отправлены).
Таким образом, имеем канал передачи данных от Alice к Eve, на вход которого передается число от 1 до n, а выходом является целочисленный вектор размерности m. Сообщения, посылаемые честными пользователями, будем считать шумом, искажающим исходное сообщение, передаваемое от Alice. В рассматриваемой системе данный канал является скрытым каналом передачи данных, и оценка его пропускной способности необходима для определения степени защищенности секретной системы из n пользователей от утечек информации из этой системы. Свое же распределение X Alice выбирает так, чтобы максимизировать выражение H(X) - HY(X), при этом, в соответствии с основной теоремой Шеннона для каналов передачи данных с шумом, канал передачи от Alice к Eve будет обладать максимальной пропускной способностью. Отметим, что в реальной жизни Alice может представлять из себя программу, которая была установлена на компьютер с секретной информацией, и, действуя, как описано выше, Alice передает эту секретную информацию. Более подробное описание и оценки пропускной способности описанного скрытого канала в некоторых частных случаях можно найти в работах4, 5.
Аналогичные рассуждения можно провести и для модели с двумя миксами.
В данной модели, благодаря наличию двух миксов, Eve не знает, от кого отправлено сообщение и кому оно отправлено. Единственное, что она может, - это считать количество переданных сообщений за каждый такт времени. Таким образом, вход канала передачи данных от Alice к Eve есть 0 или 1 (что соответствует отправке сообщения от Alice или его отсутствию), а выход - число от 0 до n.
Обобщение
Как видно из описанных примеров, вероятностное поведение честных отправителей описывается дискретной случайной величиной. Но это приближение никак не отражает того, что предпочтения
пользователей к тому или иному серверу могут меняться со временем или случайны отклонения поведения пользователя от заданного распределения.
Докажем несколько важных утверждений. Для этого рассмотрим дискретный канал передачи данных (без памяти) с шумом. Пусть имеются входные символы: 1, ... п и выходные: 1, ... , т. Пусть для каждого момента времени I = 1, 2, ... имеется своя функция Л( ьЛ = Р (} Л), определяющая вероятности перехода. Таким образом, вместо одной условной энтропии Н (X) в каждый момент времени будет своя Ну (X).
Для описанного канала докажем следующее утверждение.
Утверждение. Рассмотрим канал, у которого существует 1 Ну(Х) / Т) = а(Х) ф 0. Тогда, если энтропия источника Н(х) < С = тахх(Н(Х) - а(Х)), то сообщения источника могут быть переданы со сколь угодно малой ошибкой. Если же Н(х) > С, то безошибочная передача невозможна.
Доказательство. Повторяя рассуждения, проводимые при доказательстве основной теоремы Шеннона6 для канала с шумом, рассмотрим источник, на котором достигается пропускная способность (или становится сколь угодно близкой) С. Рассмотрим всевозможные принимаемые и отправляемые сообщения большой длины Т. Из свойств энтропии следует, что отправляемые последовательности распадаются на 2ТН(Х) «высоковероятных» последовательностей и на остальные последовательности, суммарная вероятность которых стремится к 0 при увеличении Т. Пусть 5 - другой источник, создающий информацию со скоростью Я, меньшей С. За время Т он создаст 2ТЯ высоковероятных сообщений. Каждому из этих сообщений поставим в соответствие высоковероятную последовательность источника 50 и найдем среднюю вероятность ошибки при передаче в таком классе возможных кодирований. Для каждого выхода канала у мы имеем некоторое число входов канала, из которых могло получиться у (это число будет получено ниже). Если более чем одному такому входу поставлено в соответствие сообщение источника, то имеем ненулевую вероятность ошибки (так как мы не можем точно выбрать между ними). Для усреднения частоты возможных ошибок (здесь под частотой понимается отношение количества выходов, которые могли получиться более чем из одного входа, к общему количеству выходов) по всем кодированиям, каждому такому кодированию припишем одинаковую вероятность. Таким образом, имеем задачу нахождения вероятности ошибки передачи при равномерно распределенных сообщениях
источника S по 2TH(X) последовательностям источника S0. Иными словами, вероятность того, что конкретное сообщение источника S поставлено в соответствие последовательности источника S0, есть 2T(R-H(X)). То есть при наблюдении выходной последовательности Y, вероятность того, что никакая другая последовательность не будет сообщением, есть p(T) - (1 - 2T(R-H(X)))K, где K - количество входных последовательностей, из которых могла получиться выходная последовательность Y.
Оценим асимптотический характер поведения K для произвольного Y. Для этого рассмотрим дискретные случайные величины £: P(£ - -log h (i |j)) = h(i,j). С их помощью запишем случайную величину, значениями которой являются всевозможные вероятности входных последовательностей длины T, при заданной выходной с - 2-ZT-1 5t. Оценим дисперсию случайной величины £t: D£t - E£2t - (E£t)2. Заметим, что E£t - Hy(x) < H(x).
В силу того, что функция xlog2 x, как несложно показать, является ограниченной на отрезке [0,1] некоторой константой С, то сразу для всех t из интервала [1, выполняется
= Щ-1 j Pt(i, j)log2 pt(i |j) < Щ-11"}-1 Pt(i j)log2 Pt(i j) < mnC. Так как m и n - фиксированные числа, то E£2 ограниченно равномерно по t. В силу двух последних замечаний D£t ограничена равномерно по всем t ->. К последовательности {£t} применим усиленный закон больших чисел в форме Чебышёва:
( _ ff-i H<x>) - о
T-N T T
с вероятностью 1 (далее все равенства подразумевают равенство на множестве единичной меры)
уг с уг Н4х) Ут Е
^ 11шг * - 11шг и-1 ^ ' - а(Х)^ 11шг -1* - а(Х).
Г—»те г г—Г г—Г
Следовательно, имеем следующие ограничения на УГ : (а - £)Г< у^Е< (а + е)Г^2 -(а+е)Г < с,т < 2 -(а-е)Г. Так как дг выражает возможные вероятности входных последовательностей, то для фиксированного г имеем ограничение на число входных последовательностей, из которых могла получиться фиксированная выходная: 2 (а-е)Г < К < 2 (а+е)Г.
С помощью оценки на К мы можем оценить Р(Т):
(1-2~Т(Я-Н(Х)))2(а(Х)+а)Т< р(у) < (1-2"Т(Я-Н(Х)))2(а(Х)-£)Т.
Теперь вспомним, что Я < С^ Я - Н(Х) = -а(Х) -ц, где ц > 0
(1-2-Т(а(Х)+п))2(а(Х)+£)Т < р(Т) < (1-2-Т(а(Х)+п))2(а(Х)-£)Т.
Найдем предел левой части неравенства:
1^(1-2-Т(а(Х>+П))2(а(Х)+£)Т = 2(а(Х)+£)
log(1-2-T(a(X)+n)) = 2Т(а(Х)+£) (2-Т(а(Х)+П) + 0(2-Т(а(Х)+п))) _ 2-Т(П-£) +
2Т(а(Х)+£) 0(2-Т(а(Х)+п)).
В силу того, что п фиксировано, а £ может быть выбрано сколь угодно малым, то предел последнего выражения равен 0, следовательно, предел правой части неравенства равен 1. Аналогично показывается, что предел правой части неравенства также равен 1 ^ р(Т) ^ 1, т. е. средняя вероятность отсутствия ошибки стремиться к 1 =>, средняя вероятность ошибки стремится к 0 => для любого £ > 0 найдется Т: средняя вероятность ошибок будет меньше £. Но если среднее положительных чисел меньше £, то только та часть из них, доля которых не превышает может быть больше То есть при достаточно большом Т почти при любом способе кодирования вероятность ошибки будет сколь угодно малой.
Рассмотрим случай, когда Н(Х) > С ^ Н(Х) _ С + Ь, Ь > 0 ^ Н(Х) > Н(Х) - Ну(Х) + Ь ^ Ну(Х) > Ь > 0. То есть каким бы ни было распределение X, неточность передачи будет больше 0, следовательно, точная передача невозможна, что и требовалось доказать.
Теперь рассмотрим случай, когда для каждого момента времени t задана вероятностная мера Р( на множестве функций, /(Л _ рг( Л), где 1 < г<п , t _ 1, ... , Этот случай учитывает возможные случайные изменения неопределенности входного сигнала при известном выходном. То есть теперь неточность передачи является случайным процессом: Ну (х). В этом случае справедливо следующее утверждение.
Утверждение. Рассмотрим описанный выше канал, у которого существует НтТ^ (ХТ_1 Е(Н(Х) / Т) _ а(Х) Ф 0. Если энтропия источника в секунду Н(х) < С _ тахХ(Н(Х) - а(Х)), то сообщения источника могут быть переданы со сколь угодно малой неточностью. Если Н(х) > С, то безошибочная передача невозможна.
Доказательство полностью повторяет предыдущее, за исключением того, что распределение случайной величины £ следует взять таким: Р(£ - -1ogpJi [/')) - РИЛ}4))рЛ}[/').
Заключение
Доказанные утверждения обобщают понятие неточности передачи с Ну(Х) в случае, когда нет зависимости от времени, до 11шг— (УГ-1 Е(Ну(Х / Г) в случае временных и случайных изменений. Это позволит точнее оценить пропускную способность каналов.
Если вспомнить приведенные выше модели, то легко увидеть, что теперь характер поведения реальных людей, обменивающихся данными в описанных сетях, может быть описан не просто случайной величиной, но и случайным процессом. А это дает более точные оценки пропускной способности скрытых каналов, а следовательно, и надежности всей системы в целом.
Примечания
См.: Шеннон К. Работы по теории информации и кибернетике. М.: Изд-во иностранной литературы, 1963.
Скороход А.В. Вероятность. Прикладные аспекты // Итоги науки и техники. ВИНИТИ. Современные проблемы математического фундаментального направления. № 43. М.: ВИНИТИ, 1989. С. 188-189.
Добрушин Р.Л. Общая формулировка основной теоремы Шеннона в теории информации // Успехи математических наук. Т. 14. Вып. 6. 1959. С. 3-104. См.: Newman Richard E., Nalla Vipan R., Moskowitz Ira S. Anonymity and Covert Channels in Simple Timed Mix-firewalls. Toronto, Canada: Privacy Enhancing Technologies, 2004. P. 1-16.
См.: Moskowitz Ira S., Newman Richard E., Crepeau Daniel P., Miller Allen R. Covert channels and anonymizing networks. Washington, DC, USA: WPES, 2003. P. 79-88. См.: Шеннон К. Указ. точ.
_
3
4
5
3