Построение модифицированных алгоритмов распознавания типа ближайшего соседа

Фазылов Ш.Х.; Мирзаев Н.М.; Раджабов С.С.; Каримов Ибрагим Каримович

РАЗДЕЛ I. ТЕХНИЧЕСКИЕ НАУКИ И ИНФОРМАЦИОННЫЕ СИСТЕМЫ

УДК 519.95

ПОСТРОЕНИЕ МОДИФИЦИРОВАННЫХ АЛГОРИТМОВ РАСПОЗНАВАНИЯ ТИПА БЛИЖАЙШЕГО СОСЕДА

Ш.Х. Фазылов, Н.М. Мирзаев, С. С. Раджабов (Институт математики и информационных технологий АНРУз, г. Ташкент),

И.К. Каримов (КамчатГТУ)

В работе предложена модель алгоритмов распознавания, основанных на оценке взаимосвязанности признаков. Показано, что в рамках алгебраического замыкания этих алгоритмов существует корректный и устойчивый алгоритм.

Model ofpattern recognition algorithms based on features' correlations' estimation is proposed in this paper. It is shown that there is a correct and stable algorithm within the framework of the algebraic closure of the presented algorithms.

Введение

Анализ публикаций за последние годы, в частности [1-4, 7, 9, 10], позволяет выделить следующие достаточно известные модели алгоритмов распознавания:

- модели, основанные на разделяющих функциях;

- статистические модели;

- модели, основанные на методе потенциальных функций;

- модели, основанные на аппарате булевой алгебры и логики предикатов;

- модели, основанные на вычислении оценок.

Однако алгоритмы, представленные этими моделями, ориентированы, в основном, на распознавание образов, описанных в пространстве независимых признаков небольшого размера. Например, не более 100 признаков.

Во многих прикладных задачах число исходных признаков достаточно велико (например, более 200 признаков). При этом многие признаки взаимосвязаны и исходное описание объектов является избыточным, что порождает значительные вычислительные трудности. В связи с этим возрастает актуальность проблемы разработки и усовершенствования алгоритмов распознавания образов, заданных в признаковом пространстве большой размерности.

Далее приводятся результаты по построению модифицированных моделей алгоритмов распознавания образов, заданных в признаковом пространстве высокой размерности. В качестве исходной модели для распознавания образов рассмотрена модель алгоритмов типа ближайшего соседа [2].

Постановка задачи

Введем основные понятия и обозначения в соответствии с [1]. Рассмотрим множество допустимых объектов {5"}. Каждому объекту S (S е {S}) в пространстве признаков X (X = (Xj,..., xn)) соответствует описание объекта I(S) = (a1,..., at,..., an). При этом предполагается, что размерность пространства признаков n очень большая (например, более 200).

Пусть множество {S} покрыто конечным числом подмножеств (классов) K1, K2,..., Kt:

{S} = Ük, K n Kj = 0, i Ф j, i, j е {1,..., l} .

j=1

При этом разбиение {S} определено не полностью. Имеется только некоторая начальная информация J0 о классах K1, K2,..., K,.

Пусть задана совокупность m объектов Sm = {S1, ..., St, ..., Sm} (S е {S}, i = 1, m):

К = Sm n K , CK = Sm IK..

j j' j

Начальная информация J0 о классах задана в виде

Jo = (515..., Я,,..., ; а ф),..., а (5,),..., а )}, а (5,) = (а,р..., а„,..., а„), где а, - значение предиката Р, (Б,) = Б,. е К,. Вектор сх(Б,) называется информационным вектором объекта , а матрица - информационной матрицей т .

Имеется набор произвольных объектов £я = ..., }, который называется контрольным множеством (£я е {Б}). Задача распознавания образов ^-задачи) состоит в построении алгоритма А (А е{А}), который вычисляет значения предиката Pj(Б,) по начальной информации

Л (Р„ = Рф)):

a(j0's?q) = Ы1, в, е{0,1,Л).

Здесь в , интерпретируется так же, как и в [1].

я I

Алгоритм А называется корректным для задачи Z, если в, е {0,1} и — в,| = 0.

,=1 ,=1

В противном случае алгоритм А называется некорректным для задачи Z. Нетрудно заметить, что корректные алгоритмы являются частным случаем некорректных.

Для произвольных алгоритмов распознавания имеет место следующее утверждение [1]: любой алгоритм распознавания А можно представить как композицию двух операторов В и С

(В(Jo, 5я) = ЦЬ Ц^ , Ь , - действительные числа, С(||Ь , ^) = ||в, Ц^ , в, е {0,1, А}).

Из этого следует, что каждый алгоритм А е {А} можно разделить на два последовательных этапа:

- на первом этапе задача Z переводится в числовую матрицу ||Ь, || размером ях1 (Я - число строк, равное числу объектов; I - число столбцов, равное числу классов);

- на втором этапе по этой числовой матрице решающее правило определяет принадлежность объектов ..., Б к классам К1, ..., К1.

В работе рассматриваются только пороговые решающие правила, в которых решение принимается поэлементно. Пусть Ь е{Ь,} и с1, с2 - некоторые пороговые числа (0 < с1 < с2). Тогда решающее правило определяется следующим образом:

0, если Ь < с1, С(Ь) = <! 1, если Ь > с2,

А, если с1 < Ь < с2.

В связи с тем, что все алгоритмы распознавания можно представить как композицию двух операторов, далее рассматриваются только операторы распознавания.

Метод решения

В работе рассмотрен новый подход к решению задачи построения алгоритмов распознавания объектов, заданных в признаковом пространстве большой размерности. На базе этого подхода предложена модель модифицированных алгоритмов распознавания типа ближайшего соседа. Основная идея предлагаемой модели состоит в формировании пространства независимых признаков и распознавания объектов, заданных в этом пространстве, с применением алгоритмов типа ближайшего соседа. Выбор алгоритмов типа ближайшего соседа объясняется простотой их реализации.

Задание модифицированных алгоритмов распознавания типа ближайшего соседа включает следующие основные этапы [1, 2, 4]:

1. Выделение подмножеств сильносвязанных признаков. На этом этапе определяются системы ЖА «независимых» подмножеств сильносвязанных признаков. Пусть Е (я = 1, п') - подмно-

жества сильносвязанных признаков. Меру близости Ь(Н , Н,) между подмножествами Н и Н, можно задать различными способами, например [3]:

ДНр,Н)=Т^Т ^ ,х.),

р ц ц х. ег,

где N , N - число признаков, входящих соответственно во множества Н , Н ;

П(х,-, х.) - функция, которая характеризует силу парной связи между признаками х1 и xj [10]. Формирование совокупности подмножеств сильносвязанных признаков ЖА = {Н1, Н2,..., Нп}

осуществляется следующим образом. Пусть имеется п подмножеств, которые состоят из одного элемента:

Н ={Х1>, Н 2 ={Х2},..., Нп ={ Хп} ,(N1 = N2 =... = Nn = 1) и ДН,, Н .) = п„..

При этом формируется матрица связи п-го порядка. Далее в каждом шаге порядок этой матрица умещается на единицу.

На каждом шаге выполняются две операции:

1) объединение Нр и Н, в одно подмножество, если

ДНр, Н,) = тах ДН(, Ни) (г, и е {1, 2,..., п - к}, г * и);

2) формирование новой матрицы связи.

Данная процедура продолжается до тех пор, пока не получится п' подмножеств (п' -некоторое заданное число).

2. Определение репрезентативных признаков в каждом подмножестве сильносвязанных признаков. На данном этапе формируется набор репрезентативных признаков. Следует отметить, что каждый репрезентативный признак из ЖА является типичным представителем соответствующего подмножества.

Известно [16], что в процессе выделения подмножеств сильносвязанных признаков возникают кластеры с одним, двумя и более двух элементами.

Если подмножества состоят только из одного элемента, то результат выбора всегда один и тот же. В этом случае признаки сильно отличаются от других. Поэтому такие признаки нужно отнести к числу репрезентативных.

Если подмножества сильносвязанных признаков содержат больше двух элементов, то вычисляется мера близости каждого элемента к другим элементам данного кластера:

г = х-' Х )'

]=1 •*]

где N - число элементов в ,-м подмножестве признаков Н,.

Выбор репрезентативного признака осуществляется на основе выделения элемента подмножества Н., который максимально близок к другим элементам:

г. = тах г .

3 <е[1, Nч ]

Если подмножество содержит всего два элемента, поступают следующим образом. Определяется близость каждого элемента такого подмножества к элементам, выбранным на предыдущих этапах отбора:

n0

г

3=1

= ^П(х,-, х.), , = 1, 2,..., 2к; ] = 1,2,..., N0;

где к - число подмножеств, которые состоят из двух элементов;

N0 - число обособленных элементов и элементов, выбранных из подмножеств с мощностью более двух.

Выбор репрезентативного признака осуществляется по условию:

Г. = Ш1П г .

1

,е[1,2]

В результате выполнения данного этапа формируется пространство признаков У = (у1, ..., у,,..., уп ), описывающего объекты множества Бя с намного меньшим числом признаков (п' << п ).

3. Определение функции различия ё(Б, Бу) между объектами Б и Бу. На этом этапе задается функция различия, которая характеризует различие объектов Б и Бу в пространстве признаков. Чем больше значение функций ё(Б, Бу), тем больше различие.

Рассмотрим два объекта Би и Бу в новом пространстве признаков У = (у1,..., ук):

Би = (au1,■■■, аик ) и Б = (av1,..., а*к ).

Различие между этими объектами определяется следующим образом:

ё(Би, Бу) = ]Г X,(аш — а„)2, ,=1

где X, - весовой коэффициент, который соответствует признаку у1.

4. Задание функции близости ф(Б, Бу) между объектами Б, Бу. На данном этапе определяется функция близости между объектами Б и Бу с помощью потенциальных функций ф(Б, Бу) [4]:

ф(Б, Бу) = ехр(-тё(Б, Бу)),

где т - параметр алгоритма.

5. Вычисление оценки принадлежности для класса КНа этом этапе вычисляется оценка

для класса К.. Рассмотрим объекты класса К., в который входят строки Бт +1, Бт + 2,..., Бт. таблицы Тгт1 [7].

Пусть вычислены значения функций близости ^(Бт-1+1, Б), ^(Бт-1+2, Б), ..., Я(Бт., Б) . Оценкой для класса К. будем считать функцию

ц(К., Б) = шах{Д(Би, Б)}.

Би еК.

В результате последовательного применения оператора В(Б) (В(Б) = (ц^), ..., ц^), ...^ ц^)) к объектам Б1,..., Бя, Бя получим матрицу Щ(Б,)|| ^ :

В (J0, Бя) =

ц1(б1) ... ц. (б1) ... ц| (б1)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ц1(б,,) ... ц. (Б,:) ... ц, Ю

Ц1(Бя) ... ц. (БЯ) ... ц, (Бя)

Таким образом, определяется модель модифицированных алгоритмов распознавания типа ближайшего соседа. Множество всех алгоритмов распознавания из рассмотренной модели обозначим через {А}. Любой алгоритм А (А е {А}) из этой модели полностью определяется заданием набора параметров п = (п', {X,}, т, с1, с2).

Исследование корректности алгоритмов распознавания типа ближайшего соседа

Результаты исследований корректности и устойчивости сформулированы в следующих утверждениях.

1. Пусть {А} - множество алгоритмов распознавания типа ближайшего соседа, основанных на оценке взаимосвязанности признаков. Если множество задач удовлетворяет условиям:

1) объекты, изоморфные относительно J0, отсутствуют в Sq ;

2) 0 < B(S) < да ;

3) J0 n Sq =0 ,

то в рамках алгебраического замыкания алгоритмов существует корректный алгоритм A* для задачи Z e{Z} :

A' =J(Cl + C2) S ( B')k ( B,)| ° С (Cl, C2),

J Be{ B} J

где (c1 + c2 ) S (B )k(b) - распознающий оператор B* в алгоритме A ;

Be{ B}

k(B ) - степень расширения распознающих операторов;

С(c1, c2) - пороговое решающее правило.

2. Пусть {А} - множество алгоритмов распознавания типа ближайшего соседа, основанных на оценке взаимосвязанности признаков. Если A* - корректный алгоритм для задачи Z, то он устойчив в с5 (Sq ).

Доказательство первого утверждения осуществляется конструктивно: оператор B(S) строится в явном виде [1, 12], а второго - осуществляется по аналогии [16].

На основе рассмотренной модели алгоритмов разработаны функциональные схемы программ распознавания и соответствующее программное обеспечение (ПО). Проведены экспериментальные исследования с использованием разработанного ПО по проверке работоспособности модели модифицированных алгоритмов при решении ряда модельных задач, где распознаваемые объекты сгенерированы в пространстве зависимых признаков. В результате этих экспериментов выявлены все зависимые признаки, и на базе выделенных признаков построен эффективный алгоритм распознавания.

Заключение

Учитывая вышеизложенное, основные результаты можно сформулировать в следующем виде.

Получена модель алгоритмов распознавания образов, заданных в пространстве большой размерности и позволяющая улучшить точность распознавания и расширить область применения при решении прикладных задач. Данная модель алгоритмов значительно снижает число вычислительных операций при распознавании неизвестного объекта и может быть использована при составлении различных программ, ориентированных на решение задач диагностики и классификации объектов.

Исследованы корректность и устойчивость разработанных алгоритмов.

Литература

1. ЖуравлевЮ.И. Избранные научные труды. - М.: Магистр, 199S. - 420 с.

2. Duda Richard O., Hart Peter E., Stork David G. Pattern Classification, Second Edition. -New York: John Wiley, Inc., 2001. - 6S0 p.

3. Vapnik V. Statistical Learning Theory. - New York: John - Wiley Sons, Inc. - 199S. - 732 p.

4. Айзерман М.А., Браверманн Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. - М.: Наука, 1970. - 34S с.

5. Лбов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. - Новосибирск: Изд-во ИМ СО РАН, 1999. - 211 с.

6. Дюкова Е.В. О сложности реализации дискретных (логических) процедур распознавания // Вычисл. матем. и матем. физика. - Москва, 2004. - Т. 44, № 3. - С. 550-572.

7. Журавлев Ю.И., Камилов М.М., Туляганов Ш.Е. Алгоритмы вычисления оценок и их применение. - Ташкент: Фан, 1974. - 119 с.

S. Об одной модели алгоритмов распознавания типа ближайшего соседа / Ш.Х. Фазылов, Н.М. Мирзаев, С.С. Раджабов, И.К. Каримов // Современные проблемы математики, механики и информационных технологий: Тез. докл. Респ. науч. конф. S мая 200S г. - Ташкент, 200S. -С. 277-279.

9. Камилов М.М., Фазылов Ш.Х., Мирзаев Н.М. Алгоритмы распознавания, основанные на оценке взаимосвязанности признаков // Математические методы распознавания образов: Тез. докл. - М., 2007. - С. 140-143.

10. Камилов М.М., Фазылов Ш.Х., Мирзаев Н.М. Построение алгоритмов распознавания на основе анализа взаимосвязанности признаков // Химическая технология. Контроль и управление. -Ташкент, 2007. - №5. - С. 54-60.

11. Растригин Л.А., Маджаров Н.Е. Введение в идентификацию объектов управления. -М.: Энергия, 1977. - 214 с.

12. Фазылов Ш.Х., Мирзаев Н., Жуманазаров С. С. О корректности алгоритмов распознавания, основанных на взаимосвязанности между признаками // Проблемы информатики и энергетики. - Ташкент, 1997. - № 1. - С. 19-24.

13. Камилов М.М., Абдукаримов Р.Т., Хакимов К.А. Некоторые вопросы устойчивости в задачах распознавания образов // Известия АН УзССР. Серия техн. наук. - Ташкент, 1984. - № 2. -С. 9-13.

14. Кашкевич С.И., Краснопоршин В.В. Об устойчивости одной модели алгоритмов распознавания // Вычисл. матем. и матем. физ. - 1983. - Т. 23. - № 1. - С. 191-197.

15. Смольянинова З.А. К вопросу об устойчивости корректного алгоритма // Вычисл. матем. и матем. физ. - Москва, 1980. - Т. 20, № 4. - С. 1032-1039.

16. Мирзаев Н. Об устойчивости алгоритмов распознавания, заданных на разнотипных признаках // Сб. науч. трудов «Вопросы вычислительной и прикладной математики». - Ташкент, 1987. - Вып. 82. - С. 63-68.

УДК 664.951.001.5

ОБОСНОВАНИЕ ЦЕЛЕСООБРАЗНОСТИ ПОСОЛА ГОЛЬЦОВ НИЗКОТЕМПЕРАТУРНЫМ СПОСОБОМ

М.В. Благонравова, М.А. Маклакова, С.Г. Максимов (КамчатГТУ)

В статье обсуждается возможность применения низкотемпературного способа для посола гольцов.

This article covers the usage of low temperature method for arctic char salting.

Большое промысловое значение для рыбной отрасли Камчатки имеют лососевые. Они в свежем и мороженом виде используются для производства соленой, копченой продукции, кулинарных изделий, пресервов и консервов.

Сегодня в мире осталось всего два действительно крупных региона масштабного природного воспроизводства основных промысловых видов тихоокеанских лососей - Аляска и Камчатка. Камчатка - последний крупный регион Азии, где сохранились условия естественного воспроизводства лососей и который может рассматриваться как глобальный резерв генофонда дикого лосося. На Камчатке воспроизводится не менее пятой части мировых запасов природного лосося и наблюдается видовое разнообразие, одно из самых больших в мире [2].

Только в водоемах Камчатки самые ценные виды азиатских стад лососей - чавыча, нерка и кижуч - достигают промысловой численности [7]. При этом полуостров занимает очень выгодное положение относительно нагульных районов этих видов в акваториях прибрежных морей и северной части Тихого океана.

Тихоокеанские лососи имеют большое значение для рыбной отрасли Дальнего Востока. Горбуша, кета, нерка и кижуч обеспечивают основу вылова лососевых рыб - около 98%. В последние 15 лет общий улов этих видов находился на высоком уровне.

Лососевые обладают высокой пищевой и биологической ценностью. Так, в состав белка нерки входит 17 аминокислот, в том числе все незаменимые. Мясо лососевых богато витаминами, как водорастворимыми (В1, В2, РР, В12, пантотеновая кислота и другие), так и жирорастворимыми (А, D, Е) [8].

Построение модифицированных алгоритмов распознавания типа ближайшего соседа Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Фазылов Ш. Х., Мирзаев Н. М., Раджабов С. С., Каримов Ибрагим Каримович

Похожие темы научных работ по математике , автор научной работы — Фазылов Ш. Х., Мирзаев Н. М., Раджабов С. С., Каримов Ибрагим Каримович

Текст научной работы на тему «Построение модифицированных алгоритмов распознавания типа ближайшего соседа»