УДК 004.93 DOI 10.24412/2413-7383-135-140
В.М. Зуев
Федеральное государственное бюджетное научное учреждение «Институт проблем искусственного интеллекта», г. Донецк 283048, г. Донецк, ул. Артема, 118 б
ОРТОГОНАЛИЗАЦИЯ ВЕСОВЫХ КОЭФФИЦИЕНТОВ НЕЙРОСЕТИ
Zuev V.M.
Federal State Budgetary Scientific Institution «Institute of Artificial Intelligence Problems» 283048, Donetsk, Artem str., 118 b
ORTHOGONALIZATION OF NEURAL NETWORK WEIGHT COEFFICIENTS
V. M. Zuev
Budgetary Foederati Publica «Institutione Scientific Institutum Intelligentiae Artificialis Problems», Donetsk 118 b Artyom str., Donetsk, 283048
ORTHOGONALIZATION NEURAL NETWORK PONDUS COEFFICIENTIUM
В статье рассматривается регуляризация сверточной нейронной сети методом ортогонализации. Предложенный метод может использоваться для уменьшения количества оптимизируемых весовых коэффициентов. Введен этап предварительной настройки фильтров, позволяющий выбрать оптимальное количество слоев конволюции и позволяющий ускорить обучение за счет оптимальной настройки фильтров в начале обучения. Приведенный анализ показывает, что предлагаемый нами метод вполне работоспособен.
Ключевые слова: нейронная сеть, регуляризация, ортогонализация.
The article considers the regularization of a convolutional neural network using the orthogonalization method. The proposed method can be used to reduce the number of optimized weight coefficients. A preliminary filter adjustment stage is introduced, which allows choosing the optimal number of convolution layers and speeding up training due to the optimal filter adjustment at the beginning of training. The analysis shows that the method we propose is quite efficient. Keywords: neural network, regularization, orthogonalization.
Articulus disserit regularizationem retis neuralis convolutionis utendi methodo orthogonalizationis. Proposita methodus adhiberi potest ad reducere numerum coefficientium optimized ponderis. Filtrum prae-tuning scaena introducta est, permittens electionem numerorum optimalium convolutionis stratorum, et permittens accelerationem disciplinae per filtras optime tricas in principio disciplinae. Praesentata analysis ostendit modum propositum satis efficacem esse. Affatus clavis: neural network, regularization, orthogonalization.
Введение
При проектировании нейросетей важным моментом является так называемая регуляризация этой нейросети, иными словами, её упрощение и устранение некоторых артефактов, сопутствующих нормальной работе. Например, появление очень больших или очень малых чисел и др.
Актуальность работы. Актуальность работы заключается в упрощении нейросети и повышении скорости её работы.
Общие данные. Регуляризация заключается в накладывании на модель некоторых ограничений на основе наших представлений о том, как должна решаться поставленная задача. Как результат - повышается обобщающая способность сети. Например, Ll регуляризация приводит к приравниванию нулю части весов делая сеть разряженной, L2 - приводит значения коэффициентов в числа в некоторый удобный диапазон значений, регуляризация способом отсева устраняет зависимости отдельных нейронов, и т.д. Эти методы являются неотъемлемой частью процесса обучения многих современных сетей, особенно если они содержат большое число параметров.
Идея регуляризации вычислений с помощью ортогонализации не нова и восходит к работам академика А.Н. Крылова (см. в [1, 2])
Рассмотрим задачу классификации изображений сверточной нейронной сетью. Эта задача решается за счет постепенного уменьшения линейной зависимости между векторами весов нейронов во время обучения [3]. Для этого модифицирован классический алгоритм ортогонализации.
Если определить фильтры сверточного слоя как множество векторов Рс = {/1, /2, ■■■,/п}, где с - это индекс сверточного слоя, а п - число фильтров в нем (п Е Ы), то после того, как веса обновились в ходе обратного распространения ошибки, в каждом отдельном сверточном слое ищем пару векторов с максимальной длиной проекции друг на друга:
(/к,/д)^ ...
а = шах ———1к (1)
к,дЕп,к*д(/к,/к)'к
Тогда, чтобы ортогонализировать фильтры / и /ь, делается шаг из алгоритма Грама-Шмидта [4, 5]:
* _ (/Ь,/а) f
Та=Та (Гь,ГьУа (2)
В следующей модификации
£ (/Ь,/а) г ...
/а= /а- (3)
где р - это скорость обучения и V - коэффициент ортогонализации, значения которого лежат на отрезке [0.0, 1.0]. Введение коэффициента ортогонализации обусловлено тем, что «мгновенная» ортогонализация фильтров сильно ломает процесс
Ортогонализация весовых коэффициентов нейросети
обучения, сводя на нет планомерные изменения весов за прошлые итерации. Малые значения V сохраняют динамику обучения и способствуют плавному уменьшению линейной зависимости между фильтрами в каждом слое по отдельности. Отметим еще раз важный момент в методе: за одну итерацию мы модифицируем только один вектор, чтобы не навредить алгоритму оптимизации.
Показано [3], что такой способ приносит пользу в виде ускорения сходимости. Предлагается [3] значительно видоизменить и попутно решить еще новые задачи. Во-первых, во всех CNN есть до сих пор не решенная теоретическая проблема числа фильтров. Пакет MATLAB рекомендует подбор числа фильтров опытным путем. Во-вторых, как правило, это число для гарантии сходимости выбирается с некоторым, часто излишним, избытком.
Ниже излагается наш способ решения поставленных задач.
Число фильтров в слое с не может превышать числа возможных перестановок
2
из размера ядра фильтра. Если ядро фильтра имеет размер т^т, то п<2т . Даже при популярном m=3, получаем достаточно большое п=512.
Введем этап предварительной настройки фильтров. Для этого найдем такой множитель Si к фильтру ^, при котором в среднем достигается минимум в разнице между энергией Ет изображения и скалярным произведением изображения и фильтра. Иначе говоря, найдем такое Si, при котором достигается минимум
Ет = (тт(1т — з1Мк)2) (4)
«г
где Мк - ядро фильтра, соответствующее /к, 1т - исходное изображение, (.) -оператор усреднения по ансамблю (см. ниже).
Далее из исходного изображения вычитаем з^Мк и получаем новое изображение I' как остаток
1т' = 1т — 5[Мк (5)
Продолжая эту процедуру далее получаем
1т' = 1т — ^ (6)
I
до тех пор, пока энергия остатка не будет превышать некоторой заданной величины 8, определяемое как энергия шумового поля изображения.
1т'2 < 8 (7)
В итоге получает разложение исходного изображения на взвешенную сумму ортогональных матриц [6]:
1т ^^ з1М1
I
(8)
Для успешности этого процесса достаточно выполнение ортогональности ядер конволюции, то есть каждое следующее М^ выбирается так, что:
МкМд = I
(9)
где I - единичная матрица.
Оператор усреднения по ансамблю требует небольших пояснений. Ансамбль может составлять одно изображение, несколько изображений из набора или весь обучающий набор изображений. Пример выборки из нескольких изображений зависимости Ет от 5 показан на рисунке 1, а усредненная зависимость показана на рисунке 2. Если обучающий набор составляют изображения очень разных тематик, то кривая на рисунке 2 выполаживается и минимум становится не явным. Однако если изображения имеют конкретный тематический подбор, то значения величин определяются достаточно успешно. Поэтому, метод рекомендуется использовать именно для таких условий.
Рисунок 1 - Выборка из нескольких изображений зависимости Ет от 5
1.5
£ ш
/ /
0.5
Рисунок 2 - Усредненные показатели выборки изображений зависимости Ет от 5
Ортогонализация весовых коэффициентов нейросети
При известном способе на каждую маску М^ приходилось отводить память Wi, а теперь некоторое количество чисел 5 I, которое можно сделать меньшим. Разница в том, что количество чисел 5 I ограничено неравенством (7), а количество весов Wi не обязательно оптимально и часто берется с большим запасом, вплоть до максимально возможного значения.
Вывод
Введен этап предварительной настройки фильтров, позволяющий выбрать оптимальное количество слоев конволюции и позволяющий ускорить обучение за счет оптимальной настройки фильтров в начале обучения. Приведенный анализ показывает, что предлагаемый нами метод вполне работоспособен В дальнейшем предполагается проведение моделирования и экспериментальной проверки предложенного метода.
Работа выполнена в рамках работы по разработке теоретических основ обнаружения и оценки объектов на местности интеллектуальными робототехническими системами в условиях быстро меняющейся обстановки.
Список литературы
1. Вержбитский В.М. Численные методы М. ВШ, 2001
2. Саад Ю. Итерационные методы для разреженных линейных систем: Учеб. пособие. - В 2-х томах. Том 1 / Пер. с англ.: Х.Д.Икрамов; Предисл.: В.А. Садовничий. - М.: Издательство Московского университета, 2013. - 344 с.
3. https://habr.eom/ru/companies/smartengines/articles/495816/4.8K
4. Шилов Г Е Конечномерные линейные пространства. - М.: Наука, 1969
5. Беклемишев Д.В. Дополнительные главы линейной алгебры. М.: Наука 1983.
6. Тимофеева, Н. В. Линейная алгебра. Современная алгебра: учебное пособие / Н. В. Тимофеева; Яросл. гос. ун-т им. П. Г. Демидова. - Ярославль: ЯрГУ, 2012. - 114 с.
References
1 Verzhbitskiy V.M. Numerical methods M. Higher School of Economies, 2001
2 Saad Yu. Iterative methods for sparse linear systems: Study guide. - In 2 volumes. Volume 1 / Translated from English by H.D. Ikramov; Preface by V.A. Sadovnichy, Moscow: Moscow University Press, 2013- 344 p.
3 https://habr.com/ru/companies/smartengines/articles/495816/4.8K
4 Shilov G. E. Finite-dimensional linear spaces. Moscow: Nauka Publ., 1969
5 Beklemishev D.V. Additional chapters of linear algebra. Moscow: Nauka, 1983.
6 Timofeeva, N. V. Linear algebra. Modern algebra: a textbook / N. V. Timofeeva; Yaroslav State University named after P. G. Demidov. Yaroslavl: YarGU, 2012. 114 p.
RESUME
V.M. Zuev
Orthogonalization of neural network weight coefficients
At the first stage, the filters are configured. This configuration is used as a starting point for further training of the basic model, which allows optimizing the size and shape of the filters.
Optimizing the number of convolution layers and filter parameters significantly reduces the training time of the model. This is achieved by reducing computational complexity and using resources more efficiently.
The proposed method has shown its effectiveness on various datasets. The experimental results demonstrate some improvement in the accuracy and speed of learning compared to existing approaches. This indicates the promise of this method for use in various machine learning tasks.
РЕЗЮМЕ
В.М. Зуев
Ортогонализация весовых коэффициентов нейросети
На первом этапе происходит настройка фильтров. Данная конфигурация используется в качестве отправной точки для дальнейшего обучения основной модели, что позволяет оптимизировать размер и форму фильтров.
Оптимизация количества слоев конволюции и параметров фильтров позволяет значительно сократить время обучения модели. Это достигается за счет уменьшения вычислительной сложности и более эффективного использования ресурсов.
Предложенный метод показал свою эффективность на различных наборах дан-ных. Результаты экспериментов демонстрируют некоторое улучшение точности и скорости обучения по сравнению с существующими подходами. Это свидетельствует о перспективности данного метода для применения в различных задачах машинного обучения.
Зуев Владимир Михайлович - заведующий отделом ИРТС Федерального государственного бюджетного научного учреждения «Институт проблем искусственного интеллекта». Область научных интересов: интеллектуальные робототехнические системы, эл. почта [email protected], адрес: 283048, г. Донецк, ул. Артема, д. 118 б, телефон +7949 317 39 60.
Статья поступила в редакцию 22.01.2025.