УДК 681.3
Н. В. Слепцов ПРОБЛЕМЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ЭВОЛЮЦИОННО-ГЕНЕТИЧЕСКИМ ПОИСКОМ
Аннотация. Анализируется динамика выработки решений при эволюционногенетическом поиске, обеспечивающих эффективный поиск и высокие показатели обобщения. Определяются причины неадекватного поведения моделей поиска, даются рекомендации по количественным параметрам моделей.
Ключевые слова: генетические алгоритмы, моделирование, генетические операции, оптимизация, методы поиска.
Abstract. The problems of genetic calculus processes are investigated to obtain the efficient search results and high-quality generalization parameters. The reasons of losses are explained, methods of improving populations quality are proposed.
Keywords: genetic algorithms, simulation, genetic operations, optimization, search methods.
Введение
Применение на стадии проектирования классических методов оптимизации затрудняет то обстоятельство, что на практике бывает достаточно сложно зафиксировать свойства функциональной зависимости выходных параметров от входных величин; еще сложнее, а иногда невозможно, привести аналитическое описание такой зависимости. Большинство методов оптимизации основываются на использовании априорной информации о характере поведения целевой функции, а задача определения принадлежности функции тому или другому классу сопоставима по сложности с исходной [1]. В связи с этим вызывают интерес методы, способные отыскивать решения практически при полном отсутствии предположений о характере исследуемой функции. Примером задачи, решаемой такими методами, может служить обучение нейроподобной сети, в частности, подбор таких значений весов, при которых достигается минимальная ошибка [2, 3].
1. Организация генетического оптимизационного процесса
В общей постановке задача многопараметрической оптимизации может быть представлена следующим образом:
F* = F (xf, х2,..., xN) = max F (x , X2,..., xN), ai < xi < bi,..., aN < Xn <bN,
при этом дифференцируемость, непрерывность, удовлетворение условию Гельдера не являются необходимыми свойствами рассматриваемого класса задач. Более того, целевая функция может быть не определена вне допустимой области, а внутри допустимой области может иметь несколько глобальных экстремумов.
К методам, обеспечивающим решение задачи в такой постановке, относятся эволюционные методы поиска [4-6] и, в частности, генетические алгоритмы (ГА). В работе рассматриваются особенности эффективной реализа-
ции ГА с точки зрения оптимальной организации стратегии оценки и отбора решений с максимально близким к оптимальному приближению и одновременно максимально возможным набором характеристик, обеспечивающих обобщающие способности отобранного решения. Подобными алгоритмами могут быть решены различные классы задач, например: задача быстрой локализации одного оптимального решения, отыскание глобальных экстремумов при определенных условиях, наконец, отображение ландшафта исследуемой функции.
Принцип работы ГА основан на моделировании механизмов популяционной генетики [4]: решение ищется среди текущего множества возможных решений - популяции особей, свойства которых - суть параметры или характеристики искомых решений в прямом или кодированном виде; манипулирование хромосомным набором при формировании генотипа новой биологической особи путем наследования участков хромосомных наборов родителей (кроссовер) обеспечивает формирование новых комбинаций решений за счет уже существующих; случайное изменения генотипа - мутация, обеспечивает появление принципиально новых кодировок. Важным механизмом, заимствованным у природы, является процедура естественного отбора, направленная на улучшение от поколения к поколению приспособленности членов популяции путем повышения способности к «выживанию» особей, обладающих определенными признаками.
Реализацию базового ГА можно представить как итерационный процесс, включающий несколько этапов:
1) генерация исходной популяции;
2) воспроизводство потомков:
- выбор родительской пары;
- выбор и реализация одного из операторов кроссовера;
- выбор и реализация одного из операторов мутации;
3) создание репродукционной группы;
4) процедура отбора и формирование на его основе нового поколения;
5) переход к п. 2, если не выполнено условие окончания.
Конкретизация базового метода ведет к появлению целого спектра алгоритмов [3, 7], общим для которых является принцип получения оптимального решения путем оценки множества возможных решений, их комбинации по тем или иным принципам, построения множества новых решений, их отбор, оценка с дальнейшим повторением процесса. Примерами реализации алгоритмов, удовлетворяющих перечисленным особенностям, могут служить алгоритмы, представленные на рис. 1-3.
При достаточно разнородном составе блоков, формирующих процессы, представленные на рис. 1-3, все они соответствуют общей схеме эволюционногенетического процесса. Их очевидные различия служат иллюстрацией утверждения, что ГА - это не столько алгоритм в традиционном понимании, а некий общий подход к решению задач. В рамках анализа этого подхода требуется эффективно разрешить целый набор достаточно нетривиальных задач [6]: выбор способа кодирования/представления решения, формирование исходной популяции, оптимальной в некотором смысле, выбор множества генетических операторов и их параметров, обеспечение направленности генетического поиска, борьба с так называемой преждевременной сходимостью, оценка и отбор особей для эффективной работы алгоритма и т.д.
Рис. 1. Простой ГА
( Выход ]
Рис. 2. Генетический поиск с модификацией механизма формирования критериев
Каждая из подобных задач характеризуется своими наборами особенностей, затрудняющими проведение компактного и прозрачного анализа ГА как такового, особенно учитывая неоднозначность постановок задач, преимущественно решаемых ГА. Поэтому целесообразно сосредоточить внимание на механизмах, обеспечивающих эффективное функционирование процесса как такового, после чего можно будет определиться с оптимальной реализацией базовых механизмов, составляющих основные компоненты конкретной реализации ГА.
2. Описание генетической модели игровой стратегии
Рассмотрим некоторые аспекты оценки характеристик ГА применительно к решению одного из наиболее сложных классов задач - моделирование игровых стратегий.
Рис. 3. Метагенетический оптимизационный процесс
В работе [7] приводятся результаты исследования эволюционного решения ряда игр, в которых использовались популяции стратегий ГА, каждая из которых противостоит каждой другой стратегии в популяции. Такая динамическая среда позволяет получить высокие результаты [8, 9].
При этом возникает вопрос: может ли стратегия, полученная эволюционным путем в рамках собственной популяции, оказаться успешной для другой популяции; иными словами, насколько высоки характеристики обобщения, обеспечиваемые эволюционным обучением? В работе [9] при исследовании процесса эволюционного обучения показано, что, когда популяция стратегий разыгрывает игру против членов собственной популяции, в течение длительных промежутков времени в популяции доминируют высококачественные стратегии, но время от времени они оказываются внезапно замененными на низкокачественные. В естественной эволюции аналогом для такой ситуации является балансирование относительно некоторой точки равновесия со значительными отклонениями в стороны. Отметим, что особи с самыми высокими локальными показателями качества в популяции часто имеют существенные недостатки, в результате массовые исключения вызываются отсутствием у эволюционных стратегий решения задачи робастности, иначе говоря, стратегии, успешные в локальной популяции, в условиях, когда под действием мутации появляются новые качества, оказываются непригодными для новых условий и вымирают.
Подобные результаты имеет смысл расширить на случай нефиксированной функция пригодности, поскольку в случае реального эволюционного обучения данная функция может изменяться.
Применим эволюционный ГА для итерационного решения игровой стратегии дилеммы заключенного (ДЗ). Дилемма относится к классам некооперативных игр с ненулевой суммой. Удобство задачи - в возможности легко наблюдать проявление результатов сверхспециализации отдельных стратегий.
Формулировка задачи представлена на рис. 4, при этом
Т > Я > Р > Б,
Я > (Б + Т)/2. (1)
Уровень выплат показан на рис. 5. Они удовлетворяют требованиям (1).
Рис. 4. Формулировка задачи ДЗ: возможное поведение двух участников
Рис. 5. Формулировка задачи ДЗ: уровень выплат
Общие характеристики модели. Число итераций на игру установлено равным 50. Для модели примем, что стратегия сохраняет информацию только о трех предыдущих итерациях. Каждая итерация дает четыре возможных результата (рис 5), три итерации дадут 64 возможные стратегии. Двоичное представление генотипа стратегии перечисляет действие (0 - для сотрудничества, 1 - для отказа), взятое для каждой из 64 возможных хронологий и представляет простую таблицу поиска.
Если предыдущие три действия первого игрока были «отказ - сотрудничество - отказ» (101), а аналогичные действия его противника были «отказ, сотрудничество, сотрудничество» (100), их сочетание (хронология второго игрока - сначала), дает 100101 = 3710. Выбранное действие (0 или 1) записываем в бите 37 генотипа первого игрока. Противник сочетает действия, получая 101100 = 4410, и указывает действие (также 0 или 1) в позиции 44 своего генотипа.
Индивидуальная стратегия вырабатывается при решении (игре) ДЗ против всех остальных членов популяции. Среднее число платежей, полученное игроком в игре, характеризует пригодность - прямую эволюционную оценку.
Эволюция взаимодействия. Интересной особенностью ДЗ является эволюция сотрудничества: при любых попытках моделировать наиболее антагонистические формы поведения стратегии совместных действий оказываются жизнеспособнее и обрекают невзаимодействующих участников на вымирание.
На рис. 6 показана эволюция стратегии сотрудничества. От начальных популяций случайных стратегий развитие идет преимущественно за счет стратегий индивидуализма, однако на рубеже 10-13 поколений эти стратегии вырождаются, поскольку они не могут использовать возможности друг друга, в итоге наивысшие результаты дают стратегии сотрудничества, когда они могут противостоять оппонентам. Из условий (рис. 5) выигрыш взаимного со-
трудничества составляет три единицы. Средний выигрыш на рис. 6 указывает на стратегию сотрудничества. Вопрос о сходимости (рис. 6) решается в предположении, что после 50 поколений доминирующим является сотрудничество, дающее средний выигрыш - три единицы.
Рис. 6. Средний выигрыш
Анализ результатов, представленных на рис. 6, показывает достаточность 250-300 поколений особей для сходимости процесса. Даже при том, что смещение никогда не достигает предела 100 %, можно быть уверенным, что стратегия сотрудничества эффективно доминирует в популяции (рис. 6).
Массовые исключения при сверхспециализации. Вопрос о продолжении обучения в эволюционирующей популяции можно поставить так: стоит ли проводить обучение для широкого диапазона ненаблюдающихся ситуаций или можно ограничиться некоторой локальной совокупностью? Очевидно, что без разнообразия свойств популяция сверхспециализируется и настолько теряет способность к обобщению, что результаты случайной мутации могут уничтожить результаты эволюционного процесса.
На рис. 7 показано схождение к стратегии сотрудничества, аналогичное рис. 6. Но в поколении 222 появилась новая мутация, которая использует особей, поддерживающих стратегию сотрудничества. Эта успешная стратегия отказа от сотрудничества распространяется до тех пор, пока некооперирую-щихся особей популяции не станет такое количество (и число жертв будет достаточно мало), что эта стратегия станет невыгодной и популяция вернется к стратегии сотрудничества.
Выбросы, подобные показанным на рис. 7, относительно редки. Большинство прогонов модели соответствует рис. 6. Выброс на рис. 7 соответствует одному наблюдению на 30 прогонов модели. Выполнение еще 70 прогонов показало только еще один подобный выброс, плюс несколько выбросов без таких резких характеристик.
Основной причиной относительно редких выбросов является развитие сверхспециализации в специфической среде (окружении), не отличающейся разнообразием внешних воздействий. Аналогичные события имеют различные непосредственные причины с общими истоками:
- развивается специализация к текущей эволюционной среде;
- новая мутация эксплуатирует недостатки в большинстве стратегий, вызывая неожиданный подъем предельных показателей качества функционирования;
- средние показатели качества функционирования постепенно ухудшаются вследствие вымирания неприспособленных особей;
- популяция в конечном счете вновь стабилизируется.
f I и
22 ________I_____I______I_____I______L___2-І______I_____I______I_____
О 50 100 150 200 250 300 350 400 450 500
поколения
Рис. 7. Средний выигрыш
Эволюция в каноническом ГА обеспечивает недостаточные характеристики обобщения вследствие сверхспециализации к одной наиболее выгодной стратегии. Эта сверхспециализация является следствием отсутствия разнообразия в популяции ГА. Как сверхспециализация, так и эволюционные взрывы происходят также и в процессе естественной эволюции.
3. Повышение характеристик обобщения алгоритма
Рассмотрим два возможных способа улучшить обобщение:
- отбор начальной популяции с известными высококачественными характеристиками, вместо полностью случайной начальной популяции;
- использование дополнительных стратегий, чтобы сделать обучающую среду более разнообразной.
Выбор исходной популяции. Возможный способ улучшать обобщение в эволюционном обучении состоит в отборе исходной популяции со стратегиями, заведомо обеспечивающими высокое качество.
В качестве тестовых были выбраны случайные стратегии, обеспечивающие большое разнообразие особей. По результатам прогона модели определено, что лучшие результаты против случайных стратегий при случайной исходной популяции не достигаются, иначе говоря, среда обучения, ближе всех стоящая к тестовой среде, не дает лучших результатов, - лучшие стратегии обеспечиваются, когда приблизительно 10 % исходной популяции составляет стратегия ответных мер, а остальные - случайные.
Различие в способности обобщения - между отсутствием отбора и отбором оптимальным - незначительное и не дает существенного улучшения.
Поэтому выбор начальной популяции с качественными стратегиями, повышающими слабую способность обобщения, не является тривиальным, так как при достаточно длительном прогоне ГА начальный отбор не изменяет в конечном счете сверхспециализацию популяций. Когда показатель использования стратегии ответных мер превышает 10 %, обобщение становится хуже по сравнению со стратегиями случайными, таким образом, на определенном уровне генетическое разнообразие перевешивает любое незначительное улучшение вследствие выбора начальной популяции. Генетическое разнообразие улучшает рабочие характеристики, но поскольку в эволюционирующей системе отбор начальной популяции разнообразия сам по себе не повышает, следует искать другие способы обеспечения и генетического разнообразия, и улучшения обобщающей способности при обучении.
Повышение разнообразия внешних условий для ДЗ - случай двух игроков. Рассмотрим, в какой степени дополнительные стратегии могут повысить требуемый уровень разнообразия решений.
В табл. 1 приведены результаты 100 прогонов, каждый для четырех различных функций оценок. Эти функции оценки (пригодности индивидуальной стратегии) для ДЗ представляли значение ее средней величины против следующих стратегий:
1. Против всех особей в эволюционирующей популяции (стандартная стратегия - СТ).
2. То же, что п. 1, но включая случайную стратегию (СЛ).
3. То же, что в п. 1, но включая экспертную стратегию ответных мер (стратегия возмездия - ВС).
4. То же, что в п. 1, с включением как экспертной стратегии ответных мер, так и различных случайных стратегий для каждого поколения.
В качестве результатов рассматривались средняя результативность стратегии и отклонение при игре против стратегий ответных мер и случайных стратегий для 100 прогонов.
Развитие стратегии сотрудничества заставляет популяцию сотрудничать, поэтому средняя стратегия обычно обеспечивает уровень результата 3 против стратегии ответных мер, но также и несколько характерных провалов, резко снижающих общий результат (табл. 1).
Таблица 1
Против СЛ Против СВ
Стандарт (СТ) 2,54 ± 0,27 2,72 ± 0,47
СТ + случайные стратегии (СЛ) 2,78 ± 0,23 2,66 ± 0,51
СТ + стратегии возмездия (СВ) 2,55 ± 0,25 2,81 ± 0,40
СТ + СЛ + СВ 2,74 ± 0,23 2,72 ± 0,50
Против случайных стратегий популяции показывали хороший результат, при этом чем ближе тестовая ситуация соответствовала обучающей, тем выше, как и ожидалось, были результаты. Обобщающие способности оставались достаточно низкими и добавление стратегий ответных мер существенно оценок не изменило. Из табл. 1 видно, что добавление стратегии X к обучающей среде повышает обобщающие характеристики только в отношении стратегии X, но не против другой произвольной стратегии. Если такие стратегии
известны, их можно добавить к обучающим множествам, но в таком случае не нужны и алгоритмы обучения.
Повышение разнообразия внешних условий для ДЗ - случай N игроков. На рис. 8 представлены результаты экспериментов с моделями популяций, обладающих следующими параметрами: размер популяции - 100 особей, вероятность мутации - 0,001, вероятность кроссовера - 0,6. Селекция ранжированная с уровнем 0,75 - для особей с наихудшими показателями и 1,25 - для особей с наилучшими. Каждый прогон игры ДЗ для N игроков (ДЗ_Л) осуществляется для 100 итераций.
Рис. 8. Стратегии сотрудничества не доминируют
В отличие от ДЗ с двумя игроками (ДЗ_2), стратегия сотрудничества с ростом числа игроков становится менее предпочтительной. Рисунок 8 показывает средний выигрыш для 10 различных прогонов ДЗ_Л с восемью игроками, в которых сотрудничество никогда не доминирует. Горизонтальные линии сверху показывают уровни сотрудничества в 95, 90 и 80 %.
Обучающая и тестирующая среда. Для применения эволюционной функции оценки (пригодности) использованы три следующие метода:
1. Выбор из числа особей в популяции ГА - обычная эволюция для единственной популяции.
2. Выбор из пула, образованного развитием популяции ГА применением лучших 25 стратегий.
3. Выбор из пула, образованного развитием популяции ГА применением лучших 25 стратегий, но вероятность выбора одной из 25 в четыре раза выше, чем в предыдущем случае.
Для каждой из трех обучающих сред лучшие стратегии ГА проверялись для двух тестовых сред:
1. Против стратегий из последнего поколения ГА, чтобы увидеть, насколько они приспособились к эволюционной среде.
2. Против пула стратегий: половина бралась из последнего поколения ГА, половина - из полученного списка наилучших стратегий.
Результаты проверки представлены в табл. 2.
Таблица 2
Характеристики для различных сочетаний сред
Обучающая среда Тестовая среда
Против лучших из последнего поколения Против пула стратегий
1 7,26 5,37
2 11,78 5,40
3 12,57 5,38
Эволюционное развитие игры ДЗ_Л для восьми участников формирует стратегии отказа от сотрудничества. Поскольку для ДЗ_Л легко оказаться в проигрыше, эволюционное развитие игры вначале создает стратегии, преимущественно не использующие сотрудничество (в этом случае потери не столь значительны). Эти стратегии осторожно взаимодействуют друг с другом и не подвергаются «эксплуатации» высокоэффективными стратегиями из обучающих и тестовых сред.
Как следует из левого столбца табл. 2, добавление определенных стратегий к стратегиям, используемым ГА, не изменяет существенно рабочие характеристики стратегий ГА против пула эффективных стратегий - данные в этом столбце показывают стабильность даже в том случае, когда все добавляемые 25 стратегий являются высокоэффективными. Это еще раз показывает, что подобным образом способность обобщения не повышается.
Заключение
Анализ традиционных способов организации ГА показал, что найденные стратегии обладают недостаточной способностью обобщения, что периодически ведет к катастрофическим провалам. Их причиной является влияние случайных мутаций на популяцию, существовавшую длительное время в однообразной внешней обстановке.
Традиционный ГА к концу моделирования находит только одно решение и дальнейшее эволюционирование приводит к сверхспециализации в рамках этого решения. Сходимость характеристик особей популяции к одному решению приводит к атрофии полезных свойств и методик (типа возмездия при односторонней неудаче), что дает возможность для их одностороннего использования и вызывает крах.
Для улучшения способности обобщения исследовались два подхода. Первый состоял в отборе начальной популяции с известными высококачественными стратегиями. В результате отбор производился в целом быстрее, но различие в способности обобщения практически незначительное, поскольку в конечном счете отбор начальной популяции не изменяет разнообразия внешних условий. Кроме того, в результате оказывается, что для таких условий оптимальный уровень отбора ниже - генетическое разнообразие лучше, чем небольшое преимущество начального отбора. Это согласуется с теоретическими результатами в [5, 6], где показано, что отбор особей только высокого качества дает невысокие характеристики.
Второй подход к улучшению характеристик обобщения состоял в добавлении дополнительных стратегий для увеличения разнообразия (и обобщения). Это также не улучшало способность обобщения.
На наиболее важный вопрос - будут ли полученные стратегии обладать
способностью к обобщению для тех ситуаций, которые не включены непосредственно в обучающие, ответ является отрицательным.
Для решения проблемы требуется провести модификацию канонического ГА, что будет рассмотрено дополнительно.
Список литературы
1. Батищев, Д. И. Оптимизация многоэкстремальных функций с помощью генетических алгоритмов / Д. И. Батищев, С. А. Исаев // Высокие технологии в технике, медицине и образовании : межвузовский сборник научных трудов. - Воронеж, ВГТУ, 1997. - С. 4-17.
2. Цой, Ю. Р. Применение генетического алгоритма для решения задачи адаптивного нейроуправления / Ю. Р. Цой, В. Г. Спицын // Научная сессия МИФИ-2005. VII Всероссийская научно-практическая конференция «Нейроинформатика-2005» : сборник научных трудов. - М. : Изд-во МИФИ, 2005. - Т. 1. - С. 35-43.
3. Gruau, F. Genetic synthesis of Boolean neural networks with a cell rewriting developmental process / F. Gruau // In Proceedings of the International Workshop on Combination of Genetic Algorithms and Neural Networks (COGANN-92). - Los Alamos, CA : IEEE Computer Society Press, 1992. - P. 55-74.
4. Вороновский, Г. К. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности / Г. К. Вороновский, К. В. Махотило, С. Н. Петрашев, С. А. Сергеев. - Харьков : Основа, 1997. - 112 c.
5. Емельянов, В. В. Теория и практика эволюционного моделирования / В. В. Емельянов, В. В. Курейчик, В. М. Курейчик. - М. : ФМЛ, 2003. - 432 c.
6. Редько, В. Г. Эволюция, нейронные сети, интеллект: модели и концепции эволюционной кибернетики / В. Г. Редько. - 3 изд. - М. : Наука, 2001. - 224 с.
7. Jong K. de. An analysis of the behavior of a class of genetic adaptive systems /
K. de Jong // Unpublished PhD thesis. University of Michigan, Ann Arbor, 1975 (University Microfilms. - № 76-9381). [Электронный ресурс] - URL:
http://www.cs.gmu.edu/~eclab/
8. Chambers, D. L. Practical handbook of genetic algorithms v 3 Complex coding systems / D. L. Chambers. - 2 ed. - NY : Chapman & HALL/CRC, 2001. - Р. 659.
9. Koza, J. R Genetic programming: a paradigm for genetically breeding computer population of TOmputer programs to solve problems/ J. R. Koza. - Cambridge, MA: MIT Press, 1998. - 609 р.
Слепцов Николай Владимирович
кандидат технических наук, доцент, кафедра экономики и огранизации производства, Пензенский государственный университет
Sleptsov Nikolay Vladimirovich Candidate of engineering sciences, associate professor, sub-department of production economy and organization, Penza State University
E-mail: [email protected]
УДК 681.3 Слепцов, Н. В.
Проблемы оптимального управления эволюционно-генетическим поиском / Н. В. Слепцов // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2010. - № 3 (15). - С. 16-26.