Научная статья на тему 'Использование квантильных коэффициентов асимметрии и эксцесса для оценки сложности решения задачи коммивояжера'

Использование квантильных коэффициентов асимметрии и эксцесса для оценки сложности решения задачи коммивояжера Текст научной статьи по специальности «Математика»

CC BY
392
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
задача коммивояжера / квантильный коэффициент асимметрии / квантильный коэффициент эксцесса / коэффициент асимметрии / коэффициент эксцесса / сложность / Keywords—traveling salesman problem / TSP / branch and bound method / B&B / complexity / efficiency / quantile / quantile skewness / quantile kurtosis

Аннотация научной статьи по математике, автор научной работы — В А. Головешкин, Г Н. Жукова, М В. Ульянов, М И. Фомичев

Исследуется сложность индивидуальных задач коммивояжера, т.е. число порожденных вершин поискового дерева в классическом методе ветвей и границ. Вероятностное распределение логарифма сложности аппроксимируется нормальным распределением. На основе экспериментальных данных рассчитаны значения параметров линейного преобразования, обеспечивающих минимальное среднеквадратическое отклонение выборочных квантилей логарифма сложности от соответствующих квантилей стандартного нормального распределения, получена формула зависимости этих параметров от числа вершин графа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — В А. Головешкин, Г Н. Жукова, М В. Ульянов, М И. Фомичев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The estimation of the complexity of solving a particular travelling salesman problem by quantile-based measures for skewness and kurtosis

The complexity of solving a particular travelling saleman problem is studied. Complexity is a number of nodes of the decision tree, when a particular problem is being solved by the branch and bound algorithm. A probability distribution of the logarithm of the complexity of a particular TSP is approximately normal. Parameters of the linear transformation of a sample of the logarithm of the complexity into a standard normally distributed sample are obtained by the method of least squares for the sample quantiles. The formulas for the parameters are also given.

Текст научной работы на тему «Использование квантильных коэффициентов асимметрии и эксцесса для оценки сложности решения задачи коммивояжера»

Использование квантильных коэффициентов асимметрии и эксцесса для оценки сложности решения задачи коммивояжера

В.А. Головешкин, Г.Н. Жукова, М.В. Ульянов, М.И. Фомичев

Аннотация — Исследуется сложность индивидуальных задач коммивояжера, т.е. число порожденных вершин поискового дерева в классическом методе ветвей и границ. Вероятностное распределение логарифма сложности аппроксимируется нормальным распределением. На основе экспериментальных данных рассчитаны значения параметров линейного преобразования, обеспечивающих минимальное среднеквадратическое отклонение выборочных квантилей логарифма сложности от соответствующих квантилей стандартного нормального распределения, получена формула зависимости этих параметров от числа вершин графа.

Ключевые слова— задача коммивояжера, квантильный коэффициент асимметрии, квантильный коэффициент эксцесса, коэффициент асимметрии, коэффициент эксцесса, сложность.

I. Введение

Задача коммивояжера (TSP, traveling salesman problem) заключается в поиске оптимального (например, самого дешевого) гамильтонова цикла (тура) в полном ориентированном взвешенном графе. Формально задача может быть решена полным перебором всех возможных вариантов, однако при большом числе вершин графа это невозможно сделать за разумное время. Одним из наиболее распространенных способов оптимизации перебора является метод ветвей и границ МВГ, требующий обычно рассмотрения гораздо менее чем (n — 1)! туров в графе с n вершинами [1]-[6]. Однако сейчас еще нет формулы, по которой можно вычислить заранее точное количество туров, которые придется рассмотреть в каждой конкретной задаче. Существуют некоторые подходы к оценке и прогнозированию числа вершин поискового дерева [7]-[10], но для их применения требуется в течение какого-то времени проводить вычисления, чтобы на основе информации о начальном этапе расчетов строить прогноз.

Статья получена 31.10.2016.

Работа выполнена при поддержке гранта РФФИ №16-07-160.

Г.Н. Жукова работает в Московском политехническом университете (МПУ) (e-mail: [email protected])

В.А. Головешкин работает в Институте прикладной механики РАН, Московском государственном университете информационных технологий, радиотехники и электроники (МИРЭА) (e-mail: [email protected])

М.В. Ульянов работает в Институте проблем управления РАН им. В.А. Трапезникова (e-mail: [email protected])

М.И. Фомичев является студентом магистратуры Высшей школы экономики (ФКН НИУ ВШЭ) (e-mail: [email protected])

Время, которое требуется компьютерной программе, реализующей метод ветвей и границ, для нахождения решения задачи коммивояжера, существенно зависит от размерности и особенностей матрицы стоимостей задачи [17]-[19], а также от параметров процессора, на котором производятся вычисления, от особенностей операционной системы и т.п., поэтому вместо физического времени мы будем использовать связанные с ним независимые от ЭВМ характеристики, а именно — сложность индивидуальной задачи. Понятие сложности задачи коммивояжера введено Д.Э. Кнутом в [9] и определяется как общее число порожденных вершин поискового дерева решений в классическом методе ветвей и границ [1]. Мы будем использовать помимо числа порожденных вершин поискового дерева, и такие характеристики как максимальное (в динамике вычислений) число вершин дерева решений, и максимальное количество листьев дерева. Все эти величины не зависят от параметров ЭВМ, а определяются только матрицей стоимости индивидуальной задачи коммивояжера и выбором алгоритма решения TSP.

Предлагается оценивать сложностные характеристики TSP, рассматривая их как случайные величины, на основе использования характеристик асимметрии и эксцесса, как традиционных, выражаемых через центральные моменты, так и определяемых с помощью квантилей. Обычные коэффициенты асимметрии и эксцесса (см. [11]) используются для выбора наиболее подходящего типа распределения, удовлетворительно описывающего исследуемые характеристики. Далее с помощью квантильных коэффициентов асимметрии и эксцесса уточняется тип распределения.

Для исследования сложности решения TSP была проведена серия экспериментов, в которых матрица стоимости задачи коммивояжера заполнялась псевдослучайными целыми числами, затем полученная индивидуальная задача решалась методом ветвей и границ без предварительного вычисления рекорда, при этом подсчитывалось число порожденных вершин дерева решений, а также максимальное число вершин дерева и максимальное количество листьев. Таким образом используемые характеристики являются инвариантными относительно ЭВМ и языка программирования характеристиками индивидуальной задачи коммивояжера. Эти экспериментальные данные и послужили основой для последующих исследований,

связанных с изучением распределения сложности индивидуальных задач коммивояжера.

Рассматривались как симметричная, так и асимметричная задачи коммивояжера, задаваемые матрицей стоимости, элементами которой были равномерно распределенные псевдослучайные целые

числа в диапазоне от 1 до 215. Поисковое дерево решений хранилось в памяти в виде бинарной кучи. Для каждого фиксированного п (числа вершин графа)

выполнялось 104 (а в некоторых случаях 105) псевдослучайных генераций матрицы стоимостей порядка п. Эксперименты проводились при значениях п от 10 до 49.

Полученные на основе данных вычислительных экспериментов распределения сложностных

характеристик, являющиеся приближениями

неизвестных распределений этих характеристик, используются для прогнозирования параметров распределения тех же характеристик при большем числе вершин, что позволяет прогнозировать, в частности, среднее значение характеристик, квантили и т.д. Подчеркнем, что полученные нами формулы имеет

смысл использовать для прогноза при п порядка 102 , а не при п ^ ж.

II. Предварительный анализ данных

Сложность, максимальное число порожденных вершин, количество листьев и т.д. рассматриваются как случайные величины, их функции распределения аппроксимируются некоторыми функциями

распределения непрерывного типа с конечным четвертым моментом. Для подбора вида распределения использован метод К. Пирсона, в соответствии с которым идентификация типа распределения проводится на основе коэффициентов асимметрии у1 и эксцесса у2 (см. [11]-[13]).

Пусть наблюдается случайная величина X, имеющая математическое ожидание ЕХ, дисперсию ОХ, третий и четвертый центральные моменты Мт (X) = Е(Х - ЕХ)т , т = 3,4, тогда коэффициент

асимметрии у1 и коэффициент эксцесса у2 определяются по формулам [11]

Y =

Ж X )

\3/2

(ох )3/2 Г2 (ОХ)

В соответствии с методом К. Пирсона в системе координат «коэффициент асимметрии - коэффициент эксцесса» изобразим некоторые классические распределения, а также точки, соответствующие значениям коэффициентов асимметрии и эксцесса экспериментальных данных (см. рис. 1). Данные представляют собой положительные целые числа, равные числу порожденных вершин при решении асимметричной задачи коммивояжера размерности от 20 до 49 программной реализацией классического метода

ветвей и границ (от 104 до 105 значений для каждой размерности задачи).

X )

- 3.

(1)

l'i.ijbiИ] III, гамма распределение Ринрич! V, иО|:ю1 пщш |];irj11н'дг.л'н и[> логаоръшлы!« распределяй

СЛФККЕНПЪ

Ш)

р

i -*ю

Рис. 1 Карта коэффициентов асимметрии и эксцесса

В системе координат «коэффициент асимметрии - коэффициент эксцесса» звездочки, соответствующие экспериментальным данным (на легенде обозначены как сложность), попадают в область распределений шестого типа системы Пирсона, расположенную между зеленой линией гамма распределения и голубой линией обратного гамма распределения. Гамма распределение является типом III системы Пирсона, обратное гамма распределение — V тип, бета распределение второго типа (Beta prime distribution) — VI тип. В область VI типа попадает и логнормальное распределение, поскольку при некоторых значениях параметров коэффициенты асимметрии и эксцесса бета II распределения и логнормального совпадают.

Далее тип и параметры распределения уточнялись в соответствии с методом, основанным на квантилях (см. [14]-[16]). Метод аналогичен подходу К. Пирсона, но асимметрия и эксцесс распределений выражаются через квантили, что позволяет получать более точные и робастные оценки.

Обозначим Et = pt/8 = F_1(//8), i = 1,2,...,7 октили непрерывного распределения F (x) и рассмотрим четверку (Q, R, S, T) [16], где Q = E4 - медиана,

R = (E6 — E2) /2 - половина интерквантильного размаха,

S = (E6 — 2 E4 + E2 )/(E6 — E2) -

коэффициент асимметрии,

квантильныи

T = (e7 - E5 + E3 - El )/(E6 - E2 ) -

квантильныи

коэффициент эксцесса.

Эта четверка рассматривается как квантильный

аналог набора (м, <У,у1,у2), использующегося в методе моментов (математическое ожидание,

среднеквадратическое отклонение, коэффициенты асимметрии и эксцесса). Квантильные коэффициенты асимметрии и эксцесса инвариантны относительно линейных преобразований, как и обычные коэффициенты асимметрии и эксцесса.

В системе координат (у1 ,у2) и , Т) изобразим линии, соответствующие логнормальному

распределению, а также гамма распределению и обратному гамма распределению (см. рис. 1 и 2)

--l'rarwni 11!, lïiMMri |ки м]»1М.г-н,1шг

— Pearson V. обратное гамма распределение

— логнормальмое распределение

* сгюжнисть

0,0

F р

§ -4.1

♦ ♦ норма.IJ.IK»L рагиргдглгинг * * СЛОЖНОСТЬ

* * * * - * * *****

• *

*

-0.03 -0.02

OÏÏ1ЩГ

■ I M'-J |7Н II

стог

Рис. 3 Логарифм сложности в системе (у1,у2 )

1.255 им 1.2»

tI 1.2Й

1.235

+ ♦ ||".'1.| и.:;. ;;.1И |..|гц 14 * * слажипсп» •

*

t *

, **

• t

* •

-0.005 >ipn S

Рис. 2 Карта квантильных коэффициентов асимметрии и эксцесса

На карте системы функций К.Пирсона точки с координатами, равными выборочным значениям коэффициентов асимметрии и эксцесса сложности TSP, попадают в ту часть области распределения бета второго рода, которая расположена ниже линии логнормального распределения. В системе координат квантильных мер асимметрии и эксцесса экспериментальные данные в основном попадают в область распределения бета второго рода, но ближе к линии логнормального распределения (см. рис. 1).

На основании выборочных квантильных мер асимметрии и эксцесса можно считать удовлетворительным приближением для вероятностного распределения сложности TSP (при равномерном распределении элементов матрицы стоимости) логнормальное распределение. В таком случае распределение логарифма сложности близко к нормальному, что и иллюстрируется рис. 3 и 4.

Рис. 4 Логарифм сложности в системе (S, T)

III. Линейное преобразование Обозначим линейное преобразование Y = kX + b , где X — наблюдаемая случайна величина, qk = F~l(k /20), i = 1,2,...,19 выборочные

квантили Y, F^1 — обратная функция к выборочной

функции

распределения, Qk = F l(k / 20) .

/ = 1,2,...,19 квантили стандартного нормального распределения, р 1 — обратная функция к стандартной

нормальной функции распределения.

Поскольку квантильные коэффициенты асимметрии и эксцесса подобно традиционным инвариантны относительно линейных преобразований, то к натуральному логарифму экспериментальных данных применяется линейное преобразование с параметрами к и Ь , при которых среднеквадратическое отклонение выборочных квантилей qk от Qk

минимально:

19

Tj(Qk- qk)2 ^ min

(2)

k=1

t

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

111.9

*■ * ил >;i_Mr-T]t масштаба - з|щни|пп||111(я гтяряыетре мягштяйя

Рис. 5 Параметр масштаба для логарифма сложности

* * параметр сдвига - *K<'i рлппляцин наряли^гря {'ДкЦ]"а

ЧИСЛО 1*1)1И1Ш и

Рис. 6 Параметр сдвига для натурального логарифма сложности

Коэффициент регрессии выборочных квантилей логарифма сложности на квантили стандартного нормального распределения принимал значения от 0.999 до 1.000, что свидетельствует об очень тесной линейной связи.

IV. Экстраполяция параметров линейного преобразования

Как видно на рис. 6, параметр сдвига Ь линейно убывает с ростом числа вершин п , линейная регрессия Ь на п приводит к формуле

Ь = -0.0386п - 6.2483, (3)

коэффициент регрессии — 0.997 и среднеквадрати-ческое отклонение 0.0005 показывают наличие тесной линейной зависимости.

Натуральный логарифм параметра масштаба k линейно убывает с ростом натурального логарифма числа вершин п , линейная регрессия 1п k на 1п п приводит к формуле

1пk = -0.581пп + 2.07, k = 7.94п~058 . (4) коэффициент регрессии — 0.9997 и среднеквадрати-ческое отклонение 0.002 также свидетельствуют о тесной линейной зависимости.

Таким образом, распределение линейного преобразования натурального логарифма сложности близко к стандартному нормальному:

7.94п-0.58X- 0.0386п- 6.2483 * N(0,1) (5) * 0.126п058 ^ + 0.0386п + 6.2483), (6)

где qk и Qk соответственно выборочная квантиль

натурального логарифма сложности и квантиль стандартного нормального распределения.

Полученную формулу (6) используем для расчета квантилей распределения натурального логарифма сложности при больших п . На рис. 7 показаны квантили 5%, 50% и 95%, на основе которых можно оценивать сложность решения задачи методом ветвей и границ при числе вершин больше 40.

Рис. 7 Прогноз для квантилей натурального логарифма сложности

Параметры уравнения (6) были рассчитаны по выборке

объема 105 натуральных логарифмов сложности индивидуальных задач коммивояжера. Аналогичные формулы получены для сложности, максимального числа вершин дерева решений и для максимального числа листьев в очереди при объеме

выборки 104 для симметричной и асимметричной Т8Р:

Ъ * Ana(Q] + Bn + С), (7)

параметры уравнения, полученные по выборке объема

104 , приведены в таблице 1.

Таблица 1. Параметры уравнения (7).

а A B C

сложность 0.5651 0.1336 0.0426 6.1230

максимальное

количество

К та вершин дерева

т решении 0.5680 0.1321 0.0432 6.0632

Cl fc максимальное

s s s и количество

листьев в

га очереди 0.5564 0.1382 0.0600 4.7168

сложность 0.5644 0.1307 0.0864 7.7553

максимальное

количество

тс га X вершин дерева

решении 0.5676 0.1281 0.0873 7.7501

s максимальное

S ? количество

Ь s листьев в

и очереди 0.5611 0.1310 0.1063 6.3532

V. ЗАКЛЮЧЕНИЕ

Оценка сложности решения задачи коммивояжера получена путем последовательного применения метода Пирсона, квантильных коэффициентов асимметрии и эксцесса и линейного преобразования, минимизирующего среднеквадратическое отклонение выборочных квантилей от квантилей стандартного нормального распределения.

Установлено наличие тесной линейной связи квантилей логарифма сложности и стандартного нормального распределения. Получена формула (7) для

оценки квантилей распределения натурального

логарифма сложности для большего числа вершин.

Библиография

[1] J. D. C. Little, K. G. Murty, D.W. Sweeney, and C. Karel, "An algorithm for the traveling salesman problem," Operations Research, vol. 11, pp. 972-989, 1963.

[2] G. B. Dantzig, R. Fulkerson, and S. Johnson, "Solution of a large scale traveling salesman problem," RAND Corp., Santa Monica, CA, Tech. Rep. P-510, 1954.

[3] G. B. Dantzig, D. R. Fulkerson, and S. M. Johnson, "On a linear programming, combinatorial approach to the traveling-salesman problem," Operations Research, vol. 7, pp. 58-66, 1959.

[4] W. L. Eastman, "Linear Programming with Pattern Constraints," Ph.D. thesis, Dept. Economics, Harvard Univ., Cambridge, MA, 1958.

[5] A. H. Land and A. G. Doig, "An automatic method of solving discrete programming problems," Econometrica, vol. 28, pp. 497520, 1960.

[6] A. S. Manne and H. M. Markowitz, "On the solution of discrete programming problems," RAND Corp., Santa Monica, CA, Tech. Rep. P-711, 1956.

[7] C. Cotta, J. Aldana, A. Nebro, and J. Troya, "Hybridizing genetic algorithms with branch and bound techniques for the resolution of the TSP", in Artificial Neural Nets and Genetic Algorithms, D. Pearson, N. Steele, R. Albrecht, Eds. Wien New York: Springer-Verlag, 1995, pp. 277-280.

[8] G. Carpaneto and P. Toth, "Some new branching and bounding criteria for the asymmetric traveling salesman problem," Management Science, vol. 26, 1980, pp. 736-743.

[9] D. E. Knuth, "Estimating the efficiency of backtracking programs," Mathematics of Computing, vol. 29, 1975, pp. 121-136.

[10] G. Cornuejols, M. Karamanov, and Y. Li, "Early estimates of the size of branch-and-bound trees," INFORMS J. Comp., vol. 18, No. 1, 2006, pp. 86-96.

[11] Г. Крамер, "Математические методы статистики", М.: Мир, 1975, 648 с.

[12] N.L. Jonhnson, S. Kotz, and N. Balakrishnan, "Continuous Univariate Distributions, " vol. 2, Wiley, 1995.

[13] K. Pearson, "Contributions to the Mathematical Theory of Evolution. III. Regression, Heredity and Panmixia," Phil. Trans. Royal Soc. London, vol. 187, 1896, pp. 253-318.

[14] J. J. A. Moors, "A quantile alternative for kurtosis," The Statistician, vol. 37, 1988, pp. 25-32.

[15] J. J. A. Moors, V. M. J. Coenen, and R. M. J. Heuts, "Limiting distributions of moment- and quantile-based measures for skewness and kurtosis", School of Economics and Management, Tilburg University, Res. Mem. FEW 620, 1993

[16] J. J. A. Moors, R. Th. A. Wagemakers, V. M. J. Coenen, R. M. J. Heuts, and M. J. B. T. Janssens, "Characterizing systems of distributions by quantile measures", Statistica Neerlandica, vol. 50, No 3, pp. 417-430, Nov. 1996.

[17] М.В. Ульянов, М.И. Фомичев, "Ресурсные характеристики способов организации дерева решений в методе ветвей и границ для задачи коммивояжера", Бизнес - информатика, №4, 2015.

[18] М.В. Ульянов, "Ресурсно-эффективные компьютерные алгоритмы. Разработка и анализ." М.: ФИЗМАТЛИТ, 2008. 304 с.

[19] В.А. Головешкин, Г.Н. Жукова, М.В. Ульянов, М.И. Фомичев "Сравнение ресурсных характеристик традиционного и модифицированного метода ветвей и границ для TSP,"

Современные информационные технологии и ИТ-образование, Т. 2, № 11, 2015, 614 с.

The estimation of the complexity of solving a particular travelling salesman problem by quantile-based measures for skewness

and kurtosis

Goloveshkin V. A., Zhukova G.N., Ulyanov M.V., Fomichev M.I.

Abstract—The complexity of solving a particular travelling saleman problem is studied. Complexity is a number of nodes of the decision tree, when a particular problem is being solved by the branch and bound algorithm. A probability distribution of the logarithm of the complexity of a particular TSP is approximately normal. Parameters of the linear transformation of a sample of the logarithm of the complexity into a standard normally distributed sample are obtained by the method of least squares for the sample quantiles. The formulas for the parameters are also given.

Keywords—traveling salesman problem, TSP, branch and bound method, B&B, complexity, efficiency, quantile, quantile skewness, quantile kurtosis.

Goloveshkin V. A. Moscow Technological University (MIREA), Moscow, Russia

Zhukova G.N. Moscow Polytechnic University (MPU), Moscow, Russia

Ulyanov M.V. Institute of Control Sciences V. A. Trapeznikov Academy of Sciences, Moscow, Russia

Fomichev M.L Higher School of Economics National Research University, Moscow, Russia

i Надоели баннеры? Вы всегда можете отключить рекламу.