Научная статья на тему 'Приближение длины наибольшей общей подпоследовательности пары случайных строк'

Приближение длины наибольшей общей подпоследовательности пары случайных строк Текст научной статьи по специальности «Математика»

CC BY
136
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
LCS / LEVENSHTEIN METRIC / EDIT DISTANCE / SEQUENCE ALIGNMENT / SIMILARITY OF STRINGS / ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ / МЕТРИКА ЛЕВЕНШТЕЙНА / СЛУЧАЙНЫЕ ОБЩИЕ ПОДПОСЛЕДОВАТЕЛЬНОСТИ / СХОДСТВО СТРОК

Аннотация научной статьи по математике, автор научной работы — Знаменский Сергей Витальевич

Математическое ожидание длины длиннейшей общей подпоследовательности букв двух случайных слов рассматривается как функция от длин и этих слов и мощности алфавита = A. При этом предполагается, что любая буква независимо и с равной вероятностью оказывается в любой позиции слова. Указан вид приближённой формулы для 𝐸(𝑚, 𝑛, 𝛼), позволяющий вычислять 𝐸(𝑚, 𝑛, 𝛼) с погрешностью в 0.3 процента для 64 6 + 6 65536 и 1 < < 129. Коэффициенты подобраны вручную и могут быть уточнены. Ожидается, что формула справедлива для всех больших значений аргументов с той же относительной погрешностью

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Approximation of the longest common subsequence length for two long random strings

The expected value of the longest common subsequence of letters in two random words is considered as a function of the = A of alphabet and of words lengths and 𝑛. It is assumed that each letter independently appears at any position with equal probability. An approximate analitic expression for 𝐸(𝛼, 𝑚, 𝑛) calculation is presented that allow to calculate the 𝐸(𝑚, 𝑛, 𝛼) with an accuracy of 0.3 percent for 64 6 𝑚+𝑛 6 65, 536 and 1 < < 129. The coefficients are selected by hand and can be refined. It is expected that the formula holds for each grater values of the argument with the same relative error

Текст научной работы на тему «Приближение длины наибольшей общей подпоследовательности пары случайных строк»

ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №4(31), 2016, с. 347-358 УДК 004.416

С. В. Знаменский

Приближение длины наибольшей общей подпоследовательности пары случайных строк

Аннотация. Математическое ожидание Е длины длиннейшей общей подпоследовательности букв двух случайных слов рассматривается как функция от длин т и п этих слов и мощности алфавита а = A. При этом предполагается, что любая буква независимо и с равной вероятностью оказывается в любой позиции слова.

Указан вид приближённой формулы для Е(т,п,а), позволяющий вычислять Е(т, п, а) с погрешностью в 0.3 процента для 64 ^ т + п ^ 65536 и 1 < а < 129. Коэффициенты подобраны вручную и могут быть уточнены. Ожидается, что формула справедлива для всех больших значений аргументов с той же относительной погрешностью.

Ключевые слова и фразы: сходство строк, выравнивание последовательностей, случайные общие подпоследовательности, LCS, метрика Левенштейна.

Введение

Два случайных слова длин т и п из алфавита а часто иначе называют случайными последовательностями символов. Будем считать появления букв в различных позициях равновероятными и независимыми событиями. Тогда математическое ожидание длины наибольшей общей подпоследовательности этих случайных последовательностей является функцией Е(т,п, а), характеризующей близость исходных слов. Эта функция тесно связана с эффективностью разнообразных алгоритмов нечёткого поиска и выделения различий, поэтому её поведение c 70-х годов прошлого века привлекало внимание исследователей [1], выявивших линейную асимптотику при фиксированном а при больших равных длинах т и п и приближённо вычисливших коэффициенты пропорциональности

Е(п, п, а) 1а = lim -

п— ><х> П

© С. В. Знаменский, 2016

© Институт программных систем имени А. К. Айламазяна РАН, 2016 © Программные системы: теория и приложения, 2016

Рис. 1. Зависимость f3(n) = Е(п, 2048 — п, 3)

для некоторых фиксированных а. Для уточнения численного значения этих констант последователи использовали как сложный математический аппарат, так и численное моделирование с применением особых алгоритмов [2, 3]. Для случая т = п в [4] эмпирически получена формула

Е(п,п,а) Аа

(1) -= 7а + --+ е(п,а),

п л/П in п

точность которой подтверждается и на использованных автором данных. Однако зависимость от а так и осталась не вполне ясной. Известна [5,6] лишь оценка асимптотики

lim jал/а = 2.

а —

Не исследован и общий случай т = п, для которого характер асимптотической зависимости от ^ при а = 2 начал проясняться лишь в [7], хотя, к сожалению и без подробного обоснования. Компьютерные вычисления Е при небольших т,п ([8]) выявили похожую связь при а = 4, подтвердившуюся с сопоставимой с точностью экспериментальных данных погрешностью порядка 0.2% в диапазоне 1 < а < 15, 63 < п < 65537 [9]. Оказалось, что при фиксированных а и больших т + п = s график функции fs<a(n) = Е(п, s — п,а) практически точно состоит из отрезков прямых у = х и у = s — х и соединяющей их дуги эллипса. Левая половина этого симметричного графика показана на рис. 1. Аналитическое выражение для функции

стандартно выписывается через дуги полуосей гх и гу этого эллипса:

(2)

Е(т, п, а)

1 <г5

- г + Гу^/Г—Р, -1 <г5< 1

г5 < -1

где 6 = , г = +

1. Общая постановка задачи поиска формулы для Е(т,п,а)

Общая задача исследования — найти практичную приближённую формулу для Е(т, п, а). Выделим целевые признаки практичности искомой формулы для приближения экспериментальных данных:

• точность аппроксимации, дающая возможность строить визуально точные графики функции Е(т, п, а) на любых прямых и плоскостях;

• лаконичность и выразительность формулы;

• рост точности с ростом значений переменных;

• единственность экстраполяции при правдоподобных априорных предположениях;

• правдоподобность поведения при больших значениях аргументов.

Поиск такой формулы можно разделить на два этапа. Задачами первого этапа являются:

(1) определение требований к постановке эксперимента и подготовке данных;

(2) определение априорных предположений, обеспечивающих единственность продолжения и общего искомого вида исследуемых зависимостей;

(3) предварительная проверка на частичных данных и оценка достижимости поставленной цели.

Задачи второго этапа — сбор недостающих данных, оптимизация коэффициентов формулы и уточнение её вида и итоговые оценки оптимизированной формулы — выходят за рамки настоящей статьи.

Рис. 2. Графики остатков формул, аппроксимирующих Е(п,п,а) при 2 < а < 128 и 64 < s < 65536

2. Особенности подготовки данных

Задача обеспечения заданной точности для исходных данных оказалась непростой. Время на получение значения с заданной точностью неожиданно оказалось существенно зависящим не только от s и а. Дисперсия при независимых изменениях длин меняется резко и этот эффект не объясняется доказанной в [10] асимптотикой D ~ л/п. Например, если при а = 2 для (то, п) = (401, 623) экспериментальная дисперсия получилась равна 0.0222, то для (то, п) = (329, 695) на порядки меньше: 0.0002.

Получается, что вычисления £(401, 623, 2) и £(329, 695, 2) с одинаковой точностью требуют примерно в сто раз отличающихся количеств тестов и машинного времени. Поэтому собранные для старых значений данные оказались сильно разнородны. Они были дополнены, что привело к двукратному росту точности формулы (2) на суммарных длинах 32768, 65536. Сложность ещё и в том, что при близких к п значениях Е(п, то, а) отклонения с превышением п невозможны, и вызванная этим сильная асимметрия делает сомнительной возможность правильной оценки по (выборочной) дисперсии без учёта неисследованных моментов третьего и высших порядков.

Хорошо известно, что генерация исходных данных требует значимых ресурсов, поэтому важен выбор исходной сетки значений независимых переменных. Сетка (декартово произведение множеств) полезна тем, что упрощает визуальный контроль за выделением членов асимптотики. Переменные (то,п) при этом симметричны, и с их ростом задача более существенно усложняется, чем с ростом а. Уже при начальном а = 2 задача сложна и несколько десятилетий исследований

(а) гх(в,а) (Ь) гу(в, а)

Рис. 3. Графики зависимости полуосей эллипса от в и а

не привели к её полному решению, а при малых т = 1, п = 1 для произвольных а она превращается в простое стандартное упражнение по теории вероятностей. Отсюда разный ожидаемый характер зависимости по этим переменным и разные требования к сетке.

Асимптотика по (то, п) сложна по своей природе и плохо описывается суммой степенных функций. Для обоснованного выделения членов асимптотики необходим достаточно широкий диапазон изменения переменных: каждый член асимптотической суммы имеет свою зону влияния. Хотя эти зоны могут перекрываться, у главного члена суммы есть часть, где он доминирует почти безраздельно. Логарифмическая сетка облегчает поиск вида очередного члена аппроксимации сложной зависимости. Рассмотрим это на примере уточнения формулы де Монвеля (1) с использованием описанных в [9] и несколько дополненных данных.

На рис. 2 слева отчётливо видна систематическая ошибка формулы. Сетка, близкая к логарифмической, позволила увидеть логарифмическое и постоянное слагаемое, на порядок уменьшающее среднюю ошибку в диапазоне 64 ^ 1024 и существенно не изменяющую её при больших п, когда ошибка формулы теряется за неточностью экспериментальных данных. На графиках видна и проблематичность дальнейшего повышения точности на имеющихся исходных данных.

Неравномерная сетка мешает увидеть зависимость от двух переменных. Разумный компромисс состоит в использовании двух или нескольких серий равномерных (для а) или логарифмических (для т,п) отсчётов.

3. Искомый общий вид и единственность продолжения

Графики искомых зависимостей гх и гу показаны на рис. 3.

д1 02 да

Рис. 4. Зависимости $1(0), д2(а) и д3(а) для 2 < а < 128

Даже для зависимости гж(в,а) (которая проще, чем гу(в, а)) операций суммирования произведений степенных и логарифмических функций недостаточно для получения конечной аппроксимирующей формулы, и существование простой убедительно точно аппроксимирующей формулы крайне сомнительно.

Представляется разумным использовать одномерные рациональные аппроксимации с полюсами в левой полуплоскости, поскольку для них можно строго гарантировать однозначность в следующем смысле: любая голоморфная и ограниченная в правой полуплоскости и вне круга небольшого радиуса аппроксимирующая функция будет давать приближение на всём положительном луче с практически той же точностью, с какой она приближает в исследованных точках. Строгие формулировка и доказательство этого утверждения могут быть получены стандартной техникой. Отсюда особое понимание точности найденной аппроксимации на множестве всех натуральных чисел: если существует какая-нибудь аппроксимирующая на всём луче аналитическая функция и её особенности далеки от положительного луча вещественной оси, то её значения от любых натуральных значений аргумента незначительно отличаются от нами найденной.

Сказанное означает, что как правило при возможности для подобных аппроксимаций должны использоваться рациональные функции. Хотя последние можно представлять частным полиномов, но разложение на сумму простейших дробей гораздо выразительнее передаёт особенности поведения.

4. Приближённые формулы для гх(в,а) и гу(в, а)

Основной результат статьи — это возможность аналитического представление гж(в,а) в виде

(3) гх(з,а) = д!(а) ■ в + §2(0.) ■ 1п в + д3(а) + е(в,а)

V —

0 -0.01

16384 32768 65!

^^ / —

/

-0.04 /

/ -

/

(а) абсолютная е(з, а)

(Ь) относительная

е(з, а)

Рис. 5. Погрешности аппроксимации

в

с относительно малым е и рациональными функциями

0.02а + 0.442 0.0192а - 0.0356

(4) 31 («) = 0.5002 -

(5) 32(«) = 1.2 +

(а - 1.01)2 + 1.115 (а - 1.85)2 + 1.39 73а

а2 + 10

129а

(6) дз{а) = 2

а2 + 16

с полюсами в треугольнике -4 + 1т а ^ Ие а ^ 0.

Поскольку Е(п, п,а) = п- ^г2 + г^ + гу, то гу несложно выразить через гх и формулу де Монвеля и получить, что

(7) гу(в, а) = ^(а) • в + ^(аОл/^ • 1п в + Нз(а) • 1п в + ^(а) + е(в, а)

для рациональных ^(а), ^2(а), ^з(а) и ^4(а) и ограниченного остатка.

Коэффициенты функций ^¿(а) могут быть независимо от формулы де Монвеля найдены минимизацией суммы квадратов значений остаточного члена.

5. Оценки и перспективы

Как видно из графиков на рис. 5, при больших в ошибка е не превышает десятой доли процента длины диапазона и визуально исчезает. Абсолютное значение ошибки растёт с увеличением в, а относительное — убывает.

Нерегулярность со стороны длинных последовательностей может быть вызвана недостаточным качеством экспериментальных данных

и, пока коэффициенты подобраны вручную, не даёт оснований сомневаться в применимости формулы для больших значений s.

Ясно просматривается регулярность ошибки при малых значениях, очевидно указывающая на возможность уточнения функций gi. Каждую из них разумно искать в виде суммы постоянного слагаемого и минимального количества дробей с постоянными числителями и квадратичным или линейным знаменателем. Неточность исходных данных побуждает вычислить коэффициенты дробей, минимизирующие среднеквадратическую ошибку формулы. Учитывая, что производительность таких алгоритмов оптимизации резко падает при росте количества переменных, быстрее получится оптимизировать каждую из функций gi при фиксированных остальных и повторить это несколько раз.

Количество дробей-слагаемых в gi разумно увеличивать только если имеющихся дробей недостаточно. Это потребуется лишь в случае, если регулярность графика остатка, видимая на рис. 5 слева, не изменит скорость роста после оптимизации коэффициентов.

Возможно расширение диапазона длин в формуле в сторону коротких на основе вычисления точных статистик как в [8]. Добавление в формулу новых слагаемых с отрицательными степенями s может привести к её неоправданному усложнению. Поэтому когда будут оптимизированы д\, д2 и интересно было бы найти рациональную убывающую на произведении положительных лучей функцию двух переменных небольшой степени, хорошо приближающую ошибку приведённой выше формулы. К сожалению, вместо простейших дробей, на которые рациональные функции двух переменных разлагаются лишь в исключительных случаях, для начала придётся использовать общий вид частного двух полиномов второй степени от двух неизвестных с 17 неизвестными коэффициентами.

Имеются однако и основания сомневаться в асимптотической точности формулы (2). Хотя её погрешность сравнима с погрешностями экспериментально определённых значений Е(т,п,а), но формула де Монвеля в разы точнее и это настораживает. Причиной может являться скачок второй производной аппроксимирующего сплайна (2), которого нет причин ожидать у асимптотической предельной функции fa(£) = lim E(pn,qn,a). График на рис. 6 экспериментальных данных в окрестности места, где расхождение с формулой наиболее велико (а это стык отрезка прямой и дуги эллипса) выглядит более похожим на фрагмент гиперболы, чем на стык прямой и дуги

24000 22000 20000 1Я000 16000 14000 12000 10000 8000 —

11264 13312 15360 17408 19456 21504 10240 12288 14336 16384 18432 20480 22528

Рис. 6. График Е(п, 65536 — п, 4) в окрестности стыка отрезка и дуги

(кривизна дуга эллипса максимальна в месте стыка). Это наглядно свидетельствует об отсутствии скачка второй производной.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выводы

• Предложен вид приближённой формулы для длины длиннейшей общей подпоследовательности двух случайных последовательностей не обязательно одинаковых длин.

• Подобраны вручную коэффициенты, с которыми относительная погрешность составила доли процента в диапазонах длин от тысячи до ста тысяч символов и алфавитов до 128 букв.

• Указан способ уточнения формулы с расширением диапазона применимости.

• Выявлена невозможность существенного повышения асимптотической точности формул, которые могут быть получены на этом пути.

Список литературы

[1] V. Chvatal, D. Sankoff. "Longest Common subsequences of two random sequences", J. Appl. Probability, 12:2 (1975), pp. 306-315. t 347

[2] R. Bundschuh. "High precision simulations of the longest common subsequence problem", The European Physical Journal B-Condensed Matter and Complex Systems, 22:4 (2001), pp. 533-541. t 348

■ Lengthl ■EV

[3] R. Baeza-Yates, G. Navarro, R. Gavalda, R. Schehing. "Bounding the expected length of the longest common subsequences and forests", Theory of Computing Systems, 32:4 (1999), pp. 435-452. t 348

[4] J. Boutet de Monvel. "Extensive simulations for longest common subsequences", The European Physical Journal B - Condensed Matter and Complex Systems, 7:2 (1999), pp. 293-308. t 348

[5] G. S. Lueker. "Improved bounds on the average length of longest common subsequences", Journal of the ACM, 56:3 (2009), pp. 17. t 348

[6] M. A. Kiwi, M. Loebl, J. Matousek. "Expected length of the longest common subsequence for large alphabets", Advances in Mathematics, 197:2 (2005), pp. 480-498. t 348

[7] J. D. Dixon. Longest common subsequences in binary sequences, 2013, arXiv: 1307.2796. t 348

[8] C. В. Знаменский. «Картинанаибольшейдлиныобщихподпоследователь-ностей пары случайных строк 4-буквенного алфавита», Программные системы: теория и приложения, 7:1(28) (2016), с. 201-208 (англ.), URL: http://psta.psiras.ru/read/psta2016_1_201-208.pdf t 348,354

[9] S. V. Znamenskij. "A Formula for the Mean Length of the Longest Common Subsequence", Journal of Siberian Federal University. Mathematics & Physics, 10:1 (2017), pp. 71-74. t 348,351

[10] J. Lember, H. Matzinger, The Annals of Probability, 37:3 (2009), pp. 1192-1235. t 350

Рекомендовал к публикации к.т.н. Е. П. Куршев

Пример ссылки на эту публикацию:

С. В. Знаменский. «Приближение длины наибольшей общей подпоследовательности пары случайных строк», Программные системы: теория и приложения, 2016, 7:4(31), с. 347-358.

URL: http://psta.psiras.ru/read/psta2016_4_347-358.pdf

Об авторе:

Сергей Витальевич Знаменский

Автор критерия разрешимости уравнений свёртки в пространстве функций, голоморфных на множестве, понятий выпуклости в направлении и C-выпуклости, русификации TX для журналов Отделения математики РАН, графического пакета mfpic3d, ретроспективного подхода к построению информационных систем и критерия NCS близости символьных строк.

e-mail: [email protected]

Sergej Znamenskij. Approximation of the longest common subsequence length for two long random strings.

Abstract. The expected value E of the longest common subsequence of letters in two random words is considered as a function of the a = A of alphabet and of words lengths m and n. It is assumed that each letter independently appears at any position with equal probability.

An approximate analitic expression for E(a,m,n) calculation is presented that allow to calculate the E(m, n, a) with an accuracy of 0.3 percent for 64 ^ m+n ^ 65, 536 and 1 < a < 129. The coefficients are selected by hand and can be refined. It is expected that the formula holds for each grater values of the argument with the same relative error.

Key words and phrases: similarity of strings, sequence alignment, edit distance, LCS, Levenshtein metric.

2010 Mathematics Subject Classification: 68T37; 68P10, 68W32. References

[1] V. Chvatal, D. Sankoff. "Longest Common subsequences of two random sequences", J. Appl. Probability, 12:2 (1975), pp. 306-315.

[2] R. Bundschuh. "High precision simulations of the longest common subsequence problem", The European Physical Journal B-Condensed Matter and Complex Systems, 22:4 (2001), pp. 533-541.

[3] R. Baeza-Yates, G. Navarro, R. Gavalda, R. Schehing. "Bounding the expected length of the longest common subsequences and forests", Theory of Computing Systems, 32:4 (1999), pp. 435-452.

[4] J. Boutet de Monvel. "Extensive simulations for longest common subsequences", The European Physical Journal B - Condensed Matter and Complex Systems, 7:2 (1999), pp. 293-308.

© S. V. Znamenskij, 2016

(c Ailamazyan Program Systems Institute of RAS, 2016 (c Program systems: Theory and Applications, 2016

358

C. В. 3HaMeHCKHH

[5] G. S. Lueker. "Improved bounds on the average length of longest common subsequences", Journal of the ACM, 56:3 (2009), pp. 17.

[6] M. A. Kiwi, M. Loebl, J. Matousek. "Expected length of the longest common subsequence for large alphabets", Advances in Mathematics, 197:2 (2005), pp. 480-498.

[7] J. D. Dixon. Longest common subsequences in binary sequences, 2013, arXiv: 1307.2796.

[8] S. V. Znamenskij. "A picture of common subsequence length for two random strings over an alphabet of 4 symbols", Program, systems: Theory and applications, 7:1(28) (2016), pp. 201-208.

[9] S.V. Znamenskij. "A Formula for the Mean Length of the Longest Common Subsequence", Journal of Siberian Federal University. Mathematics & Physics, 10:1 (2017), pp. 71-74.

[10] J. Lember, H. Matzinger, The Annals of Probability, 37:3 (2009), pp. 1192-1235.

Sample citation of this publication:

Sergej Znamenskij. "Approximation of the longest common subsequence length for two long random strings", Program systems: Theory and applications, 2016, 7:4(31), pp. 347-358. (In Russian).

URL: http://psta.psiras.ru/read/psta2016_4_347-358.pdf

i Надоели баннеры? Вы всегда можете отключить рекламу.