Научная статья на тему 'Инструментарий графического исследования символьных последовательностей'

Инструментарий графического исследования символьных последовательностей Текст научной статьи по специальности «Математика»

CC BY
184
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ГРАФ ДЕ БРЁЙНА / ГРАФ ПОДСЛОЕ / СИМВОЛЬНАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ / СЛОЖНОСТЬ / ВИЗУАЛИЗАЦИЯ ГРАФА

Аннотация научной статьи по математике, автор научной работы — Евдокимов Александр Андреевич, Левин Альберт Абрамович

Разработан пакет «BruijnViz» для исследования свойств символьных последовательностей, или слов большой длины. Все подслова длины и отображаются на граф перекрытия слов (граф де Брёйна), образуя граф-портреты в процессе роста длины последовательности. Реализованы различные способы изображения графа на плоскости экрана. Приводятся примеры граф-портретов последовательностей, возникающих в приложениях, и анализируются их свойства.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A TOOLKIT FOR GRAPHICAL ANALYSIS OF WORD CHAINS

The authors have developed a software package "BruijnViz" intended for researching properties of unlimited word chains. All the subwords of length n taken from a symbol sequence are depicted on de Bruijn graph. The graph of subwords is named the graph-portrait of the sequence. The set of the graph-portraits of a word chain constructed for n = 1, 2, 3,... characterizes the chain: its periodicity, length and number of repetitions of subwords, variety of subwords, their structure, etc. The package represents each graph-portrait of a word chain during its growth. The graph-portraits of many known mathematical chains and of the word chains originated in different applications are presented in the paper

Текст научной работы на тему «Инструментарий графического исследования символьных последовательностей»

ПРИКЛАДНАЯ ДИСКРЕТНАЯ МАТЕМАТИКА

2008 Прикладная теория графов № 1(1)

УДК 512.1, 519.6, 519.7

ИНСТРУМЕНТАРИЙ ГРАФИЧЕСКОГО ИССЛЕДОВАНИЯ СИМВОЛЬНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ1

А.А. Евдокимов, А.А. Левин

Институт математики им. С.Л. Соболева СО РАН, г. Новосибирск E-mail: [email protected], [email protected]

Разработан пакет «BruijnViz» для исследования свойств символьных последовательностей, или слов большой длины. Все подслова длины n отображаются на граф перекрытия слов (граф де Брёйна), образуя граф-портреты в процессе роста длины последовательности. Реализованы различные способы изображения графа на плоскости экрана. Приводятся примеры граф-портретов последовательностей, возникающих в приложениях, и анализируются их свойства.

Ключевые слова: граф де Брёйна, граф подслов, символьная последовательность, сложность, визуализация графа.

Вначале об идее подхода к задаче визуализации символьных последовательностей.

При исследовании символьных последовательностей эффективным оказывается анализ связи их свойств со свойствами структур, образуемых множеством фрагментов (подслов) этой последовательности. Выявление таких структур и исследование динамики их изменения при увеличении длины фрагментов и самой последовательности дает ценную информацию о ее свойствах. Возможности изучения свойств последовательностей зависят от «хорошего» изображения их графов перекрытия подслов на плоскости (на экране компьютера).

Графы перекрытия слов, введенные де Брёйном в 1946 г. и теперь называемые его именем [1], оказываются удобными для изображения последовательностей и изучения их структурных свойств. Изображение графа подслов последовательности на графе де Брёйна мы называем граф-портретом этой последовательности. Рассмотрение динамики последовательности граф-портретов помогает исследовать свойства как отдельных последовательностей, так и их классов.

Прикладная направленность исследования граф-портретов последовательностей состоит в расширении методов и инструментария для анализа структуры последовательностей как естественного происхождения, например генетических [3, 4], так и математических - порождаемых рекурсивными процедурами различного типа. Анализ граф-портретов символьных последовательностей выявил ряд их интересных свойств, связанных с особенностями структуры множества подслов. В частности, с помощью пакета «BruijnViz» были исследованы последовательность, введенная Евдокимовым для решения известной проблемы «змея в ящике», и последовательность непрерывного кодирования, близкая к последовательности, известной в англоязычной литературе как последовательность «Look and say» [5].

Наиболее интересные полученные граф-портреты демонстрируются в работе, в частности последовательность непрерывного кодирования имеет сложные граф-портреты и большую комбинаторную сложность (количество различных её подслов).

Задача построения граф-портретов последовательностей приводит к задачам поиска вложений графов, сохраняющих определенные структурные свойства вкладываемых объектов: метрические, алгебраические или комбинаторные [6 - 8], в частности построения таких вложений графов на плоскость, которые сохраняют отношение близости между вершинами, а расстояния между далекими вершинами оставляют больше некоторого заданного порога [7]. Идея такого типа вложений для задач визуализации граф-портретов символьных последовательностей реализована в работе [9].

1. Определения

Теперь определим основные понятия. Вершинами графа де Брёйна Б^ размерности n являются всевозможные слова длины n в алфавите из m букв. Две вершины а = (а1,...,аи) и ß = (ßj,...,ßn) соединены дугой,

1 Исследование выполнено при финансовой поддержке РФФИ (проект 08-01-00671) и программы Отделения математических наук РАН «Алгебраические и комбинаторные методы математической кибернетики» (проект «Новые методы дискретного анализа и комбинаторной оптимизации»).

Инструментарий графического исследования символьных последовательностей 109

ориентированной от а к ß , тогда и только тогда, когда а2 = ßt, а3 = ß2, ... , аn = ßn-1, т.е. когда слова а и ß перекрываются по n - 1 буквам.

Граф имеет m петель в вершинах, соответствующих словам - константам, состоящим из одной буквы алфавита. Он связен, однороден, полустепень входа и выхода каждой его вершины равна m. При изображении последовательности графов Б^ на плоскости для n = 1, 2, 3, ... можно использовать процедуру их построения индукцией по размерности n, основанную на том, что граф Б^1 является рёберным графом для Б^.

Произвольной (бесконечной или конечной длины > n ) последовательности X = xl, x2, x3букв m-алфавита сопоставляется путь в графе Б^, который начинается в вершине (xb ..., xn) и последовательно проходит вершины (x;, ..., xi+n_i) при i = 2, 3, ... Заметаемый этим путем подграф графа Б^ называется графом n-подслов последовательности X или граф-портретом размерности n и обозначается Gп (х). Таким образом, множеством вершин Vп (х) графа Gп (х) является множество всех подслов длины n в X, а множеством дуг Eп (х) - множество всех подслов длины n + 1 в X [6]. Изображение графа-дополнения Б^ \Gп (х) позволяет наблюдать структуру множества отсутствующих n-подслов в последовательности X. Для построения последовательности граф-портретов [Gl (X)}, i = 1, 2, 3, ., при росте их размерности i ^ i + 1 используется операция построения рёберного графа, поскольку Gl+1 (X) является подграфом графа рёберного для G1 (х).

2. Пакет BruijnViz

Дадим описание пакета BruijnViz и технологии его использования.

Так как все известные пакеты изображения графов ориентированы для изображения графов определенного типа, то для изображения графов подслов и исследования различных последовательностей нами разработана специальная программа BruijnViz. Программа реализована на языке JAVA, поэтому может функционировать на любой ЭВМ с виртуальной машиной JAVA. Демонстрационная версия начальной конфигурации программы находится на сервере Института математики СО РАН (http://www.math.nsc.ru/LBRT/k3/ Graph/Bruijn.htm).

Программа BruijnViz строит граф Б^ перекрытия слов (граф де Брёйна) для заданных параметров: знач-ности алфавита последовательности m и длины слов n (размерности графа). Затем на графе изображается исследуемая последовательность X и её граф-портрет Gп (х). В программе можно варьировать изображение на экране граф-портретов Gп (х). Изменение параметров процесса возможно производить непосредственно в ходе наблюдения.

На экране располагаются кнопки управления и меню установки режима работы программы. В верхней части экрана выводится отрезок обрабатываемой последовательности, на котором выделено текущее слово и несколько строк текущей информации. Пользователь может изменять взаимное расположение вершин графа на экране, перемещать весь граф, а также изменять размер изображения графа или его части. Если при запуске программы не задано имя файла с начальным графом, то производится построение полного графа Б^ со случайным размещением вершин на экране. В противном случае начальный граф считывается из заданного файла и изображается на экране.

После нажатия одной из кнопок управления движением программа считывает очередной символ (в начальной точке последовательности считывается целое слово), формирует очередное слово, приписывая считанный символ в конец предыдущего слова. Вершина, имя которой совпадает с полученным словом, и ребро, соединяющее её с предыдущей вершиной, помечаются и заносятся в пройденную цепочку, а их счетчики увеличиваются на 1. Пройденная цепочка выделяется на изображении и называется «змея». Программа может непрерывно наращивать длину обработанной последовательности в широком диапазоне выбираемых скоростей. В программе реализованы режимы автоматического расталкивания близких вершин и выделения цепей на граф-портрете.

Программа позволяет изменять размерность графа де Брёйна, на котором располагается исследуемая последовательность. Увеличение размерности осуществляется построением реберного графа для всего графа

110

А.А. Евдокимов, А.А. Левин

B’m или для части графа подслов Gl (х), пройденной последовательностью. При уменьшении размерности происходит возвращение к тому графу, из которого строился реберный. Если комбинаторная сложность последовательности растет медленно, то наблюдать граф-портреты можно для больших значений их размерности n, что существенно помогает при анализе свойств.

ЛИТЕРАТУРА

1. De Bruijn N.G. A combinatorial problem // Nederl. Akad. Wetensch. Proc. 1946. V. 49. No. 7. P. 758 - 764. (Перевод см. Кибернетический сборник, новая серия, вып. 6. М.: Мир, 1969. С. 33 - 40.)

2. Математические методы для анализа последовательностей ДНК: Пер. с англ. / Под ред. М.С. Уотермена. М.: Мир, 1999. 349 с.

3. Evdokimov A.A., Levin A.A. Subwords graphs, generated by genetic sequences // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure - BGRS’ 2002. V. 1, IC&G. Novosibirsk, 2002. P. 131 -133.

4. Евдокимов А.А., Левин А.А. Графические модели и комбинаторика генетических и математических символьных последовательностей // Вычислительные технологии. 2002. Т. 7. С. 274 - 278.

5. Евдокимов А.А., Левин А.А. Теоретическое и экспериментальное исследование рекурсивно порожденных символьных последовательностей // Вестник ТГУ. Приложение. 2007. № 23. С. 16 - 23.

6. Евдокимов А.А. Исследование полноты множеств слов и языков с запретами // Вестник ТГУ. Приложение. 2004. № 9(1). С. 8 - 12.

7. Евдокимов А.А. Кодирование структурированной информации и вложения дискретных пространств // Дискрет. анализ и исслед. операций. Сер. 1. 2000. Т. 7. № 4. С. 48 - 58.

8. Евдокимов А.А. Анализ, сложность и реконструкция символьных последовательностей // Вестник ТГУ. Приложение. 2005. № 14. С. 4 - 12.

9. Евдокимов А.А., Левин А.А. Методы визуализации графов подслов символьных последовательностей // Вычислительные технологии. 2003. Т. 8. С. 5 - 11.

i Надоели баннеры? Вы всегда можете отключить рекламу.