УДК 544.1
ИССЛЕДОВАНИЕ МОЛЕКУЛЯРНЫХ ГИСТОГРАММ МЕЖАТОМНЫХ РАССТОЯНИЙ В ГОМОЛОГИЧЕСКИХ РЯДАХ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ НА ОСНОВЕ МЕТОДА НОРМИРОВАННОГО РАЗМАХА
В.Ю. Григорьев1*, Л.Д. Григорьева2
(Институт физиологически активных веществ РАН, 2Факулътет фундаментальной физико-химической инженерии МГУ имени М.В. Ломоносова; *е-тай: [email protected])
С использованием метода нормированного размаха проанализированы пространственные данные на основе молекулярных гистограмм межатомных расстояний для 25 органических гомологов. Установлено, что все исследованные пространственные ряды имеют положительную корреляцию между предшествующими и последующими членами ряда. Для объяснения изменения средних величин параметра Херста между различными гомологическими рядами предложена простая линейная модель.
Ключевые слова: И/8-анализ, параметр Херста, пространственные ряды, гомологи.
В настоящее время большое распространение получило изучение последовательностей данных (рядов) в целях выявления в них статистических зависимостей дальнего действия (longrange dependence) [1]. Для исследования таких данных используется, в частности, статистика Херста [2], которая объединяет в себе как случайное блуждание, так и детерминированный тренд, и позволяет оценить вклад этих компонент с помощью величины, названной позднее параметром (экспонентой) Херста (H). В основе этого статистического подхода лежит эмпирически открытая зависимость между нормированным размахом и длиной ряда. Одним из методов, которые используются для оценки величины H, является ^/^-анализ (метод нормированного размаха) (rescaled range analysis) [3]. Первоначально этот подход был применен для изучения временных рядов, но затем был распространен и на пространственные ряды. В современной литературе можно найти примеры использования этого метода в самых различных областях, например информатике [4], астрономии [5], биологии [6], экономике [7], промышленности [8] и др. ^/^-анализ применяли также для изучения различных физико-химических процессов. Так, при исследовании ингибиторов трипсина на основе молекулярной динамики с использованием главных компонент и экспоненты Херста было установлено, что эффект памяти более выражен в нативном белке, чем в 16 мутантах [9]. В работе [10] при анализе временных рядов, полученных в результате фотоакустических измерений во время полимеризации в диметакрилатной си-
стеме с использованием ряда методов, включая метод нормированного размаха, было показано, что полимеризация носит мультифрактальный характер.
Ранее были обнаружены фрактальные свойства у молекулярных гистограмм межатомных расстояний [11]. В настоящей работе продолжено изучение этих объектов с использованием метода нормированного размаха для выявления статистической связи между членами пространственных рядов, полученных на основе органических гомологов.
Гистограммы межатомных расстояний
Для расчета межатомных расстояний (г) использовали оптимизированные структуры исследуемых линейных молекул. Оптимизацию проводили с помощью компьютерного пакета программ НурегсИеш [12] на основе полуэмпирического квантово-химического метода АМ1 в приближении ОХФ. При этом в качестве стартовой конфигурации применяли ЭЭ-структуры, сгенерированные программой из 2Э-структур. Минимизацию энергии осуществляли на основе алгоритма Ро1ак - ШЫеге до достижения величины ЯМ8-градиента 0,1 ккал/А моль. Расчет гистограмм для четырех рядов органических соединений с гомологическими разностями (СН2, СБ2, СН2СНС1 и СН2СНСНСН2) проводили с шагом Дт = 0,01 А. Полученные величины / (г) образовывали пространственные ряды, для ко -торых в дальнейшем рассчитывали показатели Херста (Н). В качестве примера на рис. 1 представлена гистограмма н-декана.
/О) 36 -| 32282420161284-
JJJ
О
10
12
14
Рис. 1. Гистограмма межатомных расстояний (г, Ä) молекулы
н-декана
Л/Л-анализ
Для оценки величин Н использовали два алгоритма Я/Б-анализа. Первый алгоритм (I) состоял из последовательности следующих шагов [13]: для ряда X = Х1, Х2, ..., Хп рассчитывали 1) среднее значение:
m
= (¿Х)/ n;
i = 1
2) отклонения от среднего значения: У( = Х( - т, X = 1, 2, ..., п;
3) накопившиеся отклонения:
2, , X = 1, 2, ..., п;
I=1
4) размах: Я, = макс(21, 22, ..., 2Х) - мин(21, , ..., 2,), X = 1, 2, ..., п;
5) стандартное отклонение:
(X
z,
значений Н применяли 7-рандомизацию [16], которая заключалась в формировании нового пространственного ряда, полученного путем случайного выбора величин f (г), с дальнейшим расчетом Нгшк, При этом использовали десять случайных комбинаций / (г). Статистические характеристики: п - число точек; г2 - коэффициент линейной корреляции; д2 - коэффициент линейной корреляции в условиях скользящего контроля с выбором по одному; г 2гаМ - рандомизированный коэффициент линейной корреляции; 5 - стандартное отклонение: А - стандартная ошибка коэффициента уравнения. На рис. 2 представлен пример Я/Б-анализа.
Результаты и их обсуждение
Известно, что параметр Херста позволяет анализировать данные на предмет наличия в
^ =
^(X, - u)2/t
i=1
t = 1, 2,
n,
где u - средняя величина от X1 до X ;
6) нормированный размах: (R/S)t = Rt/St, t = 1, 2, ..., n.
Для определения экспоненты Херста рассчитывали коэффициенты линейного уравнения log(R/S) = const + H log( t). Второй алгоритм (II) похож на первый, но отличается от него наличием скользящих окон [14].
Оценку коэффициентов и статистических характеристик регрессионных линейных уравнений проводили с помощью модифицированной программы SVD [15]. Для валидации рассчитанных
Рис. 2. Зависимость нормированного размаха (R/S) от величины интервала (t) для молекулы н-декана
Т а б л и ц а 1
Формулы соединений; параметры Херста (Н Нп) и стандартные ошибки (А), рассчитанные на основе двух алгоритмов; величины Н, полученные с использованием У-рандомизации (Н 1гапЛ, Н ПгапЛ); среднее значение
параметра Херста (Н); стандартные отклонения (ж)
Номер соединения Соединение н :(±Д) Н ^(±0 Н П(±Д) Н ^(±0 Н (±5)
1 СН3- (СН2)8-СНз 0,72(±0,01) 0,49(±0,07) 0,67(±0,01) 0,54(±0,08) 0,70(±0,03)
2 СН3- (СН2)ю-СНз 0,71(±0,01) 0,43(±0,16) 0,66(±0,01) 0,55(±0,10) 0,69(±0,03)
Э СН3- (СН^-СН, 0,71(±0,01) 0,42(±0,08) 0,67(±0,01) 0,52(±0,07) 0,69(±0,02)
4 СН3- (СН2)м -СН3 0,71(±0,01) 0,50(±0,13) 0,68(±0,01) 0,55(±0,07) 0,70(±0,02)
5 СН3- (СН2^16 СН3 0,71(±0,01) 0,37(±0,13) 0,69(±0,01) 0,50(±0,07) 0,70(±0,01)
6 СН3- (СН2Х8-СН3 0,71(±0,01) 0,43(±0,14) 0,70(±0,01) 0,55(±0,07) 0,71(±0,01)
7 СН3- (СН^-СН, 0,71(±0,01) 0,40(±0,08) 0,71(±0,01) 0,52(±0,09) 0,71(±0,00)
8 Ср3-(Ср2)8-Ср3 0,78(±0,01) 0,47(±0,10) 0,72(±0,01) 0,52(±0,07) 0,75(±0,03)
9 СР3-(СР2)10-СР3 0,77(±0,01) 0,47(±0,17) 0,72(±0,01) 0,57(±0,09) 0,75(±0,03)
10 (С^^) 12 0,76(±0,01) 0,38(±0,13) 0,73(±0,01) 0,57(±0,07) 0,75(±0,02)
11 СР3-(СР2)!4-СР3 0,75(±0,01) 0,45(±0,05) 0,72(±0,01) 0,52(±0,09) 0,74(±0,02)
12 СР3-(СР2):6-СР3 0,75(±0,01) 0,41(±0,12) 0,74(±0,01) 0,53(±0,09) 0,75(±0,01)
13 Ср3-(Ср2)18-Ср3 0,75(±0,01) 0,44(±0,09) 0,74(±0,01) 0,56(±0,10) 0,75(±0,01)
14 СР3- (СР2)20 СР3 0,75(±0,01) 0,50(±0,11) 0,76(±0,01) 0,57(±0,07) 0,76(±0,01)
15 СН3-(СН2СНС1)4-СН3 0,89(±0,01) 0,48(±0,12) 0,82(±0,01) 0,57(±0,07) 0,86(±0,04)
16 СН3-(СН2СНС1)5-СН3 0,90(±0,01) 0,46(±0,12) 0,84(±0,01) 0,57(±0,07) 0,87(±0,03)
17 СН3-(СН2СНС1)6-СН3 0,89(±0,01) 0,41(±0,10) 0,85(±0,01) 0,55(±0,07) 0,87(±0,02)
18 СН3-(СН2СНС1)7-СН3 0,88(±0,01) 0,47(±0,11) 0,85(±0,01) 0,55(±0,10) 0,87(±0,02)
19 СН3-(СН2СНС1)8-СН3 0,87(±0,01) 0,46(±0,11) 0,85(±0,01) 0,57(±0,09) 0,86(±0,01)
20 СН3-(СН2СНС1)9-СН3 0,88(±0,01) 0,43(±0,14) 0,87(±0,01) 0,54(±0,08) 0,88(±0,01)
21 СН3-(СН2СНС1)ю-СН3 0,87(±0,01) 0,45(±0,12) 0,87(±0,01) 0,57(±0,11) 0,87(±0,00)
22 СН3-(СН2СНСНСН2)2-СН3 0,67(±0,01) 0,42(±0,15) 0,61(±0,01) 0,56(±0,06) 0,64(±0,03)
23 СН3-(СН2СНСНСН2)3-СН3 0,68(±0,01) 0,36(±0,17) 0,67(±0,01) 0,50(±0,12) 0,68(±0,01)
24 СН3-(СН2СНСНСН2)4-СН3 0,70(±0,01) 0,47(±0,09) 0,70(±0,01) 0,53(±0,08) 0,70(±0,00)
25 СН3-(СН2СНСНСН2)5-СН3 0,68(±0,01) 0,48(±0,09) 0,70(±0,01) 0,54(±0,06) 0,69(±0,01)
них эффекта «памяти» [17]. При этом величина H = 0,5 соответствует случайному ряду, в ко -тором нет статистической связи между предшествующими и последующими членами. Значение величины 0,5 < H < 1 свидетельствует о наличии положительной корреляции, т.е. о ситуации, когда увеличение (уменьшение) предшествующих значений, скорее всего, будет продолжено (присутствие тренда). При 0 < H < 0,5 наблюдается об-
ратный случай: рост предшествующих значений ряда будет, вероятно, сопровождаться падением и наоборот (отсутствие тренда).
В табл. 1 представлены результаты R/S-анализа для 25 соединений, которые относятся к четырем гомологическим рядам: ряд 1 (соединения 1-7), ряд 2 (соединения 8-14), ряд Э (соединения 1521) и ряд 4 (соединения 22-25). Величины Н, полученные на основе двух алгоритмов для одного
Рис. 3. Зависимость параметра Херста (H) от длины гомологического ряда (ЫС - общее число атомов углерода)
и того же соединения, имеют довольно близкие значения между собой, а в целом изменяются в пределах от 0,61 до 0,90. При этом обращает на себя внимание тот факт, что значения HIanA имеют систематические отклонения от теоретически ожидаемой величины 0,5 в ту или иную сторону в зависимости от используемого алгоритма. Это может быть связано как с особенностями, присущими методу расчета, так и с использованием компьютерной генерации псевдослучайных чисел. Поэтому для увеличения статистической значимости в дальнейшем использовали среднее значение H = ^1 + H п)/2.
Все исследуемые соединения имеют значения H > 0,5, что указывает на существование положительной корреляционной связи между предшествующими и последующими величинами f (г), иными словами, рассматриваемые пространственные ряды можно отнести к персистентным рядам, которые присущи большому кругу природных явлений [18]. Соединения 1-25 проявляют себя приблизительно одинаково при изучении зависимости величины H от длины гомологического ряда (рис. 3). Это выражается в том, что при увеличении длины гомологического ряда экспонента Херста мало меняется и для рядов 1-4 может быть охарактеризована средним значением: Hl = 0,70 (соединения 1-7); H2 = 0,75 (соединения 8-14); ^ = 0,87 (соединения 15-21) и Я^ = 0,68 (соединения 22-25).
Изменения величин H в зависимости от типа гомологического ряда связаны, вероятно, с из-
менением структуры изучаемых молекул. Для подтверждения этой гипотезы была разработана простая линейная модель (1), где в качестве независимой переменной фигурирует величина гмакс, которая представляет собой максимальное межатомное расстояние между валентно связанными атомами, т. е. максимальную длину валентной связи в молекуле. Для соединений первого ряда
гмакс = 1,51 А (С8р3 - С8рзХ для вт°р°го ряда гмакс = 1,61 А (С8р3 - С8рзХ для третьего ряда гмакс = 1,77
А (С8р3 - С1) и для четвертого ряда гмакс = 1,50 А
(Сэр3 - С8р3).
H = -0,33(±0,07) + 0,68(±0,04) гмакс (1)
(п = 4; г2 = 0,992; 5 = 0,01; д2 = 0,948; г2^ = 0,837).
Уравнение (1) вполне удовлетворяет минимальным статистическим требованиям, которые предъявляются к моделям «структура - свойство» (п > 4; г2 > 0,6; д2 > 0,5; г2гаш, > 0,5) [19], и из нее, в частности, следует, что между максимальной длиной валентной связи и показателем Херста существует простая пропорциональная зависимость: с увеличением гмакс величина H растет и наоборот.
Известно, что фрактальная размерность и параметр Херста, в принципе, не зависят друг от друга: фрактальная размерность является локальным свойством, а H является глобальной характеристикой долговременной зависимости [20], но в рамках определенных моделей между ними установлены определенные соотношения. Ранее [11] нами был предложен метод расчета молекулярных фрактальных дескрипторов четырех типов на основе фрактальных размерностей гистограмм межатомных расстояний. Результаты расчетов для 25 исследуемых соединений приведены в табл. 2. На основе полученных данных можно установить, что < В2 < Б3, где - среднее значение фрактального дескриптора (До(, или ^цпЬ) в г-м гомологическом ряду. Такой же порядок наблюдается и для средних величин параметра Херста: Hl < H2 < Щ. Величины Б4 и H4 выбиваются из этой закономерности, что можно связать со структурой соединений, а именно с изменением гибридизации атомов углерода. В гомологических рядах 1-3 атомы углерода находятся только в состоянии 8р3-гибридизации, в то время как в четвертом ряду атомы углерода имеют как 8р3-, так и и 8р2-гибридизацию.
Заключение
Таким образом, при исследовании 25 пространственных рядов, полученных на основе молекулярных гистограмм межатомных расстояний,
Т а б л и ц а 2
Формулы соединений и фрактальные дескрипторы: общий (Ош), валентный (Оуа|), Ван-дер-Ваальсов
несвязанный (О .)
Номер соединения Соединение ^(±Д) ЯЙ„(±Д) ^ипЬ(±Д)
1 СН3 - (СН2)8 -СН3 1,15(±0,01) 1,00(±0,00) 1,11(±0,02) 1,20(±0,02)
2 СН3- (СН^ю-СН^ 1,13(±0,01) 1,00(±0,00) 1,05(±0,01) 1,18(±0,01)
3 СН3- (СН2^2— СН3 1,13(±0,01) 1,00(±0,00) 1,04(±0,01) 1,17(±0,02)
4 СН3- (СН2)14-СН3 1,14(±0,01) 1,02(±0,01) 1,05(±0,01) 1,17(±0,01)
5 СН3- (СН2)16-СН3 1,14(±0,01) 1,00(±0,00) 1,04(±0,01) 1,18(±0,01)
6 СН3- (СН2)^8— СН3 1,14(±0,01) 1,00(±0,00) 1,04(±0,01) 1,17(±0,01)
7 СН3- (СН2)20-СН3 1,16(±0,01) 1,00(±0,00) 1,05(±0,01) 1,19(±0,01)
8 СР3-(СР2)8-СР3 1,24(±0,01) 1,02(±0,01) 1,25(±0,03) 1,24(±0,02)
9 СР3- (СР2)10-СР3 1,22(±0,02) 1,02(±0,01) 1,19(±0,03) 1,23(±0,01)
10 (СР2) 12 СР3 1,21(±0,02) 1,01(±0,01) 1,13(±0,02) 1,24(±0,01)
11 СР3-(СР2)14-СР3 1,20(±0,01) 1,01(±0,01) 1,13(±0,02) 1,21(±0,01)
12 СР3-(СР2)16-СР3 1,22(±0,01) 1,01(±0,01) 1,14(±0,02) 1,24(±0,01)
13 СР3- (СР2)18 СР3 1,22(±0,01) 1,01(±0,01) 1,14(±0,03) 1,23(±0,01)
14 СР3- (СР2)20 СР3 1,23(±0,01) 1,01(±0,01) 1,13(±0,02) 1,24(±0,01)
15 СН3-(СН2СНС1)4-СН3 1,36(±0,02) 1,01(±0,02) 1,35(±0,03) 1,38(±0,02)
16 СН3-(СН2СНС1)5-СН3 1,39(±0,01) 1,01(±0,01) 1,33(±0,03) 1,40(±0,02)
17 СН3-(СН2СНС1)6-СН3 1,40(±0,01) 1,01(±0,01) 1,31(±0,03) 1,41(±0,01)
18 СН3-(СН2СНС1)7-СН3 1,40(±0,01) 1,01(±0,01) 1,32(±0,03) 1,41(±0,01)
19 СН3-(СН2СНС1)8-СН3 1,41(±0,01) 1,01(±0,01) 1,31(±0,03) 1,43(±0,01)
20 СН3-(СН2СНС1)9-СН3 1,43(±0,01) 1,01(±0,01) 1,32(±0,02) 1,46(±0,01)
21 СН3- (С^СНСГ^-СН 1,43(±0,01) 1,01(±0,01) 1,32(±0,02) 1,45(±0,01)
22 СН3- (СН2СНСНСН2)2-СН3 1,21(±0,01) 1,26(±0,05) 1,28(±0,03) 1,19(±0,02)
23 СН3- (СН2СНСНСН2)3-СН3 1,24(±0,02) 1,21(±0,04) 1,24(±0,03) 1,24(±0,02)
24 СН3- (СН2СНСНСН2)4-СН3 1,29(±0,01) 1,20(±0,04) 1,25(±0,04) 1,28(±0,01)
25 СН3- (С^СН^С^^-СН 1,27(±0,02) 1,19(±0,04) 1,23(±0,04) 1,26(±0,02)
установлено, что они имеют положительную корреляцию между предшествующими и последующими членами ряда, т.е. обладают «памятью». Для изученного диапазона гомологов не выявлено влияние длины гомологических рядов на величины Н. Для трех из четырех исследованных гомологических рядов установлено существование симбатно-
сти между параметрами Херста и фрактальными дескрипторами. Полученные результаты связаны с новой информацией относительно структуры химических соединений и могут быть полезными при создании материалов с заданными свойствами и, в частности, при конструировании новых олиго-меров и полимеров.
Проект выполняется в МГУ имени М.В. Ломоносова в рамках Соглашения с Минобрнауки РФ от 05.06.14 № 14.607.21.0002 (уникальный идентификатор проекта ЯРМБР160714Х0002). Исследования
выполнены при финансовой поддержке Минобрнауки РФ.
СПИСОК ЛИТЕРАТУРЫ
1. Samorodnitsky G. // Foundations and Trends in Stochastic Systems. 2006. Vol. 1. N 3. P. 163.
2. HurstH. // Trans. Am. Soc. Civ. Eng. 1951. Vol. 6. P. 770.
3. MandelbrotB.B., Wallis J.R. // Water Resour. Res. 1969. Vol. 5. N 5. P. 967.
4. Lenskiy A.A., Seol S. // IJMUE. 2012. Vol. 7. N 3. P. 27.
5. Anzolin G., Tamburini F., de Martino D., Bianchini A. // A&A. 2010. Vol. 519. A69.
6. Cräciun D., Isvoran A., Avram N.M. // Acta Physica Po-lonica A. 2009. Vol. 116. N 4. P. 684.
7. Grech D., Pamula G. // Physica A. 2008. Vol. 387. P. 4299.
8. Vela-MartinezL., Jauregui-Correa J.C., Alvarez-Ramirez J. // Int. J. Mach. Tools Manuf. 2009. Vol. 49. P. 832.
9. Saarela J.T.A., Tuppurainen K., Peräkylä M., Santa H., Laatikainen R. // Biophys. Chem. 2002. Vol. 95. P. 497.
10. Navarrete M., Pineda J., Vera-Graziano R. // J. Appl. Polym. Sci. 2009. Vol. 111. P. 1199.
11. Григорьев В.Ю., Григорьева Л.Д. // Вестн. Моск. ун-та. Сер. 2. Химия. 2016. Т. 57. № 3. С. 191.
12. http://www.hyper.com/.
13. Qian B., Rasheed K. Hurst Exponent and Financial Market Predictability / IASTED Conference on Financial Engineering and Applications (FEA 2004). Cambridge, 2004. P. 203.
14. Бутаков В., Граковский А. // Computer Modelling and New Technologies. 2005. Vol. 9. N 2. P. 27.
15. Forsythe G.E., Malcolm M.A., Moler C.B. Computer Methods for Mathematical Computations. Prentice-Hall, 1977. 270 p.
16. Rucker C., Rucker G., Meringer M. // J. Chem. Inf. Model. 2007. Vol. 47. N 6. P. 2345.
17. Петерс Э. Фрактальный анализ финансовых рынков: применение теории хаоса в инвестициях и экономике. М., 2004. 304 с.
18. Федер Е. Фракталы. М., 1991. 254 с.
19. Kiralj R., Ferreira M.M.C. // J. Braz. Chem. Soc. 2009. Vol. 20. N 4. P. 770.
20. Gneiting T., Schlather M. // SIAM Review. 2004. Vol. 46. N 2. P. 269.
Поступила в редакцию 12.09.16
INVESTIGATION OF MOLECULAR HISTOGRAMS OF DISTANCES BETWEEN ATOMS IN ORGANIC HOMOLOGS ON THE BASIS OF R/S ANALYSIS
V.Yu. Grigorev1*, L.D. Grigoreva2
(Institute of Physiologically Active Compounds RAS, 2Department of Fundamental Physical-Chemical Engineering; *e-mail: [email protected])
The spatial data on the basis of molecular histograms of distances between atoms were studied for 25 organic homologs using a rescaled range analysis. It is established that all investigated spatial series have positive correlation between previous and subsequent members. A simple linear model was constructed to explain the variation of Hurst parameters between homolog series.
Key words: R/S-analysis, Hurst parameter, spatial series, homologs.
Сведения об авторах: Григорьев Вениамин Юрьевич - вед. науч. сотр. отдела компьютерного молекулярного дизайна ИФАВ РАН, докт. хим. наук ([email protected]); Григорьева Людмила Дмитриевна - доцент факультета фундаментальной физико-химической инженерии МГУ имени М.В. Ломоносова, канд. физ.-матем. наук ([email protected]).