Моделирование процессов реализации памяти и самоорганизации информации при прогнозировании новостных событий с использованием массивов естественно-языковых текстов

Сигов Александр Сергеевич; Жуков Дмитрий Олегович; Новикова Ольга Александровна

УДК 519.21

Сигов А.С., Жуков Д.О., Новикова О.А.

Московский технологический университет, г. Москва, Россия

МОДЕЛИРОВАНИЕ ПРОЦЕССОВ РЕАЛИЗАЦИИ ПАМЯТИ И САМООРГАНИЗАЦИИ ИНФОРМАЦИИ ПРИ ПРОГНОЗИРОВАНИИ НОВОСТНЫХ СОБЫТИЙ С ИСПОЛЬЗОВАНИЕМ МАССИВОВ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ

АННОТАЦИЯ

В работе представлена разработанная модель прогнозирования новостных событий на основе стохастической динамики изменения кластеров новостных образов и реализации памяти в информационном пространстве при самоорганизации слабоструктурированной информации. Проведённый авторами работы анализ стохастической динамики достижения порога реализации новостного события показывает возможность роста вероятности перехода через него практически сразу после начала процесса изменения структуры новостных кластеров, что связано с учетом памяти о предыдущих состояниях в информационной системе и возможности описания самоорганизации вследствие учета в дифференциальной модели информационных процессов второй производной по времени. Кроме того, предлагаемая модель показывает возможность резких изменений вероятности перехода через порог событий, и учитывает наличие в её поведении осцилляций. На основе разработанной модели создан алгоритм анализа взаимосвязи новостных кластеров в информационном пространстве с возможностью возникновения прогнозируемого события, и определения возможного времени его реализации.

КЛЮЧЕВЫЕ СЛОВА

Самоорганизация; случайные процессы с памятью; порог редкого события; информационное пространство; новостной кластер.

Sigov A.S., Zhukov D.O., Novikova O.A.

Moscow technological university, Moscow, Russia

MODELLING OF MEMORY REALIZATION PROCESSES AND THE IMPLEMENTATION OF INFORMATION SELF-ORGANIZATION IN FORECASTING THE NEWS EVENTS USING ARRAYS OF NATURAL LANGUAGE TEXTS

ANNOTATION

The paper presents a developed model of forecasting of news events on the basis of the stochastic dynamics of the news clusters and realization of memory in the information space with the self-organization of semistructured information. The stochastic dynamics of achieving the threshold of realization of the news event analysis, carried out by the authors, shows the possibility of growth of probabilities of transition through the realization threshold probabilities almost immediately after the beginning of the process of modification in the structure of the news cluster, the probability of transition is determined by previous states in the information space memory consideration and the possibility of self-organization description, resulting from information processes, the second time derivative, in the differential equation consideration. In addition, the proposed model shows the possibility of sudden changes in the probability of passing the events threshold, and takes into account the presence of oscillation in its behavior. On the basis of the developed model the algorithm of analysis of connection between news clusters in the information field and the possibility of occurrence of the predicted event as well as determining the possible time of its implementation has been created.

KEYWORDS

Self-organization; stohastic processes with memory; the threshold is a rare event; information space; a news cluster.

Быстрый рост объемов баз данных во всех сферах человеческой деятельности привел к чрезвычайной востребованности эффективных инструментов по преобразованию данных в ценную информацию. Обширные объемы текстовои информации, доступнои в электронном виде, продолжают расти с ошеломляющеи скоростью. По оценкам экспертов к 2020 году общемировои объем различных данных будет около 35000 Экзобаит (Экзо=1018), что составит рост по отношению к 2010 году в 44 раза. Причем до 90% будут составлять не структурированные или плохо структурированные данные, а до 80% данных не будут использованы повторно.

Представленная работа посвящена разработке принципов и научных методов прогнозирования редких антропогенных событии, способных оказывать существенное влияние на социальное и экономическое развитие общества.

В настоящее время существует выдвинутая Нассимом Николасом Талебом теория, в которои рассматривается природа возникновения и реализации таких событии. Согласно его теории, данные явления должны удовлетворять следующим критериям [1]:

1. Событие является неожиданным (для экспертов);

2. Событие имеет значительные последствия;

3. После наступления, в ретроспективе, событию можно дать рационалистическое объяснение, как если бы оно было ожидаемым.

Нассим Николас Талеб для таких явлении ввел понятие: «Черньш лебедь» («Black swan»). С его точки зрения практически все значимые научные открытия, исторические и политические события, достижения искусства и культуры — это «Черные лебеди». В своеи теории Нассим Талеб предполагает, что человечество не способно успешно прогнозировать свое будущее, а уверенность в своих знаниях опережает сами знания и порождает феномен «сверхуверенности» [1].

Поскольку в реальном мире существуют причинно-следственные связи, то на наш взгляд нельзя однозначно утверждать, что данная задача не имеет решения, и в представленнои нами работе мы обозначаем некоторые возможные пути ее решения. Создание моделеи возникновения «Черных лебедеи», позволяющих предсказывать возможность подобного рода событии, представляет на наш взгляд значительныи как научныи, так и практическии интерес.

Частичное решение задачи прогнозирования событии достигнуто в экономических областях, например, для технического анализа поведения фьючерсных рынков [2]. Для этого в частности можно использовать многомерныи статистическии анализ и временные ряды [3]. Обсуждая тему математического моделирования и прогнозирования развития экономических процессов необходимо обратить внимание на работы россиискои научнои школы академика А.А. Петрова и чл. - корр. И.Г. Поспелова [4-6], работы профессора Ф.Т. Алескерова [7,8], посвященные теории выбора (модель интервального выбора, модель коллективного выбора, основанные на рассмотрении классов бинарных отношении, таких как слабые бипорядки, простые и простеишие полупорядки), на основе которои может быть построена поведенческая модель биржи.

В настоящее время основные работы в области прогнозирования социальных информационных процессов направлены на описание поведения пользователеи в социальных сетях и сети интернет. В частности, можно упомянуть работы [9,10].

Модели, близкие по проблематике к предлагаемои нами теме прогнозирования новостных событии, были рассмотрены в работах [11,12]. В [11] для решения задачи прогнозирования авторы изучают временные зависимости в потоках событии и вводят кусочно-постоянную аппроксимацию их интенсивности, применяя Баиесовскии подход и распределение Пуассона к описанию выборки важности будущих событии. Это позволяет построить нелинеиные временные зависимости для предсказания будущих событии с использованием деревьев решении. Однако, авторы не рассматривают наличие памяти информационного пространства и возможность его самоорганизации, что является на наш взгляд очень важным для прогнозирования редких событии. В работе [12] для описания структуры новостного информационного пространства вводится понятие директора - условнои оси, положение которои определяется усреднением направлении векторов, задающих положение центров всех новостных кластеров. Авторы предлагают проводить анализ самоподобия в поведении директоров на основе модели Херста и на основании этого выявлять наличие периодичности в их поведении, и прогнозировать повторяемость.

Отмечая существенные успехи, достигнутые в прогнозировании поведения процессов для технических и экономических систем, нельзя не обратить внимание на то, что для социальных систем существенныи прогресс в даннои области отсутствует, а механистическое перенесение методов и подходов технических и экономических наук не дает желаемых результатов.

Прогнозирование появления в социальных системах новостных событии типа «Черныи лебедь» осложняется необходимостью поиска скрытых закономерностеи в больших объемах слабоструктурированнои гетерогеннои информации и решением проблемы измеримости

параметров различных протекающих процессов. Априори все данные являются по своему характеру гетерогенными (имеют разный формат представления и единицы измерения). Важным является то, что использование существующих методов и подходов интеллектуального анализа данных (Big Data) не приносит ощутимых результатов, поскольку применение имеющихся инструментов очистки, извлечения и анализа данных, скорее всего не позволяют извлекать сами знания, уничтожая их скрытые (латентные) связи (для изучения нелинеиных процессов применяются линеиные методы).

Появление редкого новостного события типа «Черньш лебедь» может зависеть от факторов любои природы (природных, климатических, астрономических, геологических, социальных и т.д.). Например, установлено влияние солнечнои активности (11 летнии и 60 летнии циклы) на социальные (воины, революции, волны переселения народов и т.д.) и экономические процессы (неурожаи, голод, падение биржевых индексов и т.д.). Климатические условия и их изменения также влияют в историческои перспективе на социально - экономические процессы.

При создании модели прогнозирования новостных событии необходим математическии аппарат, которыи позволил бы формализовать характер данных и привести их к единои шкале измерении. Очевидно, что нельзя в однои модели проводить вычислительные операции, например, над лингвистическими оценками и величинами метрическои шкалы, без использования процедур отображения на формальное безразмерное множество.

Суть предлагаемых нами принципов для возможности прогнозирования новостных событии заключается в следующем:

1. На основе существующих методов математической лингвистики необходимо формализовать описание информационного пространства, представляющего набор текстов на естественных языках. Таким образом, предполагается решить проблему разнородности данных и единиц измерения параметров различных процессов (шкалы измерений заведомо огрубляются и становятся лингвистическими, но при этом все данные формализуются единым образом).

2. На естественном языке можно дать описание интересующего (предполагаемого) новостного события, для которого будет проводиться прогнозирование его реализации. И на основе методов математической лингвистики осуществляется его формализованное описание в информационном пространстве.

3. Учитывая, что информационное пространство является отображением реального мира, в котором существуют причинно-следственные связи между событиями, то можно предположить выполнение закона их сохранения в информационном пространстве. А в качестве гипотезы для проверки можно выдвинуть идею о том, что существующие в информационном пространстве формализованные текстовые знания могут формировать образ интересующего прогнозируемого события. Если данная гипотеза верна, то может быть построена математическая модель прогнозирования новостного события, описывающая временные зависимости вероятности его реализации.

Предлагаемая нами методика разработки модели прогнозирования новостных событии, включает следующие этапы. Сначала необходимо выделить основные характеристики новостных событии, которые на наш взгляд необходимо учесть при построении математическои модели их прогнозирования. Затем выбрать методы математическои лингвистики (например, представление документа векторнои семантическои моделью), позволяющие формализовать описание процессов реального мира с использованием текстов на естественных языках для создания их информационных образов, а для анализа возможности прогнозирования новостного события необходимо разработать модель, учитывающую стохастическую самоорганизацию слабоструктурированнои информации и реализацию памяти в массивах естественно-языковых текстовых данных. Результаты ее анализа, на наш взгляд, позволят предложить алгоритм прогнозирования, которыи можно использовать совместно с методами математическои лингвистики, как инструмента для проверки разработаннои нами прогностическои модели.

Основные характеристики новостных событий и предположения, принятые для создания модели прогнозирования

Для создания модели прогнозирования новостных событии нами были выделены следующие их основные характеристики и принят ряд предположении:

1. В характере, времени и месте реализации событий имеется изначальная неопределенность и нечеткость;

2. Реализующиеся событие является проявлением стохастических процессов с изначально неизвестными законами распределения и их характеристиками (математическое ожидание, дисперсия и т.д.);

3. Событие является следствием того, что в системе, где оно наблюдается, имеется хотя бы "частичная" память о некоторых ранее происходящих процессах и их состояниях. В реальном мире существуют множественные причинно-следственные связи, хотя бы частично сохраняющиеся при отображении событий в информационное пространство более чем на одном шаге (правило сохранения причинно-следственных связей при любых отображениях);

4. Событие является следствием того, что система, в которой оно происходит, обладает возможностью к хотя бы частичной самоорганизации;

5. Процессы, приводящие к появлению события могут иметь характер самоподобия. У каждого из таких событий, как правило, наблюдаются слабо выраженные предшествующие ему аналоги, на основе которых, в ретроспективе, дается рационалистическое объяснение произошедшему;

6. Исходные данные для использования в прогностической модели требуют формализации и приведения к единому формату, поскольку являются не измеримыми (нет методик оценки в единой шкале) и гетерогенными (социально - экономические параметры, геологические, климатические, астрономические). Инструментом реализации данного процесса и проверки адекватности модели могут быть существующие методы математической лингвистики. Например, на основе методик, применяемых при отнесении текстовой информации к определенной группе новостных сообщений;

7. Любое прогнозируемое событие может быть описано в информационном пространстве некоторым текстовым документом, который можно отнести к определенной смысловой группе (кластеру), имеющей свои собственные характеристики (правило кластеризации информации). В любой момент времени существует множество различных информационных кластеров (описывающих различные природные, социальные и экономические процессы, явления природы, научные знания, культурные, политические, спортивные, военные и иные новостные события) отображающих основные свойства физического мира и взаимосвязи событий. С течением времени новостные кластеры могут изменяться или исчезать, и эти изменения могут быть описаны в рамках динамических моделей;

8. Прогнозирование новостного события должно быть основано на модели, в которой исходная текстовая информация на естественном языке после формализации с помощью методов математической лингвистики (например, представлении текстовых документов векторной семантической моделью) превращается в безразмерные числовые данные, с которыми можно производить математические операции;

9. Несмотря на то, что прогнозируемое событие является ещё неизвестным, можно искусственно описать его в информационном пространстве, создавая некоторый новостной образ, а затем построить динамическую модель возможной трансформации уже существующих текстовых образов к заданному образу события.

Описание методов формализации текстов естественных языков для использования в предлагаемой модели

Всю совокупность естественно - языковых текстов, описывающих различные природные, социальные и экономические процессы, явления природы, научные знания, культурные, политические, спортивные, военные и иные новостные события и т.д., можно определить, как коллекцию документов.

Для формализованного представления текстовых документов необходимо создание словаря коллекции при проведение лингвистическои обработки, которая включает [13, 14]:

• Разметка текста (линеаризация). Необходима для распознавания и извлечения слов - терминов (термов) и составных терминов (термов) из исходного текста. При разметке учитывается пунктуация и переносы слов, и кроме того игнорируются стоп - слова (малоинформативные, но часто встречающиеся в текстах слова, например, предлоги, союзы, причастия, междометия и т.д.);

• Нормализация текста. При нормализации проводится удаление из исходного текста грамматической информации (падежи, числа, глагольные виды и времена, залоги причастий, род и так далее). Слова в разных регистрах, а также их аббревиатуры приводятся к одной форме. Нормализация требует морфологического анализа, распознающего части речи с учетом контекста и многочисленных правил согласования (без него нормализация будет давать значительное количество ошибочных результатов). В ряде случаев нормализация может быть заменена стеммингом или лемматизацией;

• Комментирование текста. Комментирование в частности необходимо потому что, одно и то же слово в тексте может быть употреблено в различных значениях. Комментирования заключаются в добавлении в документ метаданных с информацией о части речи, о наличии у слова других

значений и синтаксический разбор предложения. Синтаксическое комментирование включает сегментацию и разметку частей речи. Это используется для устранения неоднозначности в сокращениях и поиск ассоциаций среди ключевых слов. Комментирование полезно для измерения семантической схожести слов и понятий (для моделей, основанных на матрице слово-контекст) [15].

После разметки, нормализации и комментировании текстов каждыи документ коллекции представляется набором термов (терминов), которые в него входят, и их частотами вхождения, что позволяет создать векторную модель документа. При этом порядок следования слов, соответствующих термам, в представлении документа не учитывается. Термы коллекции (словарь терминов) могут сортироваться в соответствии с некими критериями (например, по алфавиту слова, представляющего терм, или на основе критерия морфологическои эквивалентности). Векторная модель основывается на гипотезе (statistical semantics hypothesis) о том, что: статистические зависимости употребления слов и терминов (термов) могут быть использованы для нахождения заложенного в текст смысла [13, 14]. Согласно гипотезе о скрытых связях, пары слов, которые встречаются в похожих моделях, стремятся иметь близкую семантическую зависимость [16].

Суть векторнои модели документа (модель "bag of terms") заключается в следующем [13, 14]. Пусть общее количество имеющихся различных уникальных термов равно m (термы могут быть пронумерованы от 1 до m), а число имеющихся в коллекции текстовых документов равно n (документы могут быть пронумерованы от 1 до n). Пусть имеется документ (обозначим его Xi, i -принимает значения от 1 до n), которыи содержит некоторое число термов (терминов) (их порядок в наборе не важен). Тогда данному документу можно поставить в соответствие вектор Xi={w1,w2,w3,"" о)7-,"" шт), где первыи элемент соответствует числу (частоте) вхождении в документ первого термина, второи -второго, третии - третьего и т.д. Каждая о может принимать любое положительное значение от 0. Все Xi образуют матрицу, которую называют для всеи коллекции: термин - документ (столбцами матрицы являются вектора Xi, а строки определяют частоты вхождения отдельных терминов в документы коллекции). Как правило, большинство значении элементов этои матрицы равны 0 (матрица является разреженнои). Это связано с тем, что документы содержит лишь малую долю терминов из всего словаря.

Главная идея векторнои модели семантики (vector space model, VSM) - это представление каждого документа коллекции в качестве точки в многомерном пространстве (вектора в векторном пространстве, размерности Rm). Близко лежащие друг к другу точки соответствуют семантически схожим документам.

Векторная модель документа получили свое развитие в основном для решения задач информационного поиска: поиск документа по запросу (и определение релевантности), классификация документов, кластеризация документов.

Информационным поиск с использованием матрицы термин-документ (term-document matrix) основывается на следующеи гипотезе: оценивание релевантности документа запросу можно производить путем представления документа и запроса в виде набора терминов (bag of terms).

Гипотеза, использованная в нашеи модели, заключается в том, что прогнозируемое событие тоже можно рассматривать в определеннои степени как поисковыи запрос, в котором его предполагаемое текстовое описание может быть формализовано в виде вектора в векторном пространстве, имеющего размерность Rm. Однако, в отличии от задачи информационного поиска и сопоставления вектора запроса векторам из пространства Rm, в нашеи модели мы будем наоборот искать зависимости, описывающие эволюцию векторов из Rm и определение временнои зависимости вероятности формирования на ее основе вектора прогнозируемого события.

Прежде чем переити к детальному описанию предлагаемои нами модели необходимо сказать о том, что представляется целесообразным выделить во всеи коллекции документов отдельные смысловые группы текстов (провести тематическое разделение, или кластеризацию текстов). При этом каждая такая группа (кластер) текстовых документов может быть описана вектором, задающим положение центра. Данныи подход используется, например, в задачах классификации и отнесение сообщении новостнои ленты к определеннои группе и весьма эффективен с точки зрения экономии вычислительных ресурсов.

Модель стохастической динамики новостных образов при прогнозировании редких событий в информационном пространстве

Взаимосвязь образов новостных кластеров в информационном пространстве с появлением

прогнозируемого события

Возьмем коллекцию текстовых документов. Используя методы математической лингвистики, создадим их векторное представление в информационном пространстве с размерностью Rm. Проведем в какои-то момент времени t их кластеризацию по смысловым группам. Определим вектора (zi, Z2, Z3, zk, zj,), задающие положение центров этих кластеров в данныи момент времени. Далее проведем текстовое описание прогнозируемого новостного события и зададим его вектор Xbs в информационном пространстве с размерностью Rm.

Поскольку мы предполагаем, что в информационном пространстве уже имеются некоторые данные о предстоящем новостном событии, то должна существовать, и эволюция имеющихся групп новостных событии, на событие которое мы пытаемся прогнозировать. При описании эволюции на наш взгляд является наиболее приемлемым использование параметров, применяемых в информационном поиске при определении релевантности запросов: нахождение расстояния между векторами и определения косинуса угла между ними.

Выберем в качестве эволюционного параметра - нахождение проекции Xj векторов, задающих положение центров информационных кластеров в данныи момент времени zi, Z2, Z3, zk, zj, на направление вектора Xbs, определяющего появление прогнозируемого события. Каждая из проекции Xk определяется как произведение величины соответствующего вектора zk и косинуса угла между направлениями векторов Zk и Xbs (xk=zk*cos(ak), т.е. по сути дела мы используем косинусную меру, принятую в информационном поиске.

Спустя некоторыи интервал времени (назовем его интервал измерения то) величины векторов, задающие положения центров информационных кластеров изменяются на какие-то случаиные значения Aj (j - обозначает рассматриваемым вектор). Для пояснения, например, вектора zoi и zo2 определяют положение центров новостных кластеров в информационном пространстве в момент времени t, а вектора zi и z2 спустя интервал времени то (момент времени t+то). В данных случаях Ai=zi-zoi и A2=z2-zo2. Аналогичным образом определяются изменения положения центров для всех кластеров в информационном пространстве за время шага то.

Величины xoi, X02, xi и X2 будут задавать значения соответствующих проекции векторов, определяющих положение центров новостных кластеров i и 2, на направление вектора прогнозируемого события, в моменты времени t и t+то. Следует отметить, что некоторые величины проекции Xk могут оказаться больше предыдущих значении xok (для однои и тои же группы новостных данных), а некоторые меньше, т.е. в информационном пространстве одновременно сосуществуют два тренда поведения. Один на увеличение значении проекции, другои на их уменьшение, что необходимо учесть в рамках разрабатываемои модели. Введем для любого момента времени понятие среднего значения х~ всех величин проекции векторов, задающих положение центров новостных кластеров в информационном пространстве на направление оси прогнозируемого события. Для группы из K новостных кластеров в момент времени t среднее

значение ~t определяется следующим образом: ~t = t,] , где xtj обозначают соответствующие значения проекции векторов, задающих положение центров новостных кластеров, на направление оси прогнозируемого события, в данныи момент времени t. Спустя интервал времени то: X(t+To) =

s-K „

Lj=lx(t+T0)'j ..... ~

——--. Чтобы учесть тренды увеличения и уменьшения значении величин проекции векторов,

задающих положение центров новостных кластеров, на направление оси прогнозируемого события можно поступить следующим образом. На основании анализа значении xt,j и xt+xj разделим множество xt,j на две подгруппы, в однои (xy)i будут все новостные кластеры, для которых за интервал времени то произошло уменьшение значении величин проекции xt+т,} (обозначим число таких кластеров как R), а во второи (xy)n - увеличение (обозначим число таких кластеров как K-R),

- - /7-т Zf=i(*tj)/ 7-т Х?=?(хф1л „

и наидем для каждои из них средние значения ((xtj) = ——--и (xtj)u = —) проекции

векторов, задающих положение центров этих новостных кластеров. Далее, мы предлагаем следующии подход к учету трендов увеличения и уменьшения значении величин проекции векторов, задающих положение центров новостных кластеров, на направление оси прогнозируемого события. Поскольку при учете трендов имеет смысл говорить об усредненных величинах, то будем рассматривать переход за интервал времени то в точку X(t+To) из точки (xtj) , которая находится на оси прогнозирования события правее точки х^+То)и точки (xt,j)u которая находится левеех^+То). Сами по себе переходы являются случаиными событиями, а их величины можно определить следующим образом: = (xtj)j - %+То) и £t = %+То) - (xt,j)n. После следующего шага то определяем новые значения ft+T и et+T: ft+To = (xt+ToJ)i - x{t+2To) и et+To =

X(t+2T0) — (xt+T0,j)u и т.д.

На любом шаге n величины ^t+пт и et+пт могут иметь различные случаиные (или почти случаиные) значения. Поэтому возникает необходимость либо выявления в их поведении характерных особенностеи (например, зависимости ^t+kt и et+kt от времени, могут обладать самоподобием при не случайном поведении), либо, если они обладают характеристиками равномерного распределения, то возможно их усреднение за достаточно большои интервал

времени наблюдения и использование в модели этих средних случаиных значении £ = ^k=1^t+kT и

£ = k~1Nt+ т, где N - число шагов (интервалов времени то) наблюдения).Отметим, что зависимости величин ^t+kt и et+kt от времени могут подчиняться некоторому закону распределения и тогда его параметры могут быть установлены по полученным данным.

Самоподобие характеристик процессов в информационном пространстве. Медленно и быстро меняющиеся подсистемы При наличии во временнои зависимости поведении величин ^t+kt и et+kt элементов самоподобия, для его описания может быть применена теория, суть которои заключается в том, что непрерывным стохастическии процесс Y(t), считается статистически самоподобным с параметром Харста (Hurst) H (0,5<H<1), если для любого положительного числа a, случаиные процессы Y(t) и a-HY(at) будут иметь одинаковые статистические своиства. Значение H=0.5 показывает отсутствие самоподобности, а значения H близкие к единице показывают ее большую степень.

Следует отметить, что теория самоподобия широко применяется для исследования информационных процессов, в частности поведении трафика при передаче данных [17].

Самоподобные процессы принято разделять на два класса: точно самоподобные и асимптотически самоподобные. Различие между этими двумя классами заключается в том, что для функции автокорреляции точно самоподобных процессов выполняется условие: R(Yk) = R(Yq), а для асимптотически самоподобных: R(Yk)^-R(Yq), при k^q. Дисперсия для обоих классов процессов

определяется одинаковым образом: D(Yk) = где р - параметр самоподобия (0<р<1),

связанный с параметром Харста следующим соотношением: р=2(1-Н), а k - величина блока разбиения исходных данных.

Коэффициент Харста находится по зависимости логарифма среднего значения дисперсии от логарифма величины блоков m разбиения исходнои выборки данных. При наличии самоподобия, полученная зависимость должна иметь линеиныи вид. Таким образом, если аппроксимировать логарифмические зависимости линеинои функциеи, то с помощью метода наименьших квадратов можно вычислить коэффициенты данного линеиного уравнения и коэффициент корреляции данных с линеинои зависимостью. Тангенс угла наклона линеинои зависимости связан с параметром Харста (Hurst) H.

Важным вопросом является решение задачи выбора параметров информационных процессов, в поведении которых можно определить самоподобие. Анализ данных, описывающих информационное пространство показывает, что можно выделить две взаимосвязанные подсистемы:

• "медленную", в которой обрабатывается информация, медленно изменяющуюся или почти не изменяющаяся с течением времени (научные, культурные, религиозные, художественные и т.д. знания);

• "быструю", к которой можно отнести информацию политического, экономического, спортивного и т.д. характера.

Каждая из подсистем содержит определенные наборы кластеров информации, со своими векторами, задающими их положение. Введем понятие директор. Директором будем называть условное направление в информационном пространстве, которое определяется взаимным усреднением направлении всех рассматриваемых векторов. Направление директора может быть рассчитано с помощью метода наименьших квадратов для отклонения углов векторов, задающих положение центров информационных кластеров от условного направления, которое принимается за директор. Используя данную методику можно получить "медленныи" и "быстрыи" директор и при исследовании самоподобия определять зависимость от времени угла между двумя этими директорами. В частности, таким образом можно определить интервал или период самоподобия информационного пространства. Для определения самоподобия процессов, приводящих к реализации интересующего информационного события можно исследовать зависимость от времени углов между каждым из директоров и вектором, описывающим в информационном пространстве данное прогнозируемое событие.

Построение разностных схем вероятностных переходов между состояниями в информационном пространстве

В разрабатываемой нами модели процессов, протекающих в информационном пространстве, величина среднего значения текущего состояния проекции векторов Х1, характеризующих положение центров новостных кластеров в информационном пространстве на ось прогнозируемого события, может случаиным образом увеличиваться за счет того, что величина е больше величины ^ на каждом шаге (или нескольких последовательных шагах), или случаиным образом уменьшаться, если величина е меньше величины В конечном счете, состояние Xi окажется вблизи порога прогнозируемого события, равного величине вектора Xbs.

Обозначим все множество состоянии, которые описывают возможность появления некоторого события на оси прогнозирования, как X. Состояние, наблюдаемое в момент времени t можно обозначить, как Х1 (Х1еХ). Интервал времени, за которьш возможно изменение состояния Х1 обозначим как то. В данном случае любое значение текущего времени t=h то, где h - номер шага перехода между состояниями (процесс перехода между состояниями становится квазинепрерывным с бесконечно малым временным интервалом то), h=0,1,2,3, N. Текущее состояние Х1 на шаге ^ после перехода на шаге h+1 может увеличиваться на некоторую величину е, или уменьшаться на величину Е, и соответственно оказаться равным Х1+е, или х-^. Величины е и Е принадлежат области определения х и являются параметрами моделируемых процессов. Кроме того, на Х1+е, и Х1-Е необходимо наложить ограничения: ж+е^,1 - верхняя граница множества X) и - нижняя граница множества X). В самом простом случае е и Е являются для любого шага

h постоянными величинами.

Введем понятие вероятности нахождения информационного пространства в том или ином состояния. Пусть, после некоторого числа шагов h про описываемую систему можно сказать, что:

• р(х-ем) - вероятность того, что она находится в состоянии (х-г);

• Р(хМ) - вероятность того, что она находится в состоянии х;

• Р(х+- вероятность того, что она находится в состоянии (х+£).

После каждого шага, состояние Х1 (далее индекс 1 для краткости можно опустить), может изменяться на величину е или Е.

Вероятность р(х^+1)- того, что на следующем ^+1) шаге система (или процесс) окажется в состоянии Х будет равна (см. рис. 1):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

р(хм+1)= р(х-ем)+ р(х+$л)- р(хм) . (1)

+ Е

Рис. 1. Схема возможных переходов между состояниями системы (или процесса) на Ь+1 шаге

Поясним выражение (1) и представленную на рисунке 1 схему. Вероятность перехода в состояние Х на шаге h р(х^+1 ) определяется суммои вероятностеи переходов в это состояние из состоянии (х-г) - р(х-ем) и (х+£) - р(х+^) в которых находилась система на шаге h за вычетом вероятности перехода (р(х,ц) системы из состояния Х (в котором она находилась на шаге ^ в любое другое состояние на h+1 шаге. В данном случае будем считать, что сами переходы осуществляются с вероятностью равнои 1.

В данном случае мы рассматриваем Марковский непрерывный процесс, в котором система не обладает памятью состояний, однако в реальности в системе, которой является общество, всегда остается некоторая память о предыдущем состоянии. Следовательно, предлагаемая модель должна это учитывать. Для этого определим вероятности р(х-£,ц, р(х+^) и р(х,и) через состояния на шаге. Аналогично схеме, представленной на рисунке 1, изобразим схемы соответствующих переходов (см. рис. 2), и учитывая, что е и Е являются некоторыми постоянными величинами для любого шага h запишем:

Р(х-е^) =Р(х-2е, ^1) +Р(х-е+^-1)-Р(х-е, ^1), (2)

Р(х+^М)=Р(х+^еМ-1)+Р(х+2^М-1)-Р(х+^М-1), (3)

Р(хМ) =Р(х-е, ^1) +Р(х+£ ^1)-Р(х, ^1). (4)

Подставив (2), (3) и (4) в уравнение (1) получим:

P(x, h+1)={P(x-2s, h-1) +P(x-e+£ h-1)-P(x-e, h-1)}+{P(x+£-e,h-1) + +P(x+2£h-1)-P(x+£h-1)}-P(x-e,h-1)-P(x+£h-1)+P(x,h-1).

На шаге h-1:

На шаге h:

уход в любое состояние

Х-С,

уход в любое состояние

уход е любое состояние

Рис. 2. Схема возможных переходов на ^1 шаге для определения вероятностей Р(х-?,,К), Р(х+Ъ,К) и Р(х^)

Заметим, что в левой части уравнения (5) мы имеем число шагов (h+1), а в правой (h-1). Для того чтобы не проводить разложение правой части уравнения (5) в ряд Тейлора в окрестности числа шагов h (или по времени), а только в окрестности точки x, преобразуем (5) к виду: P(x,h + 2) = {Р(х - 2£,h) + Р(х - £ + ^,h)-P(x - £,h)} + {Р(х + ^ - £,h) + +Р(х + ^,h)-P(x + ^, h)} - Р(х - £,h) - Р(х + - 1) + Р(х, h) . (6)

Далее учитывая, что t=h^ro, где t - время процесса, h - номер шага, то - длительность одного шага перейдем от h к t и проведем соответствующие разложения в ряд Тейлора:

P(x,h + 2) = P(x,t) + 2т,

dP(x,t) (2т0)2 d2P(x,t)

dt

+

dt2

+

dP(x,t) (2e)2 d2P(x,t) P(x-2e,h)=P(x,t)-2e—^—- + ^---

v ' J ^ ' J dx 2 dx2

, , dP(x,t) (£-$)2d2P(x,t)

P(x -£,h)= P(x,t) - e

dx + 2 dP(x,t) £2d2P(x,t)

dx2

dx

+

P(x + $- £,h) = P(x, t) + ($- £)

2 dx2

dP(x, t) + (^-£)2d2P(x, t)

dx 2 dx^

dP(x,t) (2Q2d2P(x,t)

+ ■■■

+

Р(х + 2Ш = РШ) + 2^-^— + . 2 dx2

dP(x,t) i2d2P(x,t)

dP(x,t) £2d2P(x,t)

dx 2 dx2 dP(x, t) i,2 d2P(x, t)

+

P(x -£,h)= P(x,t) - £ P(x + $,h) = P(x,t) + t

dx ' 2 dx2 Подставив полученные разложения в уравнение (6) находим:

_ dP(x,t) , (2т0)2 d2P(x,t)

2тп--\---^—

0 ■> dt2

= {£2 + (£-{)2+{2}2d-^+2({-£)

dt 2 Или в обобщенном виде:

dP(x,t) d2P(x,t) , dP(x,t) d2P(x,t)

dP(x,t) dx

dt

= a-

E^-fi+i2 , E-f

где: а =-; b = —; с = т0

dP(x,t)

dx2

dx

dt2

(7)

Член уравнения вида — описывает упорядоченный переход либо в состояние, когда оно

й2Р(х Ь)

увеличивается (е > £), либо, когда оно уменьшается (е < £); член уравнения вида ' -описывает случаиное изменение состояния (неопределенность изменения). Член уравнения вида

йР(х Ь)

—— можно определить, как скорость общего изменения состояния системы с течением времени;

й2Р(х Ь)

член уравнения вида — ' - описывает процесс, при котором состояния сами становятся источниками возникновения других состоянии (самоорганизация и ускорение как упорядоченных ( ах ) и случаиных ( —) переходов).

С точки зрения области применимости модели в уравнениях (7) и (8) необходимо учесть ограничение, накладываемое на коэффициент а=(е2-е^2)/то перед второи производнои по Х, которая учитывает возможность случаиного изменения состояния. Должно выполняться условие (е2-е^+^2)>(/-Хо)2, смысл которого заключается в том, что переход из начального состояния Хо через порог достижения события не может произоити быстрее, чем за время одного шага то. Если (е2-е?+?2)<(/-Хо)2, то система переходит через порог достижения события за один шаг.

Формулировка и решение краевой задачи при прогнозировании новостных событий в информационном пространстве

Считая функцию Р(х^) непрерывной можно переити от вероятности Р(х^) (уравнение (7)) к плотности вероятности p(x,t)=dP(x,t)/dx и сформулировать граничную задачу, решение которои и будет описывать процесс перехода между состояниями в информационном пространстве.

йр(х,Ь) й2р(х,Ь) 1 Лр(х£) й2р(х,Ь)

-=а----Ь--с--—. (8)

ЛЬ йх2 йх (И2 -1

Первое граничное условие. Первое граничное условие выберем исходя из следующих соображении: состояние х=о определяет полное отсутствие каких бы то ни было, протекающих в информационном пространстве, процессов, с соответствующими им измеряемыми параметрами. Сама вероятность обнаружить такое состояние может быть отлична от о (хотя и должна быть близка к нулю), однако плотность вероятности, определяющую поток в состоянии х=о, необходимо положить равнои 0 (состояния системы не могут выходить в область отрицательных значении (реализуется условие отражения)), т.е.:

Р(*,0*=о=0 . (а)

Второе граничное условие. Рассмотрим состояние информационного пространства с значением величины вектора находящегося вблизи границы возможных значении его состоянии обозначим эту предельную величину возможных состоянии как Ь). Сама вероятность обнаружить такое состояние будет отлична от о. Однако плотность вероятности, определяющая поток в состоянии Х=Ь необходимо положить равнои 0 (состояния системы не могут выходить в область значении больше, чем максимально возможная величина (реализуется условие отражения от границы)), т.е.:

Р(х,1)х=ь = 0 . (Ь)

Поскольку в момент времени t=0 состояние системы уже может быть равно некоторому значению хо, то начальное условие зададим в виде:

Так как начальное условие содержит дельта функцию, то решение для р(х,^) разбивается на две области при х>хо и при х<хо. Поскольку исходное дифференциальное уравнение содержит вторую производную по времени, то необходимо второе начальное условие. Оно является не столь очевидным, как первое, но в данном случае можно использовать непрерывность функции для любого момента времени. Наличие 5-функции приводит к тому, что решение, оставаясь непрерывным в точке х=хо, испытывает в неи разрыв производнои. При решении задачи с помощью методов операционного исчисления возникает необходимость вычисления интеграла

С(х,р)^х| |4=0, где С(х,р) - изображение р(х,^). Поскольку изображение также как и

оригинал являются непрерывными, то данныи интеграл равен о, что позволяет не задавать

дв(х^) I

начальное условие дл я ——— | ь=0 в явном виде.

Используя методы операционного исчисления для плотности вероятности р1(х,^) и р2(х,^) обнаружения состояния системы в одном из значении на отрезке от о до Ь можно получить следующую систему уравнении:

При х > х0

Р1(х,0==--в I ь)К ь) с}11± I * -ЯП (£

У Ь п~1 СОъ(пп) \ Т^4(£2-£^+^2) Ь2 I

При х < х0

р2(х,0 == --е —^-ь ) К ь) с}11± I * -яп (£ 2£*+П).

Если реализация прогнозируемого события связана с увеличением величины исходного состояния системы хо, то интеграл Р(1Л):

Р(1, о = р2(х, €)йх + £ Р1 (ж, 0*с. (9)

будет задавать вероятность того, что состояние системы к моменту времени t находится на отрезке от 0 до 1 (l=Xbs), т.е. порог события 1 не будет достигнут.

Соответственно, вероятность Q,(t) того, что порог события 1 окажется к моменту времени t достигнутым или превзоиденным, можно определить следующим образом:

Q(l,t^) = 1-P(l,t^). (10)

Анализ показывает, что рх(х, Ь) и р2(х, Ь) при любых значениях t и х не являются отрицательными, для функции Q(l, Ь) при выполняется условие Q(l, (Р(1, С)^0).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если реализация прогнозируемого события связана с уменьшением величины исходного состояния системы хо то интеграл Р[ЬЛ]:

рц, о = /;°р2(х, о^х+/^РА, О^Х (11)

будет задавать вероятность того, что состояние системы к моменту времени t находится на числовои прямои от 1<хо<ю, т.е. порог события 1 не будет достигнут. Вероятность Q,(t) того, что порог события 1 окажется к моменту времени t достигнутым также определяется по формуле (10).

Согласно нашеи модели, стохастическая динамика описывается изменением состояния за счет параметров е и величины которых определяются множеством различных факторов.

Анализ решения краевой задачи при прогнозировании редких событий в информационном пространстве. Реализация памяти и самоорганизация

Проанализируем полученные результаты. Для моделирования процесса будем считать, что начальное (в момент начала наблюдения) значение величины вектора состояния системы (информационного пространства) равно х0 (хо=0,05 -условно принятая величина), величину то примем равнои 1 условнои единице времени, е=0,02 и ^=0,01, 1=2-условно принятая величина.

Результаты решения уравнения (10) с использованием (9), функции рх(х,Ь), р2(х,Ь) и заданным выше набором параметров и различными порогами событий (отметим, что в данном случае прогнозируемое событие наблюдается при росте величины вектора состояния системы), выбранных при моделировании, представлены в графическом виде на рисунке 3. Кривая 1 на рисунке 3 построена для порога события равного 0,1; кривая 2 для величины порога события равнои 0,2, а кривая 3 для величины порога события равнои 0,3.

Ход кривых на рисунке 3, показывает возможность роста вероятности перехода порога события практически сразу после начала процесса, что связано с наличием памяти о предыдущих состояниях системы в разработаннои нами модели, и возможности описания значительнои самоорганизации системы вследствие учета в дифференциальнои модели члена уравнения,

й2Р(х Ь)

имеющего вид — ' . Кривые 1 и 2 на рисунке 3 демонстрируют, что чем ближе значение величины состояния системы хо в момент начала наблюдения к порогу события, тем быстрее возрастает вероятность перехода (кривая 1 построена для порога события равного 0,1, а кривая 2 для 0,2, при одинаковои начальнои величине вектора состояния системы 0,05).

Второи особенностью, предлагаемои нами модели, является возможность нескольких скачкообразных изменении вероятности перехода через порог события.

Третьеи особенностью, предлагаемои нами модели, является наличие волнообразных явлении в поведении величины достижения порога события.

2 0.9

Hi

§

<5 0.8

I

о о;

ч

л

в

О 06

о

& 05

m

04

0.3

о.:

о 1

2 4 6 В 10 12 14 16 1S 20 22 24 26 2S 30 32 34 36 3S 40 42 44 46 48 30

Время, условные единицы

Рис. 3. Графическое представление результатов моделирования преодоления порога событий, при росте

величины состояния

Разработанная модель учитывает многие основные свойства редких событии: неопределенность во времени их проявления, стохастичность с неизвестными характеристиками, наличие памяти в системе в которои происходит событие, самоорганизацию информации.

Разработанная нами модель позволяет проанализировать возможность прогнозирования редкого новостного события типа «Черньш лебедь» во взаимосвязи с различными кластерами в информационном пространстве. Анализ значении времен достижения редких событии может позволить делать их достаточно точныи прогноз, при заданном уровне вероятности реализации (например, 0,90 или 0,95).

Необходимо отметить, что каждое редкое новостное событие типа «Черныи лебедь» имеет плохо структурированных и слабо выраженных предшественников, появление которых не было обнаружено, но они являются значимыми индикаторами, на основе которых в ретроспективе, как правило, дается рационалистическое объяснение произошедшему явлению. Исследование самоподобия информационных процессов может позволить определить период или интервал самоподобия, что является важным с прогностическои точки зрения.

Методика экспериментальной проверки предлагаемых моделей. Ресурсоемкость исследований и алгоритм реализации

Экспериментальная проверка разработанных нами моделеи может быть проведена на большом массиве текстовых документов с использованием следующего алгоритма:

a) Проводим представление текстовых документов в информационном пространстве с помощью методов математической лингвистики к векторной форме, и осуществляем в какой-то момент времени t=0 кластеризацию по различным смысловым группам, используя алгоритм k-средних, Scatter-Gather, BIRCH или алгоритмы иерархической кластеризации. Выделяем быстро и медленно изменяющиеся подсистемы данных в информационном пространстве, и определяем для них направления директоров;

b) Задаем вектор события в информационном пространстве посредством его текстового описания. Величина вектора прогнозируемого события задает на оси этого события порог его достижения (/). Определяем углы между директорами и вектором прогнозируемого события;

c) Проводим отображение векторов, определяющих положение центров новостных кластеров на направление оси, задаваемой вектором прогнозируемого события момент времени t=0 и находим их среднее значение хо;

d) Спустя некоторый интервал времени измерения (назовем его то) определяем новые вектора, задающие положение центров новостных кластеров и их отображения на ось прогнозируемого события. Разделяем отображения на две группы. В первой будут все вектора, для которых значения отображений увеличились, во второй для которых уменьшились, по сравнению с предыдущими значениями. Находим средние значения по группам и определяем значения

величин трендов увеличения (е) и уменьшения (Ç) по отношению к начальному состоянию хо. Величины е и Ç определяются разностью текущего среднего значения по группе и предыдущего общего состояния хо. Выделяем быстро и медленно изменяющиеся подсистемы данных в информационном пространстве, определяем для них новые направления директоров и углы между директорами и вектором прогнозируемого события;

e) Используя величины хо, е, Ç, то, l и выражения для плотности вероятности pi(x,t) и p2(x,t) обнаружения состояния системы в одном из значений на отрезке от 0 до l моделируем достижение порога события, и определяем время его достижения (при заданной вероятности реализации, например 0,9 или 0,8);

f) Через новый интервал времени измерения то повторяем процедуры, описанные в пунктах b) - e). По полученной зависимости от времени углов между директорами и вектором прогнозируемых событий определяем наличие или отсутствие самоподобия в процессах, протекающих в информационном пространстве, и при его наличии определяем параметры самоподобия (период или интервал, что важно для прогнозирования интересующего события).

Представление текстовых данных в векторнои форме с помощью методов математическои лингвистики создает векторное пространство размерности Rm, где m - может достигать величины нескольких десятков миллионов. Использование для проведения исследовании больших коллекции текстовых документов является в техническом плане чрезвычаино ресурсоемкои задачеи, решение которои связано с обработкои Экзобаитных объемов текстовои информации, и требует привлечения вычислительных кластеров с Петафлопнои производительностью. Поэтому для предварительнои проверки модели можно ограничиться меньшеи выборкои данных. Например, использовать существующие общедоступные базы текстовои научнои информации, и как один из возможных вариантов взять информацию из Wikipedia, научных и новостных порталов, публикующих новости науки и техники. В качестве редкого события можно описать, например, информационную карту любого из футуристических научных прогнозов, сделанных техническим директором компании Google Рэем Курцвеилом (например, персональные компьютеры достигнут вычислительнои мощности мозга человека, компьютер сможет проити тест Тьюринга, 3D -принтеры начнут печатать человеческие органы, появится небиологическии интеллект и т.д.) и оценить время его реализации при разнои вероятности.

Выводы

1.Предлагаемая модель учитывает неопределенности в процессе возникновения событий в информационном пространстве и не основывается на статистических характеристиках с заранее предполагаемым законом распределения.

2.Предлагаемая модель показывает возможность роста вероятности перехода порога достижения новостного события в информационном пространстве практически сразу после начала процесса его развития, что связано с учетом памяти о предыдущих состояниях системы и возможности описания значительной самоорганизации вследствие учета в дифференциальной модели второй производной по времени.

3.Предлагаемая модель показывает возможность скачкообразных изменений для вероятности перехода через порог событий и учитывает наличие в её поведении волнообразных явлений.

4.Разработанная модель позволяет создать алгоритм анализа взаимосвязи кластеров информации в информационном пространстве с возможностью реализации любого события, а также определить прогнозируемое время его возникновения.

Литература

1. Nassim N.T. The Black Swan: The Impact of the Highly Improbable. Random House.- 2оо7. - P. 4о1.

2. Джон Дж. Мерфи Технический анализ фьючерсных рынков: теория и практика. - М.: Сокол, 1996. - 592 с.

3. Кендал М. Дж., Стьюарт А. Многомерный статистический анализ и времянные ряды. - М.: Наука, 1976. - 736 с.

4. Автухович Э.В. Бурова Н.К., Дорин Б.Л., Панов С.С., Петров А.А., Поспелов И.Г., Поспелова И.И., Ташлицкая Я.М., Чуканов С.В., Шананин А.А., Шапошник Д.В. Оценка потенциала роста экономики России с помощью математической модели. - М.: ВЦ РАН, 2ооо. - 154 с.

5. Петров А.А., Поспелов И.Г., Поспелова И.И., Хохлов М.А., Шипулина Г.Е. Новые принципы и методы разработки макромоделей экономики и модель современной экономики России. - М.: ВЦ РАН, 2ооб. - 242 с.

6. Петров А.А., Поспелов И.Г. Математические модели экономики России // Вестник РАН, Т.79, № 6, 2оо9. - С. 492-5об.

7. Алескеров Ф. Т. «Простые и простейшие полупорядки». / / Доклады РАН, т.387, № 2, 2оо2 - С. 175—177.

8. Алескеров Ф. Т. Индексы влияния, учитывающие предпочтения участников по созданию коалиций, Доклады РАН. - 2оо7. - т. 414, № 5. - P. 594—597.

9. Yingyuan Xiao, Pengqiang Ai, Ching-hsien Hsu, Hongya Wang, Xu Jiao. Time-ordered Collaborative Filtering for News Recommendation. / / China Communication. - Vol. 12, № 12. - P. 53-62.

10. Daqiang Zhang, Ching-Hsien Hsu, Min Chen, Quan Chen, Naixue Xiong, Jaime Lloret. Cold-Start Recommendation Using Bi-Clustering and Fusion for Large-Scale Social Recommender Systems. / / IEEE Transactions on Emerging Topics in Computing. -2014. - Vol. 2, № 2. - P.239-250.

11. Asela Gunawardana, Christopher Meek, Puyang Xu. A Model for Temporal Dependencies in Event Streams. / Microsoft Research.-2011. - P. 1-8.

12. Zhukov D.O., Lesko S.A. Trends, self-similarity and forecasting of news events in the information domain, its structure and director. // IEEE International Conference on Social Communication. - 2015, - P. 870-873.

13. Feldman R., Sanger J. The Text Mining Handbok. Cambridge: Cambridge University Press. - 2007.

14. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. - P. 544.

15. Pantel, P., Lin, D. Discovering word senses from text. In Proceedings of the Eighth ACM SIGKDD. / / International Conference on Knowledge Discovery and Data Mining, 2002. - P. 613-619, Edmonton, Canada.

16. Turney, P. D. The latent relation mapping engine: Algorithm and experiments. / / Journal of Artificial Intelligence Research, 33, 2008. - P. 615-655.

17. Clegg R.G. A practical guide to measuring the Hurst parameter. // Computing science technical report. - 2005. - № CS-TR-916. -Р. 125-138.

References

1. Nassim N.T. The Black Swan: The Impact of the Highly Improbable. Random House.- 2007. - P. 401.

2. Dzhon Dzh. Merfi Tekhnicheskiy analiz fyuchersnykh rynkov: teoriya i praktika. - М.: Sokol, 1996. -592 s.

3. Kendal M. Dzh., Styuart A. Mnogomernyy statisticheskiy analiz i vremyannye ryady. - М.: Nauka, 1976. -736 s.

4. Avtukhovich E.V. Burova N.K., Dorin B.L., Panov S.S., Petrov A.A., Pospelov I.G., Pospelova I.I., Tashliczkaya Ya.M., ChukanovS.V., Shananin A.A., Shaposhnik D.V. Ocenka potenciala rosta ekonomiki Rossii s pomoshchyu matematicheskoy modeli. - М.: VC RAN, 2000. -154 s.

5. Petrov A.A., Pospelov I.G., Pospelova I.I., Khokhlov M.A., Shipulina G.E. Novye principy i metody razrabotki makromodeley ekonomiki i model sovremennoy ekonomiki Rossii. - М.: VC RAN, 2006. - 242 s.

6. Petrov A.A., Pospelov I.G. Matematicheskie modeli ekonomiki Rossii// Vestnik RAN, Т.79, № 6, 2009. - S. 492-506.

7. Aleskerov F. T. «Prostye i prosteyshie poluporyadki»// Doklady RAN, т.387, № 2, 2002 - S. 175—177.

8. Aleskerov F. T. Indeksy vliyaniya, uchityvayushchie predpochteniya uchastnikov po sozdaniyu koaliciy. -Doklady RAN. - 2007. -т. 414, № 5. -S. 594—597.

9. Yingyuan Xiao, Pengqiang Ai, Ching-hsien Hsu, Hongya Wang, Xu Jiao. Time-ordered Collaborative Filtering for News Recommendation. // China Communication. - Vol. 12, № 12. - P. 53-62.

10. Daqiang Zhang, Ching-Hsien Hsu, Min Chen, Quan Chen, Naixue Xiong, Jaime Lloret. Cold-Start Recommendation Using Bi-Clustering and Fusion for Large-Scale Social Recommender Systems. // IEEE Transactions on Emerging Topics in Computing. -2014. - Vol. 2, № 2. - P.239-250.

11. Asela Gunawardana, Christopher Meek, Puyang Xu. A Model for Temporal Dependencies in Event Streams. / Microsoft Research.-2011. - P. 1-8.

12. Zhukov D.O., Lesko S.A. Trends, self-similarity and forecasting of news events in the information domain, its structure and director. // IEEE International Conference on Social Communication. - 2015, P. 870-873.

13. Feldman R., Sanger J. The Text Mining Handbok. Cambridge: Cambridge University Press. - 2007.

14. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. - P. 544.

15. Pantel, P., Lin, D. Discovering word senses from text. In Proceedings of the Eighth ACM SIGKDD. // International Conference on Knowledge Discovery and Data Mining, 2002. - P. 613-619, Edmonton, Canada.

16. Turney, P. D. The latent relation mapping engine: Algorithm and experiments. / / Journal of Artificial Intelligence Research, 33, 2008. - P. 615-655.

17. Clegg R.G. A practical guide to measuring the Hurst parameter. // Computing science technical report. - 2005. - № CS-TR-916. -Р. 125-138.

Поступила: 20.10.2016

Об авторах:

Сигов Александр Сергеевич, президент Московского технологического университета (МИРЭА), академик РАН, заведующий кафедрой наноэлектроники физико-технологического института Московского технологического университета, доктор технических наук;

Жуков Дмитрий Олегович, профессор кафедры информационного противоборства института комплексной безопасности и специального приборостроения Московского технологического университета, доктор технических наук, [email protected];

Новикова Ольга Александровна, заместитель заведующего аспирантурой Московского технологического университета, [email protected].