Научная статья на тему 'Метод эмпирических вероятностей: автоматическая система для рекомендации следующих десяти лекций курса после просмотра трех данных лекций'

Метод эмпирических вероятностей: автоматическая система для рекомендации следующих десяти лекций курса после просмотра трех данных лекций Текст научной статьи по специальности «Математика»

CC BY-NC-ND
135
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Бизнес-информатика
ВАК
RSCI
Область наук
Ключевые слова
РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ / ПРОГНОЗИРОВАНИЕ / ОЦЕНКИ ПОПУЛЯРНОСТИ / АНСАМБЛИ И ЭЛЕМЕНТАРНЫЕ КЛАССИФИКАТОРЫ / БЭГГИНГ / АНАЛИЗ ДАННЫХ / RECOMMENDER SYSTEM / COLLABORATIVE FILTERING / ONLINE LEARNING / ENSEMBLING / BAGGING / RESAMPLING

Аннотация научной статьи по математике, автор научной работы — Никулин В. Н., Палешева С. А., Зубарева Д. С.

В статье представлен алгоритм, который был награжден призом за третий лучший результат, продемонстрированный в ходе международного соревнования по анализу данных VideoLectures.Net ECML/PKDD 2011 (Track 2). Мы предлагаем использовать две лекции (взятые из тройки данных лекций), для того чтобы определить направление прогноза. Соответствие всего предсказанного набора вычисляется согласно оставшейся третьей лекции.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Никулин В. Н., Палешева С. А., Зубарева Д. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD OF EMPIRICAL PROBABILITIES: AUTOMATIC SYSTEM TO RECOMMEND THE FOLLOWING TEN LECTIONS AFTER VIEWING THREE GIVEN LECTIONS

In this paper we present an algorithm and the corresponding experimental results, which were obtained online during the VideoLectures.Net ECML/PKDD 2011 Discovery Challenge (Track N2), where we were awarded a prize for the third best result. We propose to use two lectures (out of the given three lectures) in order to define a direction of the prediction. The relevance of the whole predicted set is calculated according to the remaining third lecture.

Текст научной работы на тему «Метод эмпирических вероятностей: автоматическая система для рекомендации следующих десяти лекций курса после просмотра трех данных лекций»

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

МЕТОД ЭМПИРИЧЕСКИХ ВЕРОЯТНОСТЕЙ:

АВТОМАТИЧЕСКАЯ СИСТЕМА ДЛЯ РЕКОМЕНДАЦИИ СЛЕДУЮЩИХ ДЕСЯТИ ЛЕКЦИЙ КУРСА ПОСЛЕ ПРОСМОТРА

ТРЕХ ДАННЫХ ЛЕКЦИЙ

B. Н. Никулин, кандидат физико-математических наук, доцент кафедры математических методов в экономике Вятского государственного университета

C. А. Палешева, студентка кафедры математических методов в экономике Вятского государственного университета

Д.С. Зубарева, студентка кафедры математических методов в экономике Вятского государственного университета

E-mail: [email protected], [email protected], [email protected] Адрес: г. Киров, ул. Московская, д. 36

В статье представлен алгоритм, который был награжден призом за третий лучший результат, продемонстрированный в ходе международного соревнования по анализу данных VideoLectures.Net ECML/PKDD 2011 (Track 2). Мы предлагаем использовать две лекции (взятые из тройки данных лекций), для того чтобы определить направление прогноза. Соответ-

ствие всего предсказанного набора вычисляется согласно оставшейся третьей лекции

Ключевые слова: рекомендательные системы, прогнозирование, оценки популярности, ансамбли и элементарные классификаторы, бэггинг, анализ данных.

1. Введение

VideoLectures.Net1 — это открытый и общедоступный мультимедийный ресурс видео-лекций, в основном исследовательского и образовательного характера. Лекции предлагаются выдающимися учеными и исследователями в рамках самых значимых и известных событий, таких как: конференции, лет-

1 http://videolectures.net/

ние школы, семинары, а также научно-популярные мероприятия в различных отраслях науки. Целями интернет-ресурса являются продвижение научных идей, стимулирование обмена знаниями, которые достигаются посредством предоставления высококачественных учебных материалов не только научной общественности, но и более широкой аудитории. Все лекции, включая документы, информацию и ссылки, систематизированы и сгруппированы редакторами с учетом комментариев пользователей.

БИЗНЕС-ИНФОРМАТИКА №3(25)-2013 г.

49

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

Задача международного соревнования VideoLectures. Net в рамках Центральной европейской конференции по анализу данных ECML/PKDD 2011 состояла в подготовке списка рекомендованных лекций ресурса Vid-eoLectures.Net на основе исторических данных с этого сайта. Описание методов, которые использовал победитель соревнования VideoLectures.Net даны в [1]. Наш метод [2] был награжден третьим призом (Track 2).

Согласно [3], открытые социально-образовательные системы предоставляют новые возможности для миллионов заинтересованных студентов, для того чтобы последние могли пользоваться высококачественными дидактическими материалами в режиме реального времени. В соответствии с известными оценками, более 100 миллионов студентов по всему миру имеют вполне достаточный уровень образования для поступления в университет в течение следующих десяти лет. Университеты откликаются на сложившиеся потребности посредством создания открытых образовательных ресурсов: тысячи общедоступных высококачественных online-курсов, подготовленных сотнями преподавателей университетов, используются миллионами людей по всему миру. К сожалению, учебные материалы, соответствующие курсу в режиме реального времени, не дают достаточный опыт для эффективного изучения, что является необходимым условием для поддержания заинтересованности студентов.

Однако в настоящее время студенты обеспокоены качеством своего образования. С целью стимулирования и облегчения процесса обмена опытом для этих студентов необходимо решить два важных вопроса: 1) создание и накопление библиотеки учебных материалов online; 2) стимулирование обмена опытом в режиме реального времени (общение).

Центральная проблема заложена как раз во втором вопросе: каким образом задать подходящее направление для студентов-слушателей, которые «живут» в Интернете, принимая во внимание существование многообразия доступных исследовательских / образовательных ресурсов.

Функциями рекомендательных систем является профилирование пользователей по определенным критериям предпочтения и моделирование соотношений между пользователями и предметами потребления. Задача подобной системы заключается в формировании рекомендаций для того, чтобы максимально удовлетворить вкусы пользователей и облегчить последним выбор из огромного разнообразия предлагаемых услуг и товаров [4]. Рекомендательные системы имеют огромное значение в таких

сферах деятельности, как: электронная торговля, подписка на базовые службы, отбор информации и др. Рекомендательные системы, формирующие персонализированные предложения, значительно повышают вероятность осуществления покупки клиентом. Индивидуальные рекомендации особенно важны на рынке, где выбор достаточно велик, вкусы потребителей играют значительно большее значение в сравнении с ценами, которые ограничены. Типичными сферами применения подобных систем являются: искусство (книги, фильмы, музыка), мода и одежда, еда и рестораны, игры и юмор.

Большинство методов, представленных в [4], были мотивированы известным соревнованием по анализу данных NetflixCup. Отметим, что методы, основанные на разложении матриц, не могут быть применены в нашем случае напрямую, поскольку данные имеют иную структуру. В нашем случае мы имеем дело не с конкретными, а с абстрактными пользователями, которые ранее ознакомились с содержанием трех лекций из предложенного набора лекций, причем их точная последовательность неизвестна.

Использование традиционных методов анализа данных (ассоциативные правила) позволило получить хорошие результаты на ранних стадиях разработки рекомендательных систем [5]. Наиболее часто используемые наборы лекций (или иных товаров/предметов потребления), определенные методом ассоциативных правил, представляют собой тип направляющих или ориентирующих образцов, поскольку они сконцентрированы на факте наличия лекций, нежели на их порядке, в котором происходит процесс рассмотрения или обучения [6]. Частотные методы (или методы, основанные на эмпирических вероятностях) являются основным инструментом в следующих 3.1 — 3.6 разделах. Заметим также, что модель Марковских цепей для принятия решений позволяет улучшить качество принятия решений для рекомендательных систем в случае, если последовательность состояний известна. Согласно теории Марковских цепей, мы имеем дело с пространством, в котором число состояний ограничено, и, используя оценку максимального правдоподобия (опирающуюся на исторические данные), мы формулируем прогноз или предсказание.

Метод бэггинг используется для вычисления множества элементарных предсказаний с целью формирования суммарного (совокупного) предиктора. Этот предиктор представляет собой усреднение относительно элементарных предикторов и дает прогноз в соответствии с большинством голосов. В разделе 3.6 мы рассмотрим метод случайных повторных выбо-

50

БИЗНЕС-ИНФОРМАТИКА №3(25)-2013 г

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

рок: предполагается, что, используя сотни предикторов (элементарных классификаторов), опирающихся на подмножества всей тренировочной выборки, мы сможем уменьшить эффект случайных факторов. Согласно принципам, на которых базируются однородные ансамбли, финальный предиктор представляет собой среднее элементарных предикторов. Отметим, что параллельно вычислению однородного ансамбля мы можем вычислить CV-паспорт [7] (cross-validation passport) для оценки качества решения. Заметим, что популярная модель случайных деревьев [8] являются хорошо известным примером удачного однородного ансамбля. Однако структура случайных деревьев основана на другом методе, который опирается прежде всего на признаки, но не на подмножества.

2. Данные и некоторые определения

Тренировочная база данных состоит из двух подмножеств: 1) пары лекций P; 2) тройки лекций T, каждая из которых включает две части (левую и правую), где левая часть содержит входные тройки лекций и соответствующие количества их просмотров, правая часть содержит выходные лекции и соответствующие количества их просмотров.

2.1. Пары лекций

Обозначим через I множество индексов, соответствующих парам данных. Любой элемент из I представляет неупорядоченный набор из двух индексов I={a, b}, где Ie I а индексы а и b однозначно определяют соответствующие лекции. Под выражением P=Pab мы будем понимать число тех случаев, когда лекции с индексами а и b были просмотрены вместе.

х 105 3

U1L Hi Г

(а)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(b)

1 1

1 1

|| 1 1 1

0 5 10 15 20 25 30 35 40 45 50

,_| 1 1 1 1 _! (c)

500 L ' 1 1 1

L. 1 1 ■

50 100 150 200 250 3С 0 35 0 400 450 500

Рис. 1. Гистограммы частот, соответствующих (а) тройкам; (b) парам до 50; (с) парам от 50 до 500, см. раздел 2.3

Т (Р\

rz(e) = -4rL,eeLI,iGiT, (1)

■*/

где мы заменили I на г в левой части (1), поскольку имеет место взаимно однозначное соответствие между параметрами I и т.

Рис. 1(b-c) иллюстрирует гистограмму частот: Pr, Ie / , где все значения на рис. 1(b) сокращены до уровня 50 (если значения превышают 50). Дополнительно рис. 1(с) демонстрирует гистограмму значений P от 50, где значения, превышающие 500, сокращены до 500.

3. Методы

2.2. Тройки лекций

Обозначим через IT множество индексов, соответствующих тройкам данных: ^ = {a, b, c} — это тройка или набор из трех лекций a, b и с. Элемент c индексом Ie Tимеет два значения (одно для левой и одно для правой частей). Под выражением T мы будем понимать число случаев, когда соответствующие три лекции были просмотрены вместе; Lt — набор отдельных лекций, просмотренных после гг А также обозначим через 7} (£), £eLr, количество случаев когда лекция была просмотрена после тройки гг

2.3. Графические иллюстрации

Рис. 1 иллюстрирует гистограмму эмпирических вероятностей или частот:

3.1. Прогнозы при использовании двоек лекций

Задача соревнования заключалась в построении прогноза (предсказания) согласно тестовой базе данных V, которая имеет такую же структуру, как и T, (левая часть). Точнее говоря, было необходимо предложить рекомендацию десяти наиболее подходящих лекций после просмотра данных трех.

Замечание 1. В качестве особенного и наиболее важного фактора данного соревнования отметим отсутствие одинаковых троек в тренировочном T (левая часть) и тестовом Vмножествах. В то же время мы обнаружили значительное количество одинаковых пар в обоих множествах: тренировочном и тестовом.

В целом мы нашли пс= 34756 двоек (которые были найдены в левой части T) с количеством повторов, соответствующих отдельной двойке, от 1 до шс=4020.

БИЗНЕС-ИНФОРМАТИКА №3(25)-2013 г

51

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

Отметим, что каждая тройка может быть рассмотрена как набор из трех двоек. Общее количество троек в тестовой выборке V составило Ny = 60274, и 1) мы не обнаружили соответствующих им двоек в тренировочной выборке только в 116 случаях, 2) мы нашли только одну двойку в 829 случаях, 3) мы нашли две двойки в 4705 случаях; 4) все три двойки были обнаружены в абсолютном большинстве (54624 случаев).

Замечание 2. В оригинальной базе данных каждая лекция была идентифицирована при помощи индекса, где наибольший индекс nL = 13251. Однако не все nL лекции были использованы. Мы предположили, что предсказанные лекции следует искать в правой части T, где определены только ns = 5209 различных лекций.

3.2. Некоторые предварительные определения и обозначения

Мы объясним, как работает система в условиях ns вторичных индексов, так как преобразование к первоначальным nL индексам является тривиальной задачей. Наша база данных была организована следующим образом: квадратная матрица A размерности ns х ns содержит nc различных адресов матрицы B размерности nc х шс .

Сначала мы найдем три пары а.. , j = 1, 2, 3, для всех троек т., i = 1, ..., Nv, содержащихся в тестовой базе данных V Затем для каждой пары а.. мы найдем (в соответствии с матрицей A) соответствующий адрес Р (а )(номер строки в матрице B) и количество имеющихся записей n(a ), где 1 < р < п, 1 < n < шс.

Под элементом матрицы B мы будем понимать предсказанную/рекомендованную лекцию £ и соответствующую частоту:

{*.*(*)}. (2)

где отношение гх определено в (1).

Процесс обновления

Здесь мы опишем наиболее важный шаг вычислительного процесса. Каждая конкретная тройка т тренировочной базы данных рассматривается идентичным образом, поэтому мы опускаем индекс i с целью упрощения обозначений.

Предположим, что первоначально все рейтинги равны нулю s(Q=0, I = 1, ..., ns, где s(£) — это рейтинги, соответствующие лекции £, которые будут использованы для конечного ранжирования лекций в качестве результата модели. Далее представлена наиболее важная формула для обновления:

2 http://tunedit.org/challenge/VLNetChallenge

5(^(1))= sifi^+B^k = = 1,2,3, (3)

где Врк (1) — индекс лекции, Врк{ 2) — соответствующая частота, которая была определена в (2).

После вычисления вектора s в соответствии с (3) мы отсортируем соответствующие элементы в порядке убывания, и индексы лекций, соответствующие десяти наибольшим значениям s, могут быть представлены в качестве решения.

Замечание 3. В случае если число положительных значений вектора s меньше, чем 10, мы генерировали оставшиеся индексы случайным образом, предполагая, что они отличны от 1) индексов входящей тройки г. , а также отличны от 2) тех индексов, что уже выбраны.

При помощи метода, описанного в этом разделе, был получен результат 0,49568 в терминах критерия качества, который использовался организаторами соревнования2 для сравнения различных решений:

МАРр =-^~yiAvgBp(£), где

I У \leV

AvgRp(l) = ^-YrP@ z(£),

IzeZ

Bp@z(£) =

| relevant n retrieved \z | relevant |г

где Z = {5, 10} — первые 5 или все 10 лекций (имеется в виду, что рекомендованные 10 лекций отсортированы в порядке убывания в соответствии с рейтингом).

Замечание 4. Главное преимущество описанного выше метода, который основан на информационной базе данных, включающей матрицы A и B, состоит в его скорости. Согласно проведённым экспериментам, изложенный в этом разделе алгоритм прошёл через всю тренировочную выборку V и вычислил требуемое решение в течение пятидесяти одной секунды. Использовались 1) многопроцессорная рабочая станция с операционной системой Linux 3.2 GHz 16 GB RAM и 2) специально разработанная программа написанная на языке программирования C (все временные замеры осуществлялись в автоматическом режиме).

3.3. Прогнозы при использовании отдельных лекций

Отметим, что прогнозы при использовании отдельно взятых лекций работают схожим образом, что и прогнозы с парными предсказаниями. Однако имеются некоторые различия, которые могут быть рассмотрены как упрощения. Мы выяснили, что максимальное число записей, соответствующих отдельной лекции, — ms= 77798. Соответственно

52

БИЗНЕС-ИНФОРМАТИКА №3(25)-2013 г

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

матрица В (замена матрицы B в предыдущем разделе 3.1) имеет размерность их т.

Модель работает следующим образом: по определению, любая тройка представляет собой множество (набор из трех лекций), состоящее из трех лекций £ £ £ Мы найдем количество записей для каждой отдельной лекции 1 < и(£) < т, где 1 < £ < и

Процесс обновления

Как и ранее, первоначально все рейтинги равны нулю: s(£) = 0, £ =1, ..., и. Ниже представлена основная формула для обновления:

5(ду4а))=*(в^а))+Ау*(2), к=(4)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

После вычисления вектора s в соответствии с (4) сортируем значения в порядке убывания, и индексы лекций, соответствующие десяти наибольшим значениям s, представимы в качестве решения.

Метод, который описан в этом разделе, позволил нам получить результат 0,33278.

3.4. Прогнозирование при использовании пар лекций

Определение 1. Будем называть лекции а и b P-связанными, если P > 1. В соответствии с симметричной матрицей P определим множество лекций H(a), которые P-связаны с данной лекцией а.

Процесс обновления

Как и ранее, первоначально все рейтинги равны нулю: s(t) = 0, £ =1, ..., ns.

Далее мы представим формулу для обновления: s(d) = s(d) + P(£J,d),dsH(£j),j = 1,2,3, (5)

где определение лекций £ является таким же, что и в (4).

После вычисления вектора s в соответствии с (5) мы сортируем значения в порядке убывания, и индексы лекций, соответствующие десяти наибольшим значениям s, представимы в качестве решения.

При использовании метода, представленного в этом разделе, был получен результат 0,12677.

Замечание 5. Решение, описанное в данном разделе, было рекомендовано организаторами форума как «simple pairs solution».

Заметим, что в ходе наших числовых экспериментов мы сделали довольно интересное наблюдение.

Замечание 6. Оценки, определенные в (3-5), представляют суммы частот. Очень интересно отметить, что результаты будут значительно слабее, если мы используем среднее в качестве альтернативы сумме.

3.5. Прогнозы при использовании двоек с весовыми коэффициентами

В соответствии с предыдущими тремя разделами, прогнозы при использовании двоек позволили нам получить лучшие результаты. Мы решили продолжить работу в этом направлении и принять во внимание оставшиеся третьи лекции Ч> и V в обеих тренировочной и тестовой выборках.

Основная идея метода: в случае если оставшиеся лекции <р и у/ подобны (имеют большое количество общих просмотров в соответствии с парными данными), направление прогноза, соответствующее двойке, приобретает больший вес.

Как было отмечено в замечании 1, лекции f и у/ различны по определению. Иными словами, схожие тройки из тренировочной и тестовой баз данных могут быть представлены в следующем виде: o-j и<Pj,aj uy/j,где у>]Фу/1,] = \,2,Ъ.

Процесс обновления

Как и ранее, первоначально все рейтинги равны нулю: s(£) = 0, £ =1, ..., ns . Затем мы можем переписать (3) следующим образом:

*К*(1)) - jfa»(l)) + w(P(^^,))^(2), (6)

к = = 1,2,3,

где w — возрастающая функция весовых коэффициентов. При вычислении нашего финальном решения мы использовали простейшую линейную функцию: w(x) = 0.01 ■ х+ 0.05.

После вычисления вектора s в соответствии с (6) мы сортируем полученные значения в порядке убывания, и индексы лекций, соответствующие десяти наибольшим значениям s, представимы в качестве решения.

При использовании метода с взвешенными двойками, который был описан нами в этом разделе, было достигнуто значительное улучшение: 0,58145.

3.6. Прогнозы при использовании отдельных лекций с весовыми коэффициентами

Данный раздел может быть рассмотрен как дополнение к разделу 3.2. В некотором смысле прогнозы с взвешенными отдельно взятыми лекциями схожи с прогнозами с взвешенными двойками (раздел 3.4). Однако есть некоторые отличия. В случае с отдельными лекциями мы определяем направление прогноза согласно одиночным лекциям. Соответственно мы имеем две другие (дополнительные) лекции, которые необходимо сравнить с двумя лек-

БИЗНЕС-ИНФОРМАТИКА №3(25)-2013 г

53

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

циями из соответствующей тройки лекций из тренировочного множества.

Процесс обновления осуществляется следующим образом:

з (в*,к 0))=«[B*,k О))+, <Ру; Vij, Vij) B,,k (2),

к = = 1,2,3, где (7)

w((plj,<p2j;y/lj,y/2]) =

= 0,0005-

P(<P4',Vxj)P((P2jWlj) + ' + P(SPljW2j)Pi.(P2jWV)J

+ 0,01.

Метод, который мы использовали внутри каждой глобальной итерации (элементарный классификатор), описан в разделе 3.4.

После завершения всех 200 глобальных итераций мы отсортировали вектор z в порядке убывания, и индексы лекций, соответствующие десяти наибольшим значениям z, представим в качестве решения.

Таким образом, при использовании метода повторных выборок, представленного в этом разделе, был получен результат 0,58727. Этот результат был использован в качестве итогового результата.

Идея данной формулы проста: мы должны быть уверены, что каждая дополнительная лекция из тестовой тройки лекций близка по крайней мере к одной дополнительной лекции из тренировочной тройки.

После вычисления вектора s согласно (7) мы сортируем полученные результаты в порядке убывания, и индексы лекций, соответствующие десяти наибольшим значениям s, представимы в качестве решения.

При использовании данного метода был получен результат 0,4529.

3.8. Статистическое сравнение различных решений

Отметим, что любое решение представляет собой целочисленную матрицу NV х10, T = 10NV целочисленных индексов в целом. Путем сравнения двух матриц мы найдем число общих индексов (пересечение) в каждом ряду. Общее число пересечений даст нам значение числителя R, и требуемое расстояние будет представлено в виде отношения:

(8)

3.7. Метод случайных повторных выборок (финальная рекомендательная система)

Вычисление отдельного упорядоченного вектора s в данном разделе основано на 75% случайно выбранных выборках. В абсолютном большинстве всех 60274 тестовых образцов число положительных компонентов вектора s, определенных в (6), больше 100. Поэтому мы будем рассматривать только этот случай.

Таблица 1.

Различия между пятью решениями (в терминах дистанции (8)), представленными в разделах 3.1 - 3.7

N Метод/ Раздел Результат 1 2 3 4 5

1 3.1 0,49568 0 0,2605 0,2137 0,6394 0,6517

2 со со 0,33278 0,2605 0 0,5832 0,4269 0.4327

3 ■^г со 0,12677 0,2137 0,5832 0 0.1565 0.1664

4 со сл 0,58145 0,6394 0.4269 0.1565 0 0.91

5 г^~ со 0,58727 0,6517 0.4327 0.1664 0.91 0

Обозначим вектор вторичных рейтингов как z, представляющий собой множество нулей в начале всего процесса повторных выборок. Мы исследовали 200 случайных выборок (глобальные итерации). После каждой глобальной итерации только 100 лекций (компоненты вектора z) получили приращение в диапазоне от 1 до 100 голосов (чем больше, тем лучше).

3.9. Время вычисления

Для вычислений была использована многопроцессорная рабочая станция с операционной системой Linux 3.2 GHz 16 GB RAM. Вычисления были произведены на основе специально разработанного кода (алгоритма) в С. Для получения финального решения, описанного в разделе 3.6, потребовалось около 12 часов.

4. Заключительные замечания

Мы согласны с утверждением [9], что превосходство новых алгоритмов следует демонстрировать на независимых данных. В этом смысле важность соревнований по анализу данных является неоспоримой. Стремительно растущая популярность подобных соревнований свидетельствует о том, что они является одним из самых эффективных способов оценки различных моделей и систем.

В целом, мы удовлетворены нашими результатами, продемонстрированными в ходе соревнования PKDD2011. В качестве одного из направлений для дальнейшего развития было бы интересно найти эффективный способ построения неоднородных ансамблей. Например, при использовании методов отдельных лекций со взвешенными коэффициентами (см. раздел 3.6) и двоек лекций (см. раздел 3.1) результаты имеют значительные расхождения. Тем

54

БИЗНЕС-ИНФОРМАТИКА №3(25)-2013 г

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

не менее, оба результата являются достаточно хорошими и заслуживают внимание с тем, чтобы найти, каким образом интерпретировать и использовать различия между исходными/базовыми решениями для построения решения более высокого уровня.

Кроме того, мы полагаем, что метод градиентной факторизации [10-11] вполне применим в этой задаче и может привести к принципиально новому высококачественному решению.

Отметим, что предложенный метод эмпирических вероятностей был мотивирован структурой данных Международного соревнования PKDD 2011 и имеет тесную связь с популярным методом ассоциативных правил, который нашел широкое применение в ряде областей, см. [12 - 14]. В качестве альтернативного примера и иллюстрации применения метода эмпи-

рических вероятностей мы можем рассмотреть задачу определения влияния принятия лекарств на последующие состояния пациентов [15]. Путем сравнения реальных событий (интенсивность которых измеряется путем метода эмпирических вероятностей) и аналитически ожидаемых событий мы можем выявить интересные закономерности и явления. Этой задаче было посвящено Международное соревнование по анализу данных, организованное американской компанией OMOP (Observational Medical Outcomes Partnership). Кубок OMOP 20103 включал две секции, где описание метода победителя в первой секции опубликовано в статье [16]. Наш метод был официально признан лучшим в секции №2.

Авторы благодарны анонимному рецензенту за ряд полезных замечаний. ■

Литература

1. Дьяконов А.Г. Алгоритмы для рекомендательной системы: технология LENKOR // Бизнес-Информатика. - 2012. - Т. 1, № 19. - С. 32-39.

2. Nikulin V. OpenStudy: recommendations of the following ten lectures after viewing a set of three given lectures // ECML/PKDD workshop and conference proceedings, discovery challenge. Editors: Tomislav Smuc, Nino Antu-lov-Fantulin, Mikolaj Morzy. — Athens, Greece, 2011. — С. 59-70.

3. Ram A., Ai H., Ram P., Sahay S. Open social learning communities // In International conference on web intelligence, mining and semantics. — Sogndal, Norway, 2011.

4. Takacs G., Pilaszy I., Nemeth B., Tikk D. Scalable collaborative filtering approaches for large recommender systems // Journal of machine learning research. — 2009. - No. 10. — P. 623-656.

5. Agrawal R., Srikant R. Fast algorithms for mining association rules // Proceedings of 20th Int. conf. very large data bases. 1994. — 32 p.

6. Mobasher B., Dai H., Luo T., Nakagawa M. Using sequential and non-sequential patterns in predictive web usage mining tasks // ICDM. — 2002.

7. Ефимов Д.А., Никулин В.Н. Предсказание биологического состояния молекул исходя из их химических свойств // Advanced Science, Вятский Государственный Университет. — 2013. — Т. 2, № 2. — С. 107-123.

8. Breiman L. Random Forests // Machine Learning. — 2001. — Vol. 45, No.1. — P. 5-32.

9. Jelizarow M., Guillemot V., Tenenhaus A., Strimmer K., Boulesteix A.-L. Over-optimism in bioinformatics: an illustration // Bioinformatics. — 2010. — T. 26, № 16. С. 1990-1998.

10. Nikulin V., Huang T.-H., Ng S.-K., Rathnayake S., McLachlan G. A very fast algorithm for matrix factorization // Statistics and probability letters. — 2011. — Vol. 81. — P. 773-782.

11. Rendle S. Factorization machines with libFM // ACM Transactions on Intelligent Systems and Technology (TIST). — 2012. — Vol. 3, No. 3. — P. 22.

12. Papender K., Deepak D., Nidhi P. Diagnosis of tuberculosis using association rule method // Journal of Information and Operations Management. — 2012. — Vol. 3, No. 1. — P. 133-135.

13. Martinez-Ballesteros M., Troncoso A., Martinez Alvarez F., Riquelme J. Mining quantitative association rules based on evolutionary computation and its application to atmospheric pollution // Integrated Computer-Aided Engineering. — 2010. — Vol. 17. — P. 227-242.

14. Gautam P., Pardasani K. Efficient method for multiple-level association rules in large databases // Journal of Emerging Trends in Computing and Information Sciences. — 2011. — Vol. 2, No. 12. — P. 722-732.

15. Noren G., Hopstadius J., Bate A., Star K., Edwards I. Temporal pattern discovery in longitudinal electronic patient records // Data Mining and Knowledge Discovery. — 2009.

16.Schuemie M. Methods for drug safety signal detection in longitudinal observational databases: LGPS and LEOPARD // Pharmacoepidmiology and Drug Safety. — 2010.

3 http://omop.fnih.org/omopcup

БИЗНЕС-ИНФОРМАТИКА №3(25)-2013 г

55

i Надоели баннеры? Вы всегда можете отключить рекламу.