Problems of management of banking activities and the allocation of resources of the bank based on the concepts of the theory of fuzzy sets. Analysis of the risk of bankruptcy, implemented in this paper, we apply not only to the problems of the distribution of the resource base of commercial banks, but also to the analysis of a single company. The presented approach allows us to analyze the risk of bankruptcy, tuning not only the country, the time period, the industry, but also for the company itself, its economic and management specifics. It is proposed a kind of designer that can be used by any expert on your own.
Key words: the risk of bankruptcy, fuzzy subset, the degree of risk, linguistic variables
Logvinova Anna Leonidovna, magistrand, alleonidovna91@mail. ru, Russia, Tula, Tula State University,
Larin Nikolay Vladimirovich, candidate of physical and mathematical science, docent, alleonidovna91@mail. ru, Russia, Tula, Tula State University
УДК 004.738.52
ПОВЕДЕНЧЕСКИЕ МЕТРИКИ ПРИ ОПРЕДЕЛЕНИИ ПЕРВИЧНОГО ДОКУМЕНТА
Н.В. Неелова
Выделены поведенческие метрики сайта, отражающие юзабилити сайта. Выведена формула юзабилити на основе поведенческих метрик с помощью множественной регрессии. Проведены аналитические и экспериментальные проверки, показывающие важность данного параметра в общей формуле определения первичного документа.
Ключевые слова: первичный документ, множественная регрессия, юзабилити, экспертные оценки, система рангов, поведенческие метрики сайта.
В официальных ответах представители поисковых систем заявляли, что поисковые машины не рецензенты и не будут бороться с проблемой воровства контента в сети. Алгоритмы определения оригинала для каждой поисковой системы является закрытой информацией. Однако логически можно выделить следующие факторы, влияющие на определения первичного документа в кластере web-дублей:
- дата создания документа
- релевантность документа запросу
- «доверие к ресурсу» (например, позиция в Каталоге Яндекса, либо высокая посещаемость, либо сайты с высоким показателем Тг^Яапк, либо все перечисленное)
- перелинковка между дубликатами (например, если все дубликаты ссылаются на один и тот же документ - он и есть первоисточник)
169
Однако все перечисленные способы определения первичного документа неэффективны. Предполагается, что введение агрегирующей общей функции, учитывающей различные аспекты выявления первичного документа, с различными коэффициентами значимости каждого параметра позволит повысить эффективность определения первичного документа, тем самым улучшить качество поисковой выдачи [2].
Среди параметров оценки ценности ресурса для определения первичного документа (документ, который в кластере схожих, будет считаться приоритетным при ответе на запрос пользователя поисковой системой) можно выделить и определить формулу расчета показателя юзабилити (удобство использования сайта), основанную на поведенческих метриках.
Поведенческие метрики
В качестве оценки удобства использования ресурса Л1 (Д е Л- ) можно предложить использовать поведенческие показатели:
- среднюю посещаемость сайта Ол и страницы Од ,
- среднее время пребывания посетителя на сайте Тл и на странице ТД, _
- средний показатель отказа сайта Рд ,
- возраст страницы Ра.
Для оценки удобства использования ресурса используется функция:
1п (Ра, Ол , Од Тл Тд , Рд ) ^ и(Л-, д ). (1)
Показатель юзабилити будет лежать на промежутке [0;1]. Наиболее удобный сайт соответствует 1, менее популярный - 0.
Расчет влияния поведенческих факторов
Для исследования показателя популярности ресурса было выбрано 6 возможных влияющих факторов: возраст рассматриваемой страницы, средняя посещаемость рассматриваемой страницы, среднее время на рассматриваемой странице, средняя посещаемость всего сайта, среднее время нахождения на всем сайте, показатель отказа сайта. Возраст страницы измерялся в месяцах, посещаемость - в сотнях посетителей, время рассматривается в минутах, а показатель отказов в долях на промежутке [0;1] в целях достижения большей однородности данных.
Для построения модели, охватывающей всевозможные варианты сочетаний выбранных показателей, были искусственно подобраны данные и составлена на основе экспертных мнений оценочная система. Оценочная шкала, составляет промежуток от 0 до 100 единиц. Чем больше значение, тем выше показатель популярности ресурса.
Исходя из сути рассматриваемых факторов, х; (1=1...6) находятся в линейной зависимости (прямой или обратной связи) с у, поэтому для построения уравнения множественной регрессии была использована линей-
ная функция:
У = До + Дх1 + ••• + Дрхр +е • (2)
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК), позволяющий получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических ух минимальна:
X (у - ух )2 ® тт • (3)
Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов•
Оценку статистической значимости параметров регрессии проведем с помощью /-статистики Стьюдента [1] и путем расчета доверительного интервала каждого из показателей • Для этого выдвигается гипотеза Н0 о случайной природе показателей, то есть о незначимом их отличии от нуля (Н0: Д =0, I = 1,6 )• Полученные для каждого коэффициента ^-значения говорят о том, что вероятность данной гипотезы равна нулю, т^ все коэффициенты значимы • О чем также свидетельствуют доверительные интервалы для каждого коэффициента (нижняя часть табл^ !)•
Таблица 1
Результаты регрессионного анализа______________________
Регрессионная статистика
Множественный Я 0,868356
Я-квадрат 0,754041
Нормированный Я-квадрат 0,753159
Стандартная ошибка 12,76691
Наблюдения 1680
Дисперсионный анализ
55 МБ Г Значимость Г
Регрессия 6 835989,8 139331,6 854,8265 0
Остаток 1673 272689,1 162,9941
Итого 1679 1108679
Коэффициенты Стандартная ошибка ґ-статистика Р-Значение Нижние 95% Верхние 95%
У 15,74703 0,894742 17,59951 9,61Е-64 13,9921 17,50196
1 2,57994 0,069265 37,24713 1,2Е-221 2,444084 2,715796
2 0,802596 0,102217 7,851916 7,26Е-15 0,60211 1,003082
3 1,310805 0,183594 7,139689 1,39Е-12 0,950706 1,670903
4 0,157581 0,074077 2,12725 0,033545 0,012287 0,302875
5 3,886792 0,177135 21,94257 5,35Е-94 3,539363 4,234221
6 -46,3598 0,844621 -54,8883 0 -48,0165 -44,7032
Уравнение множественной регрессии, с учетом введенных обозначений (1), примет вид:
fu Fi, GAi, GDj , TAl, TDl, FDj ) = 15.747 + 2.58 Fm + 0.803
GDl +1.311 Tdi + 0.158 Gai + 3.887 TÆ-46.36 Fdí , ()
где Fai - возраст рассматриваемой страницы; Gdi - средняя посещаемость рассматриваемой страницы; Tdi - среднее время на рассматриваемой странице; Gai - средняя посещаемость всего сайта; Tai - среднее время нахождения на всем сайте; Fdi - показатель отказа сайта.
Анализ полученной формулы
Анализируя уравнение (4) можно сказать, что вклад первых 5 рассматриваемых факторов Xi (2) в значение результативного признака y будет положительным, поскольку b1, b2, b3, b4, b5 > 0, изменение оценки популярности сайта происходит обратно пропорционально изменению показателя отказа сайта.
Теснота совместного влияния факторов на результат оценивалась с помощью коэффициента множественной корреляции. Значение индекса множественной корреляции лежит в пределах от 0 до 1 и равно, согласно таблице 1: Ry » 0,868, что говорит о весьма сильной связи факторов и результата - совместное влияние всех факторов на y велико. В зависимости y от x¡, x2 ... x6 87% вариации популярности ресурса определяются вариацией учтенных в модели факторов: возраст рассматриваемой страницы, средняя посещаемость рассматриваемой страницы, среднее время на рассматриваемой странице, средняя посещаемость всего сайта, среднее время нахождения на всем сайте, показатель отказа сайта. Прочие факторы, не включенные в модель, например: возраст сайта, отказ страницы, разницу просмотров и посетителей, количество страниц на сайте - составляют соответственно 13% от общей вариации y.
Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если rxx > 0.7. В рассматриваемой
модели коэффициенты парной корреляции между объясняющими переменными xl и xj (l = 1...6 j = 1...6) не превосходят указанную границу и показывают, что данные факторы не находятся между собой в явной линейной зависимости, сильной взаимосвязи факторов нет (табл. 2).
Опираясь на логические соображения параметр «среднее время на странице» косвенно влияет на показатель время на сайте, также если число страниц не большое, количество посетителей на сайте косвенно влияет на количество посетителей на странице. Это доказывают соответствующие коэффициенты парной корреляции Rx3x5 » 0,18 и Rx2x4 » 0,43, являющиеся наибольшими значениями во всей таблице 2.
Таблица 2
Коэффициенты парной корреляции
х1 х2 х3 х4 х5 х6 У
х1 1
х2 -2,9Е-17 1
х3 2,96Е-17 -0,06931 1
х4 1,92Е-17 0,429602 0,000169 1
х5 -1,1Е-16 0,067386 0,175945 0,000266 1
х6 4,05Е-17 1,25Е-16 1,05Е-16 1,69Е-17 6,6Е-16 1
У 0,451623 0,130622 0,128704 0,074298 0,294064 -0,66552 1
В то же время эти факторы не могут находиться в точной функциональной связи, что подтверждают расчеты линейной зависимости. В рассматриваемой модели коэффициенты парной корреляции между рассматриваемыми парами переменных х3, х5 и х2, х4 (соответственно
Ях3Х5 » 0,18 < 0,7 и ЯХ2Х4 » 0,43 < 0,7) не превосходят указанную границу
и показывают, что данные факторы явно не находятся между собой в линейной зависимости, сильной взаимосвязи факторов нет.
Качество построенной модели в целом оценивает коэффициент множественной детерминации, равный 0,754. Найденное значение показывает, что регрессионная модель качественная: в нее включены существенные факторы, а рассматриваемая форма связи отражает реальные соотношения между переменными, включенными в модель. Стоит отметить, что оценочная система недействующая, а выведенная и учтенные данные охватывают не весь возможный диапазон из-за сложности получения реальных данных из аналитических систем сайтов. Это могло повлиять на качество построенной модели.
Значение скорректированного коэффициента детерминации равен
0,753. Значение коэффициента множественной детерминации несильно отличается от скорректированного коэффициента детерминации, поэтому можно предположить, что подобрано оптимальное количество факторов, в связи с чем, добавление новой переменной нецелесообразно.
Статистическая надежность построенного уравнения регрессии оценивалась с помощью ^ - критерия Фишера. ^-тест состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи (Н0:Я =0). Вывод о необходимости отклонить гипотезу Н0 делаем, исходя из выводимой практически нулевой вероятности ошибки отклонения данной гипотезы. С 95%-ой вероятностью признается статистическая надежность и значимость уравнения в целом и показателя тесноты связи Я , которые сформировались под неслучайным воздействием факторов х,.
Г рафический интерфейс модуля «Первичный документ»
Для проведения экспериментальной проверки полученной формулы был разработан программный модуль «Первичный документ». Данный модуль представлен рабочей областью, разбитой на несколько частей (рис.1): область ввода или загрузки общего текста, загрузка и отображение данных по всем рассматриваемым ресурсам, область работы с коэффициентами для расчета вероятности авторства, область вывода результатов.
Загрузка анализируемого текста происходит либо путем указания файла, либо копированием через буфер обмена. Данные по каждому ресурсу загружаются через указания соответствующей базы. В качестве информации о ресурсе выступает:
- папка, где располагаются другие тексты данного ресурса
- ссылочный вес ресурса
- метка чистоты и метка порядочности
- показатели посещаемости: количество посетителей сайта и страницы, среднее время пребывания на сайте и на странице, показатель отказа сайта
- возраст страницы с анализируемым текстом.
Рис.1. Общий вид интерфейса модуля «Первичный документ»
В данном исследовании наиболее интересны данные: показатели посещаемости: количество посетителей сайта и страницы, среднее время пребывания на сайте и на странице, показатель отказа сайта.
Коэффициенты, которые используются для расчета в общей формуле определения первичного документа можно указать вручную или использовать те значения, которые были определены в ходе экспериментов [2, 3]. Ввод осуществляется после выбора ручного режима определения коэффициентов с помощью переключателя.
174
Расчет результата осуществляется после нажатия на кнопку «Расчет». Для визуального отслеживания процесса расчета предусмотрен стандартный индикатор. Окно вывода результата представляет собой табличный блок, в котором отображаются основные расчетные данные. Для вывода дополнительной информации можно с помощью установки или снятия галочки выбрать дополнительные колонки, которые отобразятся в итоговой таблице. Предусмотрена возможность выгрузки полученных результатов в хІб файл.
Экспериментальная проверка
Процедура проведения эксперимента по определению влияния поведенческих метрик на определение авторства включает в себя следующие шаги:
1. Загрузить файл с анализируемым текстом.
2. Загрузить данные по каждому из анализируемых ресурсов
3. Задать коэффициенты для расчета общей формулы авторства, полученные в [2-3]
4. Просмотреть результаты, в том числе:
- изучение полученных результатов;
- сравнение полученных данных с реальными результатами тестовой группы;
- сделать вывод о влиянии показателя юзабилити на определение
авторства.
В качестве тестовой коллекции было подготовлено 10 групп по 15 текстов, в каждой из которых был свой уникальный контент, но каждый текст в группе обладал соответствующими параметрами:
1. Тексты с других страниц с того же сайта, что и рассматриваемый текст, все остальные показатели средние
2. Тексты с другого сайта такой же тематике, все остальные показатели средние
3. Тексты с другого сайта другой тематики, все остальные показатели средние
4. Тексты с других страниц с того же сайта, что и рассматриваемый текст, показатели посещаемости высокие, возраст средний
5. Тексты с другого сайта такой же тематики, показатели посещаемости высокие, возраст средний
6. Тексты с другого сайта другой тематики, показатели посещаемости высокие, возраст средний
7. Тексты с других страниц с того же сайта, что и рассматриваемый текст, показатели посещаемости низкие, возраст средний
8. Тексты с другого сайта такой же тематики, показатели посещаемости низкие, возраст средний
9. Тексты с другого сайта другой тематики, показатели посещаемости низкие, возраст средний
10. Тексты с других страниц с того же сайта, что и рассматриваемый текст, показатели посещаемости средние, возраст большой
11. Тексты с другого сайта такой же тематике, показатели посещаемости средние, возраст большой
12. Тексты с другого сайта другой тематики, показатели посещаемости средние, возраст большой
13. Тексты с других страниц с того же сайта, что и рассматриваемый текст, показатели посещаемости средние, возраст маленький
14. Тексты с другого сайта такой же тематике, показатели посещаемости средние, возраст маленький
15. Тексты с другого сайта другой тематики, показатели посещаемости средние, возраст маленький
Таким образом, рассмотрение разработанной методики можно производить как на горизонтальном уровне (сравнение результатов различных текстов между собой), так и на вертикальном уровне (сравнение результатов внутри одной группы). Т.к. определить с вероятность 100% документ, который должен являться первичным нельзя, было предложено оценивать качество работы разработанного алгоритма путем сопоставления результатов ранжирования по формуле, выведенной в [2] и результатов ранжирования всех рассматриваемых текстов в каждой группе с помощью шкалы рангов, построенной по экспертным оценкам.
Результат экспертных оценок (таблица 2) показал, что можно выделить общую закономерность в определении наиболее вероятного источника текста в кластере дублей. С большей вероятностью тот документ является первичным, на котором не только тексты одного автора, но и хорошая юзабилити и возраст, имеет высокий ранг. Ранг между тематичностью и авторством немного размытый, что объясняется малыми объемами проверяемой информации на странице. Однако общая тенденция прослеживается. В качестве проверочной шкалы была выбрана шкала, представленная в соответствующей строке таблицы 3.
Полученная величина коэффициента конкордации [4] позволяет сделать вывод о том, что существует высокая согласованность в мнениях экспертов.
По результатам проверки разработанной формулы определения первичного документа были построены соответствующие ранги. По проценту совпадений рангов с выбранной шкалой делался вывод о качестве работы алгоритма. Результаты вычислений, рассчитанные для 10 групп текстов при разных порогах совпадения со шкалой представлен на рис. 2.
Оптимальный результат по количеству совпадений в 70% при среднем проценте совпадений со шкалой рангов 67,3% наблюдается при пороге 40%. Данный результат можно назвать приемлемым.
Таблица 3
Ранги классов текстов
Экспер- ты Тип 1 Тип 2 Тип 3 Тип 4 Тип 5 Тип 6 Тип 7 Тип 8 Тип 9 Тип 10 Тип 11 Тип 12 Тип 13 Тип 14 Тип 15
1 3 7 13 1 6 10 4 11 15 2 8 12 5 9 14
2 3 4 12 6 8 11 9 10 14 1 2 13 5 7 15
3 2 7 11 3 8 13 5 10 15 1 6 12 4 9 14
4 1 6 13 4 5 11 7 8 15 2 3 12 9 10 14
5 5 6 13 1 2 11 7 8 14 3 4 12 9 10 15
6 3 8 13 1 6 12 4 10 14 2 7 11 5 9 15
7 3 8 13 2 7 12 4 10 14 1 6 11 5 9 15
8 3 8 13 2 7 12 4 9 14 1 6 11 5 10 15
9 1 4 12 6 7 11 9 10 14 2 3 13 5 8 15
10 3 6 12 1 2 11 7 8 14 5 4 13 9 10 15
11 5 7 13 1 2 11 6 8 14 4 3 12 9 10 15
12 3 8 13 2 7 12 4 9 14 1 6 11 5 10 15
13 1 7 13 4 5 10 6 8 15 2 3 12 9 11 14
14 5 6 12 1 2 11 7 8 14 4 3 13 9 10 15
15 3 8 13 1 6 12 4 11 15 2 7 10 5 9 14
16 4 12 14 2 6 11 5 9 13 1 3 10 7 8 15
17 2 6 11 3 8 13 4 10 15 1 7 12 5 9 14
18 5 6 12 1 2 13 7 9 14 3 4 10 8 11 15
19 3 8 13 2 7 12 4 9 14 1 6 11 5 10 15
20 3 8 13 2 4 12 6 9 15 1 7 11 5 10 14
сумма рангов 61 140 252 46 107 231 113 184 286 40 98 232 128 189 293
коэффициент конкордации 0,903160714
Шкала рангов 3 8 13 2 5 11 6 9 14 1 4 2 7 10 15
1,2
О -I----------------------------------------------------------------------------------------
О 20 40 60 80 100
Порог
средний процент — - количество совпанений
Рис. 2. Качество поиска авторского текста при разных порогах
В этом результате влияние поведенческих метрик оказывает меньшее влияние на конечный результат, чем параметр тематичности, однако вклад этого параметра примерно равен вкладу параметра возраста и составляет 31%. Расчет был сделан на основе сумм рангов (средний параметр взят за 1, высокие и низкие показатели параметров - за 2, по модулю отклонения) и показан в таблице 4.
Таблица 4
Расчет влияния параметров авторства ________________
сумма рангов юзабилити тематичность возраст вклад юзабилити вклад тематичность вклад возраст
61 1 2 1 15,25 30,5 15,25
140 1 1 1 46,66667 46,66667 46,66667
252 1 2 1 63 126 63
46 2 2 1 18,4 18,4 9,2
107 2 1 1 53,5 26,75 26,75
231 2 2 1 92,4 92,4 46,2
113 2 2 1 45,2 45,2 22,6
184 2 1 1 92 46 46
286 2 2 1 114,4 114,4 57,2
40 1 2 2 8 16 16
98 1 1 2 24,5 24,5 49
232 1 2 2 46,4 92,8 92,8
128 1 2 2 25,6 51,2 51,2
189 1 1 2 47,25 47,25 94,5
293 1 2 2 58,6 117,2 117,2
Суммарный вклад 751,1667 895,2667 753,5667
Процент влияния 31% 37% 31%
Таким образом, в результате аналитических выкладок была получена общая формула юзабилити сайта по поведенческим метрикам, а также показан вклад данного параметра в выявление авторства в кластере дублей.
Список литературы
1. Колмогоров А.Н. Основные понятия теории вероятностей / Теория вероятностей и математическая статистика. 2-е изд. М.: Наука, 1974. 119 с.
2. Неелова Н.В. Модель определения авторитетной копии среди множества схожих web-документов // Научно-технические ведомости СПбГПУ. Раздел: Проблемы передачи и обработки информации. СПбГПУ, 2011. Вып.5. С. 13-17.
3. Неелова Н.В. Модель определения авторства среди web-дублей // XXXVII Гагаринские чтения. Научные труды Международной молодеж-
178
ной научной конференции в 8 томах. М.: МАТИ, 2011. Т.4. С. 20-21.
4. Справочник по прикладной статистике / под ред. Э. Ллойда, У. Ледермана. М.: Финансы и статистика, 1989. Т. 1. 512 с.
Неелова Наталия Валериевна, канд. техн. наук, руководитель отдела поискового продвижения, [email protected], Россия, Тула, ЗАО «Ингейт Девелопмент»
BEHA VIORAL METRICS FOR THE DETERMINA TION OF PRIMARY DOCUMENT
N. V. Neelova
Marked behavioral metrics site, reflecting the usability of the site. The formula of usability based on behavioral metrics using multiple regression. The analytical and experimental tests that show the importance of this parameter in the general formula for determining the original document.
Key words: primary document, multiple regression, usability expert valuations, the system of ranks, behavioral metrics site.
Neelova Natalia Valerievna, candidate of technical science, Head of search engine promotion, neelova.natalia@,gmail.com, Russia, Tula, JSC “Ingate Development”
УДК 621.391:519.72
АЛГОРИТМ ПОСТРОЕНИЯ САМООРТОГОНАЛЬНЫХ КОДОВ ДЛЯ МНОГОПОРОГОВЫХ ДЕКОДЕРОВ
Г.В. Овечкин, П.В. Овечкин, Н.Н. Гринченко, В.К. Столчнев
Разработан алгоритм построения самоортогональных кодов (СОК) для многопороговых декодеров (МПД), обеспечивающих лучшую корректирующую способность при большом уровне шума в канале, который позволяет за счет оптимизации веса информационных и проверочных ветвей получать коды с существенно меньшим проявлением эффекта размножения ошибок, и, соответственно, обеспечивать их близкое к оптимальному декодирование при более высоком уровне шума в канале связи.
Ключевые слова: передача данных, помехоустойчивое кодирование, самоорто-гональные коды, многопороговые декодеры, параллельное каскадирование.
В настоящее время для обмена информацией широко используются различные системы цифровой связи. Подобные системы используют для передачи данных как проводные, так и беспроводные каналы связи, в которых под действием различного рода помех передаваемая информация может исказиться. Это является недопустимым для многих приложений.