ПОВЫШЕНИЕ КАЧЕСТВА ИНФОРМАЦИОННОГО ПОИСКА ЗА СЧЕТ СОВЕРШЕНСТВОВАНИЯ РАНЖИРОВАНИЯ И ИСПОЛЬЗОВАНИЯ ОСОБЕННОСТЕЙ ПОВЕДЕНИЯ
ПОЛЬЗОВАТЕЛЕЙ
Брицов Роман Алексеевич,
Российский университет дружбы народов, инженерный факультет, кафедра Инженерного бизнеса и управления предприятием, аспирант, Москва, Россия, [email protected]
Ключевые слова: рейтинговая система, рейтингование, ранжирование информации, система управления базами данных.
Рассмотрены проблемы обработки информации, в частности, организации процедуры ранжирования с учетом поведенческого фактора пользователей. Изучение современных научных публикаций по вопросам, связанным с информационными технологиями, свидетельствует, что ключевой проблемой в данной сфере является необходимость организации высокоэффективного информационного поиска и ранжирования информации (Information Retrieval). Эти действия сопряжены с разработкой механизмов поиска данных в объемных информационных массивах, с обнаружением закономерностей для их структурирования, с построением алгоритмов ранжирования.
Предметом настоящей статьи является процедура ранжирования информационных данных с учетом поведенческого фактора пользователей. Ее цель заключается в анализе и совершенствовании теории компьютерных сетей посредством модернизации технологий ранжирования. В процессе исследования были получены следующие результаты, имеющие научную новизну:
- модернизирован математический аппарат, предназначенный для ранжирования информационных данных с учетом предпочтений пользователей, имеющих схожие интересы;
- усовершенствованы процедуры поиска информационных данных в Интернете.
В процессе выполнения работы применялись элементы теории многокритериальной оптимизации, линейного математического программирования, дискретного программирования, теории вероятностей, комбинаторики.
Практическая ценность данной работы заключается в создании технологий, нацеленных на:
- разработку алгоритмов для обеспечения эффективного ранжирования;
- наращивание эффективности применения web-ресурсов в качестве рыночных инструментов;
- уменьшение издержек на конкурентную разведку у компаний, пользующихся Интернетом;
- улучшение качественных параметров поисковых процедур, за счет учета пользовательских предпочтений;
- повышение скорости информационного поиска с учетом пользовательского поведения;
- содействие поиску эффективных площадок для конкурентной разведки и рыночного продвижения;
- снижение трудоемкости поисковых операций и обработки первичных данных.
Для цитирования:
Брицов Р.А. Повышение качества информационного поиска за счет совершенствования ранжирования и использования особенностей поведения пользователей // T-Comm: Телекоммуникации и транспорт. - 2016. - Том 10. - №2. - С. 63-66.
For citation:
Britsov R.A. Improvement of quality of the information search based on ranking rationalization and users' behavioristic characteristics. T-Comm. 2016. Vol. 10. No.2, рр. 63-66. (in Russian)
Современная глобальная сеть отличается повышенной информационная насыщенностью, что делает инструменты, отвечающие за обеспечение автоматизированного и качественного поиска информации, наиболее важными и незаменимыми. Разумеется, данный довод в большей мере касается крупных дата-центров, предназначенных для решения проблем информационного поиска и ранжирования информации на глобальных уровнях. Стремительное развитие Всемирной паутины, сопряженное с увеличением количества пользователей, нуждающихся в получении наиболее релевантной информации и постоянно растущими массивами данных, привело к тому, что поисковые задачи стали рассматриваться экспертами в качестве самостоятельной проблемной области. Можно даже сказать, что автоматизированный поиск информации - это основа информационного развития.
Информация, содержащаяся в хранилищах Интернета, имеет ценность только тогда, когда является легкодоступной для целевого пользователя и может интерпретироваться как форма знаний. Кроме того, качественная информация должна отвечать следующему ряду требований (табл. I).
Таблица I
Принципиальные требования Особенности реализации принципов
Полнота информации Формирование исследовательских планов, уточнение сути явлений, их места в иерархической структуре
Актуальность информационных данных Обеспечение представления достоверных данных в определенный момент времени
Цельность информационных данных Обеспечение соответствия информационных сведений ключевой цели исследования
Достоверность информационных данных Соответствие информационных данных научным принципам сбора, обработки и интерпретации
Информационное единство данных Подчинение процессов сбора, обработки и интерпретации данных к единым правилам с целью выделения единого информационного пространства
Релевантность информационных данных Получение сведений согласно заданному запросу
Полезность информационных данных Получение информационных данных согласно культурным, образовательным, социальным, научным, рабочим и т.д. принципам
Поиск информации, отвечающей всему комплексу перечисленных требований, в настоящее время отличается высокой трудоемкостью, кроме того, он не всегда эффективен. Вместе С тем, формирование хранилищ информационных данных, которые характеризуются крупными габаритами, общедоступностью, постоянным обновлением,
неоднородностью структуры, обусловило необходимость решения комплекса задач:
- совершенствования машин для поиска данных и навигации в Интернете (Google, Yandex, Yahoo, Bing, Rambler, Mail);
- разработки механизмов для быстрого и качественного поиска данных;
- выявления взаимосвязей между отдельными единицами информации.
Научные исследования в области обработки информации, и, в частности, в сфере организации процедуры ранжирования, по мнению многих авторов [3, 6, 8], способны обеспечить совершенствование компьютерных сетей и, как следствие, повышение эффективности информационного поиска и рейтингования. Возрастающий интерес к этой проблемной области определен тотальной информационной глобализацией.
Если отсутствует эффективное ранжирование информации, то утрачивается смысл результатов поиска, поскольку они могут содержать в таком случае тысячи неупорядоченных позиций. В настоящее время в качестве признаков, оказывающих воздействие на результаты рейтингования, следует выделить: статистическую величину, которая характеризует частоту отдельных ключевых слов (фраз), а также элементы, отражающие историю и географию запросов, ссылочную структуру сети Интернет, особенности пользовательского поведения.
Внедрение средств контентной аналитики и разработка эффективных алгоритмов, позволяющих точно и высококачественно ранжировать информацию различной направленности, сдерживаются, ввиду несоответствия теоретической проработки этой проблемы стремительно изменяющимся поисковым пользовательским потребностям, а также вследствие весьма низкого уровня применения математических механизмов. Ввиду наличия огромных объемов неупорядоченной информации в сети Интернет, ранжирование следует признать актуальной проблемой, очень трудоемкой в реализации.
Традиционно применяемые в области информационного поиска показатели, отражающие его полноту и достоверность (например, отношение количества релевантных данных в поисковых результатах к количеству релевантных (найденных) данных), субъективны. Это объясняется тем, что общее понятие «релевантность» нельзя признать строгим: степень релевантности определяется в соответствии с субъективной экспертной оценкой.
По этой причине качественное рейтингование требует поиска объективных количественных оценок эффективности применяемых методов информационного поиска и ранжирования. Данный подход соответствует общему тренду коммерциализации сети Интернет, проявляющемуся в исследованиях рынков, конкурентной разведке, сборе сведений о потребительских предпочтениях, распространении технической и маркетинговой информации.
При таких обстоятельствах сложно переоценить значение специального инструмента, который бы, помимо сохранения характеристик полноты и достоверности поисковой технологии, гарантировал учет опыта определенно-
Комплекс принципиальных требований к высококачественному информационному обеспечению
го множества пользователей, имеющих интересы, схожие С интересами искателя. Наличие подобного инструмента позволило бы обеспечить качественное рейтингование информации, нарастить эффективность применения web-ресурсов в технологических и бизнес-процессах, уменьшить издержки компаний, пользующихся Интернетом, для целей конкурентной разведки.
Описание имеющейся проблемы. В популярных поисковых системах решение задачи учета опыта пользователей осуществляется посредством алгоритмов типа PageRank - метода определения веса web-страницы при помощи установления важности ссылок на нее. Однако использование данного алгоритма лишь в небольшой мере улучшает качество поисковых операций в сравнении с применением общепринятых критериев релевантности. Обозначим недостатки алгоритма типа PageRank:
- при осуществлении информационного поиска люди со схожими интересами, как правило, просто открывают документацию, имеющую высокий уровень «обычной» релевантности {выдаваемую в начальной части поисковых результатов), что не позволяет учесть наличие специального опыта;
- алгоритм PageRank отличается усреднением оценки соответствия поисковых итогов запросам;
- при запросе уникальных данных алгоритм PageRank снижает качественные показатели поисковых операций;
- имеет место вывод новых документов, не представленных значительным количеством гиперссылок, из зоны внимания искателей.
Ввиду наличия недостатков у существующих рейтинговых систем в части учета предпочтений пользователей со схожими интересами, требуется обеспечить их модернизацию.
Постановка рабочей задачи. Для целей исследования обозначим пользователей с интересами, схожими с интересами искателя и задающими в качестве поисковых запросов аналогичные ключевые фразы, термином «партнеры». Схожесть поисковых запросов «партнеров» позволяет предположить тождественность их культурных, образовательных, социальных, научных, рабочих и т.д. потенциалов с потенциалом искателя,
В настоящее время практическая реализация такого проекта, как рейтинговая система с учетом предпочтений «партнеров», не отличается эффективностью. По мнению ряда авторов [I, 7], причины подобного положения дел состоят;
- в наличии огромного количества источников информации в сети Интернет {объемы данных, применяемых в аналитической деятельности, достигают сотен терабайт);
- в предельной динамичности массива информации;
- в отсутствии профессиональных навыков информационных поисков у большинства пользователей;
- в отсутствии действенного инструмента, способного обеспечить учет предпочтений «партнеров» в процессе поиска информации.
Решение поставленной задачи. Качество математического инструмента, предназначенного для ранжирования информации с учетом предпочтений «партнеров»,
можно значительно улучшить за счет применения следующего наблюдения: все пользователи поисковых систем, обнаружив документацию, соответствующую их требованиям, прекращают поисковую операцию.
Как известно, предпочтения «партнеров» могут быть оценены посредством определения вероятности того, что по фразам из запроса конкретного искателя, его «партнеры» выбирают необходимую им информацию. Для установления величины этой вероятности осуществляется сбор статистики обращений к информационным сведениям. Ссылки на эти сведения присутствуют в итогах поиска. Просмотрев определенный объем информации, как правило, пользователи возвращаются к ссылкам на наиболее релевантные документы. Небольшая часть пользователей, при этом, оставляет открытыми окна с просмотренными документами. Данное наблюдение обуславливает возможность следующей коррекции.
Определение оценки релевантности «О» выполняется с учетом позиции открываемой пользователем документации в период поисковой операции {усреднение «У»), низкочастотной фильтрации (усреднение «Ф»), а также степени релевантности (в форме усреднения в течение временного периода «В», равного количеству периодов, в которых набирается число сессий «С»). При этом уменьшается степень зависимости релевантности от поведенческих особенностей пользователей.
Таким образом, коррекция выглядит следующим образом:
О = нд / (Нт*В) 2 (1 / С) 2 (Мдс /Мс), (1)
где н - число обращений к документации «д»; Д - общий объем документации, содержащий термин «т»; Т - общий объем терминов; Нт- общее число обращений к документации с запросами, включающими термин «т»; М, - число единиц документации, открытых в период сессии «с»; мД[ - позиция открытого документа «д» с начала поисковой операции «с».
На рисунке ) изображена иерархия элементов, составляющих разработанный критерий релевантности.
Степень релевантность '0}
Статистика преходов
Очередность обращения
Усреднение [У]
^ Усреднение (Ф]
Рис. I. Иерархия элементов, составляющих критерий релевантности, который учить тает статистику переходов и пользовательское поведение
Предлагаемое решение, подлежащее применению на практике, обеспечивает;
- сглаживание недостатков традиционных методов, снижающих эффективность ранжирования информации;
- отображение с высокой степенью достоверности предпочтений «партнеров», как среди результатов выдачи, так и среди подмножеств просмотренных «партнерами» документов;
- улучшение качественных показателей поисковых операций в сети Интернет, за счет усиления их индивидуализации (настраивания на пользовательские предпочтения);
- формирование серьезного базиса для повышения точности и оперативности информационного поиска с учетом статистики переходов и пользовательского поведения;
- содействие поиску эффективных площадок для конкурентной разведки и рыночного продвижения;
- снижение трудоемкости поисковых операций и, как следствие, сокращение расходов организаций, пользующихся Интернетом;
- рост эффективности использования web-pecypcoв как рыночных инструментов.
В данном исследовании был модернизирован инструмент, предназначенный для ранжирования информации с учетом предпочтений «партнеров», выявлены преимущества усовершенствованного инструмента.
В результате проведенной работы был сделан вывод о возможности его использования на практике для построения эффективной системы управления базами данных.
Литература
1. Адамович И.М., Заикин М.Ю., Земское Д.В., Пешкое А.Н. Поиск информации в WEB. Сравнительная оценка поисковых машин. Системы и средства информатики. 2003, |\МЗ.
2. Валдин К.В., Уткин В,Б. Информационные системы в экономике: Учебник, - М,: Дашков и Ко, 2008. - 395 с.
3. Браславский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов //Труды РОМИП-2005. СПб., 2005, С. 40-53.
4. Брицое P.A. Ранжирование информации на основе оценок и поведения пользователей // T-Comm: Телекоммуникации и транспорт. - 2016. - Том 10. - N=1. - С. 62-66.
5. Зсикин ДА. Построение словарей терминов для предметных областей II Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2009. - Казань: Отечество, 2010. -С. 71-76.
6. Зорине Т.Ю., Чернышева Т.Ю. Проблемы, возникающие при выборе информационных систем и методы их решения /I Математика в естественнонаучных исследованиях: сборник трудов Всероссийской научно-практической конференции молодых ученых, аспирантов и студентов, Юрта, 9-10 Октября 2014. - Томск: ТПУ, 2014.-С. 224-227.
7. Касумов Б .А. Методы информационного поиска в Internet на основе нечётких отношений предпочтений. Автоматика и вычислительная техника. 2003, №4. с. 71-78
8. GantzJ and Reinsei, R 2013. The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East', IDC Country Brief.
IMPROVEMENT OF QUALITY OF THE INFORMATION SEARCH BASED ON RANKING RATIONALIZATION AND USERS' BEHAVIORISTIC CHARACTERISTICS
Roman Britsov,
aspirant, Department of Department of Engineering Business and Enterprise Management, Engineering faculty, People's Friendship University of Russia, Moscow, Russia, [email protected]
Abstract. The article considers the problem of information processing, in particular, the organization of ranking procedure based on behavioral factor of users. The study of modern scientific publications on issues related to information technology indicates that the key problem in this area is the need to organize a highly efficient information retrieval and ranking of information. These actions are associated with the development of data retrieval mechanisms in the volume of information arrays with the discovery of regularities for their structuring and with the construction of the ranking algorithms. The subject of this article is a ranking information procedure based on the behavioral factor of users. Its purpose is to analyze and improve the theory of computer networks by upgrading the ranking technologies. The study has the following results having scientific novelty: upgraded mathematical tool designed to rank information data based on users' preferences with similar interests; improved data retrieval procedures on the Internet.
During the research, we applied the elements of multi-criteria optimization theory, linear mathematical programming, discrete programming, probability theory, and combinatorics. The practical value of this work is to create technologies aimed at: development of algorithms for the effective ranking; enhancing the efficiency of web-resources as market-based instruments; reduction in costs for competitive intelligence of companies that use the Internet; improving the quality parameters of the search procedures by taking into account the user preferences; increasing the speed of information retrieval based on user behavior; facilitating the search for effective platforms for competitive intelligence and market promotion; decreasing the complexity of search operations and processing of primary data.
Keywords: rating system, data ranking, data management, database management system. References
1. Adamovich I.M., Zaikin M.Y., Zemskov D.V., Peshkov A.N. "Web Search", Search Engines Comparative Evaluation. Systems and Means of Informatics, 2003, № 13. (in Russian)
2. Baldin K.V., Utkin V.B. "Economics & Information Systems. Manual", Moscow: Dashkov & Co., 2008, 395 p. (in Russian)
3. Britsov R.A. Ranking Data Based on Users' Marks and Behavior. T-Comm. 2016. Vol 10. No.1, pp. 62-66. (in Russian)
4. Braslavski P., Kolychev I. eXtragon: Experimental System for Machine Abstracting of Web Documents //Writing of R0MIP-2005. SPb., 2005. pp. 40-53. (in Russian)
5. Zaikin D.Y. "Building Dictionary of Terms for the Given Domain", Writing of Kazan School of Computer and Cognitive Linguistics TEL-2009, Kazan: Otechestvo, 2010, pp. 71-76. (in Russian)
6. Solution", Mathematic in Natural Sciences Research: The All-Russian Scientific-Practical Conference of Young Scientists, Candidates and Students, Yurga, Tomsk: TPU, 2014, pp. 224-227. (in Russian)
7. Kasumov V.A., Internet Search Methods based on Fuzzy Preference Relations. Automatics and Computers, 2003, №4, pp. 71-78. (in Russian)
8. Gantz, J and Reinsel, R 2013. 'The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East', IDC Country Brief.