М. С. Бацанина
Информационный анализ лент деловых новостей
Аннотация: Раскрывается многообразие новостных лент как источника оперативной информации для разного типа организаций. Описаны возможности автоматизированной агрегации новостных сообщений. Приведены методика и результаты сравнительного анализа степени дублирования новостных текстов. Выявлялись различия в сообщениях об одном событии. Предложена технологическая схема анализа новостных сообщений. Даны рекомендации по подготовке обзоров, дайджестов новостей и аналитических справок на основе анализа новостных лент для руководителей.
Ключевые слова: анализ, новостные ленты, агрегация, степень дублирования, обзоры, дайджесты новостей, технологическая схема.
Дефицит времени руководителя предприятия предполагает тщательный отбор новостной информации, компактную форму ее передачи с выделением наиболее значимых для предприятия событий на профильном рынке, в законодательстве, новостях смежных и региональных рынков.
Объект исследования. Новостная лента - формат данных, используемый для доставки пользователям часто обновляемой информации. Лента состоит из некоторого ограниченного числа статей, а также из служебной информации, например, наименование поставщика ленты, адрес домашней странички. При появлении новых сообщений они добавляются в ленту, вытесняя при этом старые статьи. Обычно в ленте бывает не больше 10-20 статей.
Поиск актуальной для пользователя новостной информации был осложнен множеством закладок - списка сайтов, которые нужно посещать постоянно, чтобы не пропустить какую-либо важную информацию по интересующей теме. Несколько лет назад появилась технология, которая позволяет не только быстро отслеживать новости на нужных сайтах, но и получать их в максимально компактной форме. Речь идет о лентах новостей, которые достаточно быстро превратились в инструмент отслеживания наиболее важных событий. Пользователи могут воспользоваться множеством новостных лент в одном месте. Для этого существуют специальные программы - агрегаторы.
Возможности агрегации новостных сообщений. RSS (Really Simple Syndication) - это специализированный формат данных для новостных лент. Этот термин часто употребляют, когда имеется в виду веб-лента, однако не все веб-ленты синдицируются в этом формате. Таким образом, формат данных веб-ленты может отличаться от RSS, например, Atom или RDF. Главная особенность RSS ясна из названия - «простое получение информации» - при работе с лентами RSS можно просматривать только заголовки новостей и краткий анонс. Лишь выбрав сообщение, пользователь получить в окне браузера полный текст статьи. Важно отметить и возможность подписки на любой канал. На веб-страничке все новости даются единым куском, и нет никакой возможности выделить конкретный материал, а на RSS-ленте все иначе: каждая новость или публикация - это отдельный материал. Таким образом, из огромного множества лент различных порталов, подписываясь на релевантные за-
просу ленты, можно создать собственную новостную ленту, сочетающую все самые интересные факты.
RSS поддерживают не все сайты, а только «динамические ресурсы», то есть ресурсы с часто обновляемым содержимым. На блогах, в обозрениях и новостных порталах ссылка на RSS-канал присутствует обязательно. Однако на таких известных информационных порталах, предоставляющих, в том числе и деловую информацию, как РосБизнесКонсалтинг, Деловой Петербург, сайты информагентств: РИА Новости, ИТАР Тасс и т.д. RSS-лены становятся также незаменимым инструментом подбора новостей по интересным для пользователя темам.
В Сети можно найти и специальные сайты, которые могут не просто читать отдельные RSS-потоки, но и создавать комбинированные ленты новостей, объединяя на них информацию с разных ресурсов. Например, такой сервис запущен в 2005 г. на поисковом портале Яндекс (http://lenta.yandex.ru).
Еще такими же возможностями RSS-агрегатор Google Reader (http://www.igoogle.com). Google и Yandex разбирают новости по отдельным тематическим папкам, с каждой из которых можно работать по отдельности. Также эти системы ориентируются на местонахождение пользователя (которое при желании можно изменить вручную) и выдает в первую очередь новости, касающиеся страны пользователя и региона пользователя.
Стоит также отметить, что iGoogle предлагает отображать на странице зарегистрированного пользователя исключительно выбранные пользователем темы.
Работа с новостными лентами RSS с помощью браузеров во многом стандартизирована. При заходе на сайт, содержащий новостные ленты, в правой части адресной строки появляется оранжевый значок, щелчок по которому открывает список доступных новостных лент.
Дальнейшая же работа с RSS в различных браузерах имеет некоторые уникальные особенности. Mozilla Firefox поддерживает технологию livemarks, живых закладок, внутри которых отображаются заголовки новостей. Можно также выбрать внешнюю программу для работы с RSS или установить одно из нескольких специальных расширений, например, Sage. Opera позволяет читать RSS-новости, используя средства встроенного почтового клиента.
В настоящее время в Сети существуют также инструменты, которые помогают составить свою RSS-ленту, которая будет соответствовать запросам конкретного пользователя. Таким инструментом является RSS-каталог Kanban (http://www.kanban.ru), в копилке которого собрано уже более двух тысяч лент на любой вкус. Как и Яндекс. Лента, Kanban умеет не только собирать ссылки на RSS-ресурсы, но и составлять на их основе личный информационный дайджест. Для его создания нужно просто зарегистрироваться на сайте, а затем добавить в каталог нужные ленты. Дайджест можно начать с «чистого листа», а можно воспользоваться шаблонами из подборки Kanban.
Новостные ленты имеют существенные преимущества в сравнении с получением часто обновляемой информации по электронной почте - оперативность, конфиденциальность, краткость. Новостные ленты автоматически рассортированы. Подписчик не обязан посылать запрос на прекращение получение новостей. В этом случае достаточно убрать подписку из агрегатора.
Таким образом, новостные ленты - это машиночитаемый массив текстов новостных сообщений, предоставляемых потребителю в хронологическом порядке.
Новостная лента состоит из отдельных сообщений, которые, как правило, включают заголовок, дату и точное время публикации новости, краткую аннотацию новостного сообщения, а также прикрепленные медиа файлы. К основному тексту новостного сообщения можно перейти, кликнув по заголовку, который также является гиперссылкой.
Разновидности новостных лент. Ленты могут подразделяться по географическому признаку (международные, общегосударственные, региональные); по способу формирования (автонаполняемые - сбором новостей занимается программа, наполняемые модераторами, наполняемые пользователем, смешанные - если пользователь добавляет новость, а появляется она в ленте только после одобрения модератором). Они различаются по темам - экономика, политика, культура, спорт, происшествия и т. д. Ленты различаются читательским назначением - широкий круг лиц, специалисты, представители бизнеса, политические деятели.
Среди качеств, которыми должна обладать информация, специалисты называют следующие: достоверность, полнота, точность, ценность, своевременность, понятность, доступность, краткость.
Требования к новостным лентам схожи с требованиями к другим источникам информации, но, в связи с тем, что потребителями информации публикуемой в виде новостных лент часто являются представители бизнеса, политики, есть приоритетные качества, то есть информация предоставляемая потребителю при помощи новостных лент должна быть: точной (определяется степень близости информации к реальному состоянию объекта, процесса, явления); достоверной (отражать истинное положение дел); актуальной; краткой, но и достаточно полной, чтобы ее было достаточно для правильной трактовки ситуации.
Методика исследования. Анализ новостных лент осложнен отсутствием общего списка информационных агентств, необходимостью сравнения известных методик анализа новостных сообщений. Эти задачи решались нами на начальных этапах исследования:
Этап 1. Поиск и анализ сведений о деятельности основных агентств новостной информации России.
Поиск сведений осуществлялся в сети Интернет, в том числе рассматривались рейтинги информационных агентств за 2011 год, на основе которых были выявлены крупнейшие и наиболее авторитетные агентства.
Поиск сведений фактографического характера об информационных агентствах осуществлялся в Российской Национальной библиотеке.
Обзор основных агентств составлен на основе рейтингов, опубликованных на сайте Медиалогии. Рейтинг составлен на основе индекса цити-руемости.
Всего выявлено более 10 информационных агентств России, для подробного изучения выбраны 4 крупнейших агентствах: Интерфакс, РИА Новости, РосБизнесКонсалтинг, ИТАР-ТАСС. Проведена формализация данных об агентствах в виде сравнительной таблицы.
Этап 2. Анализ выявленных новостных лент для оценки их разновидностей.
На данном этапе отрабатывалась та часть методики, которая позволяет аналитику быстро диагностировать разновидности новостных лент, чтобы не просматривать большой массив дублирующейся новостной информации.
Этап 3. Выбор методов анализа новостных лент. Проанализированы следующие методики: терминологический анализ, документографический анализ, концептографический анализ, смысловой анализ, казуальный анализ, интент-анализ, дискурсивный анализ, контент-анализ. В результате сравнения выбраны два основных метода - поаспектный смысловой анализ и интент-анализ.
Этап 4. Сравнительный анализ новостных сообщений из разных агентств.
По результатам этапов 1 и 3 были собраны новостные сообщения из разных агентств. Отобраны новостные ленты агентств Интерфакс, Lenta.ru, РосБизнесКонсалтинг, РИА Новости, ИТАР-ТАСС за 2 дня - 5-6 мая 2012 г., так как поток сообщений об одном событии из некоторых агентств может запаздывать, либо появляется дополнительная информация о событии.
Каждое сообщение из новостных лент фиксировалось в таблицах по признакам: наименование агентства, время передачи новостного сообщения, событие, заголовок новостного сообщения.
Оценивалась степень дублирования сообщений об одном событии.
Затем было выбрано ключевое событие (Марш миллионов 6 мая в Москве) и все новостные сообщения о нем пословно сравнивались. Определялась количественно степень дублирования текстов. Выявлялись различия в сообщениях. Результатом этого этапа является дайджест новостей для руководителя предприятия.
Этап 5. Разработка рекомендаций по подготовке обзоров, дайджестов новостей и аналитических справок на основе анализа новостных лент для руководителей.
Основные результаты анализа. За анализируемый период (5-6 мая) были опубликованы новости о 34 разных событиях:
Название агентства Кол-во сообщений в выборке за 05.05.2012 Кол-во новых сообщений в выборке за 06.05.2012 Итого сообщений в выборке
Интерфакс 31 12 43
Lenta.ru 13 15 28
РБК 24 25 49
РИА Новости 43 38 81
ИТАР-ТАСС 77 70 147
Итого: 188 160 348
Всего обработано 348 сообщений.
При этом необходимо отметить, что не все агентства предоставляют в ленте «Главные новости» события только на текущую дату. Так в выборке новостных сообщений Интерфакс 05.05.2012 года присутствуют сообщения, опубликованные 03.05.2012 и 04.05.2012 года, а число опубликованных сообщений в общей выборке по агентству составило всего 43, что говорит о низкой скорости обновления новостных материалов в лентах свободного доступа. На портале lenta.ru также присутствуют сообщения прошлого дня, однако их немного, и в следующей выборке они не дублируются.
Одним из приоритетных параметров оценки работы информационного агентства является оперативность в предоставлении достоверной информации. Относительно рассматриваемых информационных агентств можно сказать следующее: они достойно соперничают в оперативности предоставления информации. Особенно если речь идет о резонансных событиях. Временное отставание в публикации новости может составлять от нескольких минут до суток.
Открытого дублирования заголовков и текстов новостей не наблюдается. Возможно, это связано с тем, что в нашей выборке представлены крупнейшие информационные агентства России, дорожащие своей репутацией. В то же время неоднократно новости этих агентств дублируются на таких порталах как ЯНДЕКС. НОВОСТИ.
Такое дублирование вполне оправдано. Причины дублирования сообщений об одном событии могут быть разными:
- агентство дублирует свои сообщения об одном и том же событии на лентах разных тематик (например, сообщение о теракте в Махачкале может войти в рубрику Происшествия);
- разные информационные агентства сообщают об одном и том же сообщении;
- информационные агентства зачастую публикуют несколько сообщений об одном и том же событии, однако эти сообщения содержат совершенно разную информацию в полных текстах и дополняют друг друга.
В этом случае, если не переходить к полному тексту сообщения, а читать только заголовки, то может создаться впечатление полного дублирования.
Дублирование заголовка полностью «слово в слово» наблюдается крайне редко, а дублирования текста полностью, не выявлено.
Кроме того, стоит заметить, что большая степень дублирования сообщений об одном и том же событии наблюдается при освещении наиболее значимых событий. (В нашей выборке таковыми являются: двойной теракт в Махачкале, «Марш миллионов», Выборы во Франции). В этом случае дублируются сообщения разными агентствами. Часто сообщения об одном и том же событии публикует одно агентство, чтобы сообщить о нем дополнительную информацию.
Рекомендуемая технологическая схема анализа лент деловых новостей. Лента деловых новостей является текстом. Рассмотрев основные из существующих методик анализа текстов, мы можем сделать вывод о том, что ни один из них не может полностью обеспечить процесс анализа лент деловых новостей. Поэтому возникает необходимость выработать технологическую схему анализа, в которой постараемся учесть все особенности лент новостей как источника деловой информации.
В процессе изучения теоретических публикаций о деловой информации был сделан вывод: к деловой информации можно относить не только информацию, которая имеет непосредственное отношение к бизнесу (курсы валют, новости с биржи, стоимость каких-либо товаров, цены на недвижимость и т. д.), но и новостные сообщения, которые, на первый взгляд, никакого отношения к бизнесу не имеют - погода, культурные события, спортивные соревнования и их победители. Они косвенно могут повлиять на конкретные бизнес-решения.
Однако при анализе лент деловых новостей мы должны выбрать в методике приоритетные направления в соответствии с профилем деятельности предприятия, для руководителя которого готовится сводная новостная лента или дайджест новостей.
На следующем этапе аналитик должен определиться с формой, в котором он будет предоставлять результат анализа лент деловых новостей потребителю. Возможны варианты:
A. Предоставление полного текста документа.
Б. Предоставление результатов аналитической переработки массива данных (в нашем случае лент деловых новостей): справок, указателей, дайджестов, обзоров.
B. Предоставление результатов фактографического поиска и дальнейшей аналитической переработки информации в виде справок, таблиц, фирменных и персональных досье.
Г. Предоставление результатов информационного исследования: аналитических справок и обзоров, отчетов, рубрикаторов перспективных направлений.
В нашем случае вариант «А» - Предоставление полного текста документа не вполне уместен - потребитель может потеряться в большом объеме и изучение всех новостных сообщений затянется настолько, что некоторые уже
потеряют свою актуальность. Кроме того, в случае предоставления полного текста документа не ясна задача аналитика.
Варианты В и Г могут быть использованы в том случае, если перед аналитиком поставлена определенная задача, например: составление досье на предприятие или персону, проведение аналитического исследования с целью выявления новых перспективных направлений развития предприятия. Однако эти информационные продукты не являются необходимыми ежедневно и не могут быть положены в основу представления ежедневного обзора новостей. Для таких целей идеально подойдет дайджест.
Дайджест - информационный продукт, который содержит краткие аннотации и основные положения из отобранных текстов, сжато передает содержание самых интересных публикаций за какой-то период. Такой формат представления информации удобен для ознакомления с основными новостями конкретной тематики за определенный период времени.
Необходимо определиться с периодом времени, за который аналитик будет готовить дайджест. Так как ленты новостей относятся к ресурсам с часто обновляемым содержимым, то целесообразно пополнять дайджест ежедневно. На основе ежедневного дайджеста мы также сможем подготовить еженедельный, ежемесячный, ежеквартальный и даже годовой дайджест - в случае их необходимости.