Научная статья на тему 'Автоматическая генерация спортивных новостей на естественном языке (на примере робота-журналиста Rosalinda)'

Автоматическая генерация спортивных новостей на естественном языке (на примере робота-журналиста Rosalinda) Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
447
114
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РОБОТИЗИРОВАННАЯ ЖУРНАЛИСТИКА / МАШИННОЕ ОБУЧЕНИЕ / ЦИФРОВЫЕ ГУМАНИТАРНЫЕ НАУКИ / АЛГОРИТМЫ / ГЕНЕРАЦИЯ ЕСТЕСТВЕННОГО ЯЗЫКА

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Иванов Андрей Дмитриевич

Экспансия автоматизированных алгоритмов генерации текстов на естественном языке больше всего видна в спортивной новостной журналистике. Помимо крупных англоязычных разработок на рынке присутствуют успешные локальные игроки. На примере работы шведского робота-журналиста Rosalinda, автор формулирует причины более активного внедрения NLG-технологий в спортивную журналистику и поднимает вопрос о необходимости междисциплинарного подхода в изучении процесса автоматизации медиа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматическая генерация спортивных новостей на естественном языке (на примере робота-журналиста Rosalinda)»

УДК 070

А. Д. Иванов

Челябинский государственный университет, Челябинск

АВТОМАТИЧЕСКАЯ ГЕНЕРАЦИЯ СПОРТИВНЫХ НОВОСТЕЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ (НА ПРИМЕРЕ РОБОТА-ЖУРНАЛИСТА ROSALINDA)

Экспансия автоматизированных алгоритмов генерации текстов на естественном языке больше всего видна в спортивной новостной журналистике. Помимо крупных англоязычных разработок на рынке присутствуют успешные локальные игроки. На примере работы шведского робота-журналиста Rosalinda, автор формулирует причины более активного внедрения NLG-технологий в спортивную журналистику и поднимает вопрос о необходимости междисциплинарного подхода в изучении процесса автоматизации медиа.

Ключевые слова: роботизированная журналистика, машинное обучение, цифровые гуманитарные науки, алгоритмы, генерация естественного языка.

Неизменно вектор развития и трансформации журналистики направлен в сторону технологического прогресса - исторически этот тренд сохранялся всегда: от момента изобретения печатного станка и до сегодняшних дней, когда приемниками информации становятся часы, очки или любая домашняя техника. Но до недавнего времени союз технологий и контента в журналистике представлял собой исключительно переупаковку контента под новые носители или изменение формата подачи этого контента, согласно новым парадигмам медиапотребления аудитории, т. е. сам текст / картинка / звук как элементарная единица журналистского творчества на протяжении нескольких веков с момента возникновения медиа создавался исключительно человеком, и влияния технологий на сам процесс генерации смыслов не оказывалось. Сегодня формула перспективной и востребованной новостной журналистской деятельности всё больше содержит цифровых переменных, связанных не только с формой, но и содержанием медиа.

Отметим, что дискуссия об уместности сочетания теории журналистики с принципами математического моделирования в вопросах дистрибуции контента, предсказания влияния деятельности СМИ на поведение аудитории, определения экономической рентабельности медиа и пр. длится в научном сообществе уже несколько лет - российские исследователи активно обсуждают особенности гомеостатического моделирования [4] для анализа деятельности СМИ в вопросах внутренней и внешней жизни редакции (макропроцессы) [2], однако в российской науке практически без внимания остаются более перспективные, на наш взгляд, зоны соприкосновения гуманитарных и технических сфер, связанных с генерацией смыслов (историй) и текстов на естественном языке (natural language generation, NLG) для нужд СМИ. Речь идет о внедрении технологий искусственного интеллекта (AI) и машинного обучения (ML) в журналистские процессы сбора, обработки, генерации, ранжирования и дистрибуции информации [1]. В результате активного развития Digital Humanities (DH), происходит не только расширение арсенала научных методов, что приводит к междисциплинарности методов исследований в журналистике, но и к изменению самого объекта исследования - им становится «не зафиксированная в источнике в знаковом виде часть информации, а вся информация, в том числе скрытая, латентно присутствующая в источнике» [3]. Такой подход открывает принципиально иные возможности для медиа как с позиции исследователя, так и с позиции журналиста.

Сегодня всё чаще на научных и практических конференциях по журналистике звучат тезисы о важности использования открытых данных (OD), больших данных (BD), внедрении новых подходов в визуализации и, конечно, автоматической генерации текстов. Подобные изменения формируют новые профессиональные и этические стандарты в журналистике, провозглашают приход эры автоматизации и роботизации в мире медиа.

Исследователи называют происходящие изменения «the algorithmic turn» [9], подразумевая технологический и парадигмальный переход к новому пониманию медиапространства, усложняющегося под натиском и при помощи всевозможных технологий. В этой связи принято выделять

особую роль алгоритмов в новых принципах потребления медиа, а также в производстве контента. Говоря об эффектах автоматизированной журналистики, мы будем придерживаться позиции Андреаса Граефе (Andreas Graefe), который принципиально разграничивают влияние алгоритмов на различные уровни процесса массовой коммуникации. Так, по мнению немецкого исследователя, роботизация влияет на микроуровень, то есть на профессиональную деятельность журналистов и на восприятие потребителей, например, в сфере персонального ранжирования контента; и на макроуровень, то есть на целые рабочие коллективы - новостные организации, а также на массовую общественность в вопросах форматов медиапотребления [7].

В данной статье мы будем обращаться к термину «алгоритм» в контексте роботизированной журналистики, подразумевая автономный поэтапный набор связанных операций, включающий в себя расчет, обработку данных и рассуждения (automated reasoning) в рамках определенного набора правил, позволяющий выполнять поставленную задачу по генерации новостных журналистских материалов на естественном языке, в основе которых находится заранее собранная и систематизированная фактологическая информация. Таким образом, мы закладываем принципы функционирования алгоритмов в журналистике: автономность работы, системность на всех этапах обработки данных, и декодируемость конечного результата (новости) рядовым читателем издания.

Как и обычному журналисту, алгоритму требуется входящая информация для генерации контента, однако данные должны быть правильным образом структурированы, иначе вычленить из массива текста нужные факты и связать их между собой каким-то смыслом машина не сможет. Именно поэтому экспансия роботизации в первую очередь наблюдается в новостной журналистике, содержащей малые и оперативные формы, исключающие наличие авторского стиля или значительной аналитики, что в большей степени соответствует спортивной и финансовой тематике, метеорологическим и иным статистическим сводкам (например, пробки на дорогах). Для более сложных журналистских материалов, требующих глубокой аналитики, применения метода интервьюирования или прогнозирования, сформулировать единый работающий алгоритм или шаблон невозможно, поэтому эффективные разработки в этой области будут отсутствовать еще долгое время - все творческие журналистские процессы, как и раньше, будут оставаться в зоне ответственности человека до момента создания невероятно мощного искусственного интеллекта, в то время как простые рутинные задачи, поддающиеся структуризации и систематизации, уйдут в ведение роботов и алгоритмов [12]. Так называемая «высокая журналистика», по мнению исследователей, только выиграет от взаимодействия человека и машины, в то время как «низкая журналистика» (куда чаще всего относят новостную журналистику) полностью будет автоматизирована [8].

Исторически главный тренд на развитие систем генерации текста на естественном языке для нужд средств массовой информации задают американские компании Narrative Science и Automated Insights (система Wordsmith), специализирующиеся на NLG-разработках, но сегодня проектов в данной сфере стало намного больше и из алгоритмов, способных писать короткие заметки по итогам баскетбольных матчей, роботы превращаются в оперативных и качественных новостных журналистов, способных определять восходящие и нисходящие тренды, анализировать контекст и писать более качественные с точки зрения естественного языка журналистские материалы. Первое поколение алгоритмов строилось на использовании динамических шаблонов - текстов, написанных журналистами, со специальными «пропусками», которые заполнялись актуальным цифровым контентом, собираемым из открытых источников. Такие рудиментарные разработки уходят в прошлое, а на их смену приходят многомерные нейронные сети и глубокое обучение с помощью интеллектуального анализа текста, что позволяет алгоритмам «учиться» на основе «прочитанных» реальных журналистских материалов. Робот «запоминает» слова, окружающий их контекст, и сформулированные смыслы, которые в дальнейшем использует в процессе генерации собственных текстов. Однако стоит отметить, что даже первые наработки в области NLG-проектов в журналистике показывали хорошие результаты - читатели не могли отличить новость, написанную человеком от той, что подготовлена алгоритмом [6], поэтому сейчас перед роботами стоит задача в создании более красочных и сложных материалов с добавлением элементов простой аналитики.

Крупные международные издания, такие как «Forbes», «New York Times», «The Guardian», активно используют автоматизированные алгоритмы в работе, потому как они решают массу задач и практически не имеют негативных эффектов:

1. Использование алгоритма обходится редакции в конечном счете гораздо дешевле и позволяет экономить человеческие ресурсы (у журналистов высвобождается время для подготовки уникальных и более глубоких материалов).

2. Обученные и настроенные алгоритмы работают значительно быстрее человека и допускают меньше ошибок, потому что их деятельность заключена в ряд ненарушаемых правил.

3. Алгоритмы масштабируемы и позволяют готовить неограниченное число материалов на схожие события, вместо разовых новостей от журналиста-человека.

4. Неотличимость конечных материалов, написанных алгоритмом, от человеческих новостей - еще один повод заняться разработкой и внедрением подобных технологий.

5. Большинство готовых решений в сфере роботизированной журналистики многоязычно, что позволяет международным редакциях моментально готовить мультиязыковые новости для разной аудитории.

Отметим, что важную роль в процессе разработки роботов-журналистов играет язык, на котором осуществляется обработка данных, и особенности его грамматики. Страны, где основным является английский язык, используют уже готовые разработки и тем самым развивают эти проекты - в основе роботизированной журналистики лежат методы машинного обучения, поэтому каждый материал, написанный алгоритмом, приближает его если не к Пулитцеровской премии, то к более сложному и качественному новому тексту. Иные вынуждены заниматься разработкой собственных программ для генерации новостей на естественном языке, поэтому центрами развития роботизированной журналистики становятся Испания, Франция, Германия, Швеция, Китай -во всех этих странах есть свои уникальные наработки.

Один из масштабных экспериментов по внедрению NLG-алгоритмов в новостные редакции сейчас происходит в Швеции, где десятки местных онлайн-изданий различные наработки в области роботизации. В стране существует несколько профильных проектов, достигших значимых успехов области генерации новостей на естественном языке - это спортивный робот-журналист Rosalinda; информационное агентство Sirén, использующее роботов для подготовки пресс-релизов; проект Journalism++, занимающийся развитием data-driven журналистики, в том числе с применением технологий роботизации; информационное агентство TT, использующее роботов для подготовки новостей на тему недвижимости; платформа Textual для автоматической генерации маркетинговых текстов для ecommerce.

Среди всех проектов более масштабные результаты имеет Rosalinda - разработка шведской технологической компании United Robots, специализирующейся на автоматизации редакционных процессов с помощью искусственного интеллекта и NLG-систем. Сейчас компания предоставляет программное обеспечение, способное готовить новости на темы спорта, недвижимости и локального бизнеса на шведском языке, и тем самым занимает ведущее место в скандинавском регионе по поставкам роботизированных систем.

Rosalinda же является примером функционирующего спортивного робота-журналиста. Отметим, что подавляющее большинство проектов в сфере роботизированной журналистики начинает с создания алгоритмов именно на базе спортивной тематики, обладающей достаточным набором цифровых систематизированных данных для автоматической генерации новостей.

В основе алгоритма Rosalinda находится система обработки структурированных статистических данных и их дальнейшего преобразования в новостные материалы о спортивных соревнованиях по футболу, хоккею, гандболу, хоккею с мячом, баскетболу и хоккею с шайбой. Через программный интерфейс приложения (application programming interface, API) робот-журналист подключается к Everysport, крупнейшей базе данных по спорту в Швеции, обрабатывает данные о ходе и результатах соревнований и выдает готовый журналистский материал на шведском языке. Например, на одноименном портале MittMedia (крупнейшая в Швеции местная медиа-группа, которая сегодня включает в себя цифровые медиа, интернет-телевидение, более 30 ежедневных газет, коммерческое радио и цифровые агентства) такие спортивные заметки можно найти за авторством «MittMedia's Text Robot».

По словам шведских разработчиков, традиционным и новым издателям требуются инструменты, - автоматизированные алгоритмы, - способные рационализировать, оптимизировать и максимизировать эффективность бизнес-процессов в эпоху цифровизации журналистики [10].

Создатели уверены, что тексты, написанные алгоритмом Rosalinda, экономят время журналистов, так как создаются за считанные секунды; положительно влияют на поисковую оптимиза-

цию, благодаря встроенным в алгоритм правилам генерации текста с учетом принципов SEO; а также позволяют значительно экономить бюджет - лицензия на использование робота и результаты его работы приобретается редакцией по подписке и стоит значительно дешевле «живого» журналиста в штате.

Проект находится в активной фазе - ежедневно Rosalinda пишет тысячи новостей на спортивную тематику, каждый год всё большее количество издателей приобретает подписку на сервис, а разработчики непрерывно работают над обновлениями алгоритма.

Подписная модель распространения робота подразумевает подготовку пакета из трех материалов для одного спортивного события: анонс, отчет и «саммари» о ходе чемпионата. Структура текстов, подготовленных Rosalinda, постоянно совершенствуется. Последнее крупное изменение было внесено летом 2017 года, после которого робот-журналист научился анализировать успешность выступления команд в среднесрочной перспективе и добавлять эту информацию в состав новости-анонса, который также содержит данные о позициях спортсменов или команд в общей зачетной таблице.

Основной материал - отчет о спортивном матче - состоит из хронологического описания игры, выводов о результатах и их значении для каждой из сторон, информацию о следующих встречах, а также небольшую ретроспективу с указанием тенденций (серии побед и поражений).

Текст содержит как короткие предложения из нескольких слов, описывающих конкретное событие (например, как конкретный игрок забил гол), так и длинные сложноподчиненные конструкции, рассказывающие об общей ситуации чемпионата.

На начало 2018 года разработку компании United Robots использовали такие крупные местные медиахолдинги, как MittMedia, Gota Media, Media House UNT и Ostgota Media, Norran i Skellefteá, Smáland Hallpressen, финское издательство HSS Media и Stampen Local Media, однако для каждого матча алгоритм готовит свой уникальный текст. В общей сложности за 2017 год Rosalinda подготовила более 100 000 текстов на спортивную тематику.

Сейчас в компании заняты тестированием новых возможностей алгоритма по подбору комментариев, иллюстраций и более сложной аналитики. По словам Хеннинга Йоханнессона, спортивного директора MittMedia (главный заказчик услуг United Robots), «автоматизированные тексты представляют собой большую ценность для потребителя сегодня, в качестве быстрого обновления результатов» [11].

В международной практике самыми развитыми сегодня являются спортивные и экономические роботы-журналисты в силу того, что входящая информация о спортивных соревнованиях или ежегодных финансовых отчетах гораздо проще дается систематизации, а журналистские материалы по своей структуре лучше укладываются в рамки алгоритма. Таким образом в руках редакции появляется инструмент, функционирующий без участия человека, однако для этого требуется соблюдение нескольких принципиальных моментов:

1. Входящая новая информация обязательно должна быть структурирована и систематизирована для дальнейшего использования роботом, именно поэтому большинство алгоритмов сегодня работают на базе OD-ресурсов, которые предоставляют уже упакованные в универсальный формат данные.

2. В основе алгоритма должна находиться обученная нейронная сеть с достаточной выборкой в виде размеченных корпусов - журналистских текстов в формате новостей на схожую тематику, где каждое слово и его контекст имеет описанную для робота семантику.

3. Алгоритм должен работать в рамках актуальных правил грамматики и пунктуации того языка, на котором осуществляется обработка и генерация текстов.

Конечно, в рамках данной статьи мы практически не анализировали сам процесс написания текста роботом, потому как он полностью уходит за рамки гуманитарных методов исследования и не поддается более детальному изучению и описанию без введения математических и ML-терминов. Роботизированная журналистика находится на стыке гуманитарной сферы и компьютерных технологий, что требует от практика и теоретика более глубоких и разносторонних знаний. Это еще раз подтверждает актуальность развития междисциплинарного подхода в изучении актуальных тенденций в журналистике, а именно - с использованием математических методов и инструментов в рамках гуманитарных исследований. Rosalinda является отличным примером сращения журналистики и машинного обучения, в результате которого получается совершенно новый и востребованный инструмент как для медиасистемы, так и для ML-сообщества.

Список литературы

1. Иванов, А. Д. Современное состояние роботизированной журналистики [Текст] / А. Д. Иванов // Журналистика цифровой эпохи: как меняется профессия. - Екатеринбург, 2016. -2016. - С. 106-109.

2. Корконосенко, С. Г. Математика и теория журналистики: не вместо, а вместе [Текст] / С. Г. Корконосенко // Вопросы теории и практики журналистики. - 2018. - Т. 7. - №. 1. - С. 155-164.

3. Можаева, Г. В. Digital Humanities: цифровой поворот в гуманитарных науках [Текст] / Г. В. Можаева // Гуманитарная информатика. - 2015. - №. 9. - С. 8-13.

4. Суходолов, А. П., Кузнецова, И. А. Конструирование СМИ как гомеостатической системы средствами автоматики: базовые понятия, структура, компоненты [Текст] / А. П. Сухлдолов, И. А. Кузнецова // Вопросы теории и практики журналистики. - 2017. - Т. 6. - №. 4. - С. 437-464

5. Anderson, C. W. Towards a sociology of computational and algorithmic journalism [Text] / C. W. Andreson // New media & society. - 2013. - Т. 15. - №. 7. - Pp. 1005-1021.

6. Clerwall, C. Enter the robot journalist: Users' perceptions of automated content [Text] / С. Clerweall //Journalism Practice. - 2014. - Т. 8. - №. 5. - Pp. 519-531.

7. Graefe, A. Guide to Automated journalism [Text] / A. Graefe // Tow Center for Digital Journalism. - 2017. - Janeiro. - P. 48.

8. Linden, T. C. G. et al. Algorithms for journalism [Text] / ТС. G. Linden //The Journal of Media Innovations. - 2017. - Vol 4. - №1 (2017) - Pp. 60-76

9. Napoli, P. M. Automated media: An institutional theory perspective on algorithmic media production and consumption [Text] / P. M. Napoli // Communication Theory. - 2014. - Т. 24. -№. 3. - Pp. 340-360.

10. Unitedrobots: Take control over the local sports coverage with our text robotic Rosalinda [Electronic resource]. - URL: http://www.unitedrobots.se/produkter-1/ (дата обращения: 20.02.2018).

11. Unitedrobots: Vinnova stoder nasta generation av United Robots textrobot Rosalinda [Electronic resource]. - URL: http://www.unitedrobots.se/news/2017/11/1/vinnova-stder-nsta-generation-av-united-robots-textrobot-rosalinda (дата обращения: 14.02.2018).

12. Van Dalen, A. The algorithms behind the headlines: How machine-written news redefnes the core skills of human journalists [Text] / A. Van Dalen // Journalism Practice. - 2012. - Т. 6. - №. 5-6. -Pp.648-658.

AUTOMATIC GENERATION OF NATURAL LANGUAGE SPORTS NEWS (ON THE EXAMPLE OF ROBOT-JOURNALIST ROSALINDA)

Ivanov A. D., Chelyabinsk State University, Chelyabinsk, a@smmashing.media

Expansion of the automated algorithms for text generation in natural language is most of all visible in sports news journalism today. Besides large English-language developments from the Narrative Science and Automated Insights companies which are already actively used in large international media such as Forbes, New York Times, Los Angeles Times, The Guardian, BBC and others at the market there are successful local players developing robotic journalism in other languages. Today Germany, France, Spain, China and Sweden becomes such advanced centers. So, the largest local media holding in Sweden of MittMedia actively introduces the automated algorithms in work of the editions. On the example of operation of the Swedish Rosalinda robot journalist from the United Robots Company, the author of article formulates the reasons of more active introduction of technologies of generation of the text in a natural language in sports journalism and brings up a question of need of cross-disciplinary approach for studying ofprocess of automation of media.

Keywords: robotic journalism, machine learning, digital humanities, algorithms, natural language generation.

References

1. Ivanov, A. D. (2016) Sovremennoe sostoyanie robotizirovannoj zhurnalistiki [=The State of Robotic Journalism], in: Zhurnalistika cifrovoj ehpohi: kak menyaetsyaprofessiya [=Journalism of the digital age: how does the profession change], Ekaterinburg, pp. 106-109. (In Russ.).

2. Korkonosenko, S. G. (2018) Matematika i teoriya zhurnalistiki: ne vmesto, a vmeste [=Mathematics and the theory of journalism: not instead of, but together], in: Voprosy teorii i praktiki zhurnalistiki [=Problems of theory and practice ofjournalism], pp. 155-164. (In Russ.).

3. Mozhaeva, G. V. (2015) Digital Humanities: cifrovoj povorot v gumanitarnyh naukah [=Digital Humanities: digital turn in the humanities], in: Gumanitarnayainformatika [=Humanitarian Informatics], pp. 8-13. (In Russ.).

4. Suhodolov, A. P. and Kuznecova, I. A. (2017) Konstruirovanie SMI kak gomeostaticheskoj sistemy sredstvami avtomatiki: bazovye ponyatiya, struktura, komponenty [=Designing the Mass Media as a Homeostatic System by Means of Automation Engineering: Basic Concepts, Structure, Components], in: Voprosy teorii ipraktiki zhurnalistiki [=Questions of theory and practice journalism], pp. 437-464. (In Russ.).

5. Anderson, C. W. (2013) Towards a sociology of computational and algorithmic journalism, in: New media & society, no. 15 (7), pp. 1005-1021.

6. Clerwall, C. (2014) Enter the robot journalist: Users' perceptions of automated content, in: Journalism Practice, Vol. 8, Issue 5, pp. 519-531.

7. Graefe, A. (2016) Guide to Automated journalism, in: Tow Center for Digital Journalism, Janeiro, p. 48.

8. Linden, T. C. G. et al. (2017) Algorithms for journalism, in: The Journal of Media Innovations, Vol. 4, Issue 1, pp. 60-76.

9. Napoli, P. M. (2014) Automated media: An institutional theory perspective on algorithmic media production and consumption, in: Communication Theory, Vol. 24, Issue 3, pp. 340-360.

10. Unitedrobots: «Take control over the local sports coverage with our text robotic Rosalinda», available at: http://www.unitedrobots.se/produkter-1/, accessed 20.02.2018.

11. Unitedrobots: «Vinnova stoder nasta generation av United Robots textrobot Rosalinda» [=Vinnova supports the next generation of United Robot text robot Rosalinda], available at: http://www. unitedrobots.se/news/2017/11/1/vinnova-stder-nsta-generation-av-united-robots-textrobot-rosalinda, accessed 14.02.2018. (In Swed.).

12. Van Dalen, A. (2012) The algorithms behind the headlines: How machine-written news redefnes the core skills of human journalists, in: Journalism Practice, no. 6 (5-6), pp. 648-658.

Иванов Андрей Дмитриевич - управляющий партнер агентства SMMashing Media; аспирант, преподаватель кафедры журналистики и массовых коммуникаций, Челябинский государственный университет, Челябинск.

a@smmashing.mediam

i Надоели баннеры? Вы всегда можете отключить рекламу.