о.
с
Стопроцентные
Наталья Югринова
компания «наносемантика» учит виртуальных роботов думать и разговаривать как человек — так, чтобы они могли естественным образом поддержать диалог. собеседники-инфы создаются с коммерческим прицелом: они могут заменить целый взвод операторов колл-центра, онлайн-консультантов, сотрудников техподдержки. пока технология «текстовых мозгов» интересна только узкому в2в-рынку на котором и застряла компания. но как только искусственный интеллект выйдет в массы, лингвистические алгоритмы «наносемантики» станут предметом первой необходимости.
В 2001 году Игорь Ашманов, только-только оставивший должность исполнительного директора «Рамблера» и учредивший собственную консалтинговую фирму, попросил своих лингвистов создать программу, которая могла бы играть роль виртуального собеседника для пользователей чатов. Начав экспериментировать с получившимся чат-ботом, Ашманов сам поразился тому, с какой готовностью пользователи-люди начинают наделять его человеческими качествами — несмотря на всю его заторможенность и малосообразитель-ность. Они испытывали к боту симпатию, раздражение или злость — словно имели дело с живым собеседником. Тогда Игорь и задумался о том, как можно применить этот эффект в бизнесе. Идея превратить увеселительную «болталку» в виртуального консультанта, который никогда не устает, не ленится и не просит зарплату, лежала на поверхности. Впрочем, тогда у предпринимателя не хватило времени развить задумку. Всерьез вернуться к ней удалось только в 2005 году, когда Игорь Ашманов открыл вместе с супругой Натальей Касперской компанию «Наносемантика», специализирующуюся на технологиях искусственного интеллекта.
ГОВОРИ ПО-ЧЕЛОВЕЧЕСКИ
«Прекрасное далёко» искусственного интеллекта выглядит по-голливудски. Условных романтизированных «роботов будущего» принято представлять с полным набором человеческих качеств: они обладают эмоциями, чувством юмора, имеют собственные суждения и человеческую волю. Удастся ли создать искусственное разумное существо, еще не известно. Но то, что некоторые элементы «разумности»
«инфы»
воплощаются в жизнь, — факт. За примерами далеко ходить не надо. Многие знакомы с функцией быстрого набора текста в современных смартфонах, когда устройство подсказывает пользователю наиболее вероятное продолжение набираемого слова — исходя из нескольких первых букв и общего контекста. Реализовать такую функцию — весьма нетривиальная задача с лингвистической точки зрения: система искусственного интеллекта должна подбирать варианты слов с учетом частоты их употребления, вести статистику набора для каждого пользователя, анализировать грамматику. Однако ни «умный» набор текста, ни, например, умение компьютерного текстового редактора проверять правописание сегодня никого не удивляют. Как только искусственный интеллект приживается на массовом рынке, он почему-то быстро утрачивает флер «чуда хайтека». Между тем перечень функций, которые можно отдать на откуп автоматизированным системам, с развитием технологий быстро увеличивается. По мнению Игоря Ашманова, до момента, когда роботы (пусть и виртуальные) станут повседневностью, остались считанные годы.
— Через пять-семь лет, — уверяет он, — технология распознавания речи станет безупречной, и тогда во все устройства — компьютеры, смартфоны, бытовую технику и т. д. — пойдет поток голосовых запросов. Голосовой запрос будет преобразовываться в текстовый. Чтобы устройство могло проанализировать вопрос и дать на него ответ (то есть корректно среагировать), ему нужны «текстовые мозги», которые смогут понять текст, залезть в базу данных и вытащить из нее подходящий ответ. То, чем мы занимается, — это как раз «текстовые мозги». Именно текст является наиболее
■S, 1 I ' iiv:;-.
ШшШш/ ¡Шгёшш ¡I' 1
жШ/Ш
V s«
'V>-
Wt
I
по большому счету, совместный проект натальи Касперской и игоря Ашманова ориентирован на будущее. через 5-7 лет технологии распознавания речи будут доведены до ума, и многие устройства научатся выполнять голосовые команды. вот тогда очень пригодятся «текстовые мозги», которыми занимается «наносемантика»
подходящей формой запросов для общения человека с машиной. Даже если со временем человек будет командовать окружающими его устройствами не голосом, а силой мысли (например, с помощью нейроэлектронных контроллеров, которые уже появились), эти команды, скорее всего, будут сформулированы текстом.
Технология поддержания «гладкого» диалога на естественном языке все еще находится на стадии дозревания. Но деньги ей уже приходится зарабатывать — чтобы хотя бы частично окупить наукоемкие разработки. С 2008 года «Наносемантика» создает и продает инфов — виртуальных собеседников, которые специально заточены под решение различных проблем бизнеса, связанных с удаленным общением с клиентами. Роботы встраиваются в сайт заказчика и поддерживают диалог с посетителями в режиме чата. Для того чтобы сузить круг задач инфов и сделать их работу более точной, компания придумывает им специализации. Виртуальные консультанты в режиме чата отвечают на вопросы пользователей о товарах и перенаправляют их на соответствующие страницы сайта. Во время сезонных пиков или при запуске продаж новых товаров роботы позволяют снять излишнюю нагрузку с колл-центра. «Продажники» берут на себя продвижение и собирают статистику по реакции пользователей. Роботизированная техподдержка решает однотипные вопросы, связанные с обнаруженными «дырками» в продуктах, — и тем самым избавляет от рутины сотрудников-людей. Потенциал российского рынка виртуальных консультантов Игорь Ашманов оценивает в сотни миллионов рублей в год: инфами могут пользоваться десятки тысяч компаний сектора e-commerce. Текущие мас-
штабы намного скромнее. Сейчас выручка компании растет на 50-80% в год, но эта динамика совсем не отражает роста рынка. Просто потому, что полноценного рынка как такового нет: о возможности автоматизировать рутинные бизнес-процессы знают немногие. Сейчас у «Наносемантики» более дюжины действующих клиентских инфов. Среди внедривших технологию компаний — Ford, «Билайн Казахстан», «Тинькофф», Yota и другие. Средний чек стартует от ста тысяч рублей в месяц и, в зависимости от требуемой базы знаний инфа, может стремиться к бесконечности. Крупные компании готовы щедро платить не столько за самого инфа, сколько за сопутствующий сервис — специализированное под каждого клиента обучение виртуального консультанта и последующую поддержку. Доведение инфа до пика компетентности занимает два-три месяца. Все это время лингвисты интенсивно вычитывают логи бесед с пользователями и вносят необходимые поправки в алгоритм работы виртуального собеседника. В результате такой «прокачки» показатель распознавания инфом входящих запросов серьезно увеличивается — в среднем с 35 до 80%. Можно добиться лучших результатов, но для этого инфа придется обучать еще дольше. При должном старании инф может не только сэкономить деньги на автоматизации бизнес-процессов, но и принести дополнительную выгоду. Согласно статистике одного из крупных клиентов «Наносемантики», с виртуальным собеседником начинают разговаривать всего 2% посетителей сайта, однако существенная доля людей, вступивших в разговор, в дальнейшем нажимает ссылки, которые подсказывает инф, и проводит на страницах гораздо больше времени.
о
CL
П.
Сейчас «Наносемантика» работает над автоматизацией обучения Инфов: в идеале в качестве тренеров будут выступать не лингвисты компании, а сам заказчик. «Прокачивать» роботов в этом случае можно будет с помощью несложного интерфейса — например, стандартного мастера установки. За счет снижения трудозатрат на обучение компания сможет опустить ценовую планку и выйти на сегмент среднего и малого бизнеса — то есть охватить те самые десятки тысяч интернет-магазинов и онлайновых сервисов, на которые рассчитывает Ашманов.
Пополнение базы знаний и доведение инфа до пика компетентности занимает 2-3 месяца. Но и после этого лингвисты «Наносемантики» вычитывают логи бесед и корректируют алгоритмы, чтобы искусственный собеседник лучше справлялся со своей работой
словоЗАслово
В британском комедийном сериале Bumistoun есть пародийная сценка: два шотландца попали в лифт без кнопок — с инновационной голосовой системой управления. Система просит их назвать нужный этаж, герои вновь и вновь силятся произнести слово «одиннадцатый» по-английски, однако «умный» лифт все равно не понимает их из-за сильного шотландского акцента. В итоге персонажи оказываются пленниками искусственного разума, потому что не могут выбраться из кабины.
Похожий ролик можно было бы снять и про текстовые «распознавалки», которыми отчасти являются инфы. Обилие вариантов входных реплик — один из главных тормозов развития диалогов на естественном языке. Другие проблемы связаны с необходимостью не терять нити диалога, запоминать предыдущие реплики и использовать эти знания в дальнейшем разговоре. Именно из-за сложных семантических алгоритмов виртуальные собеседники требуют столько времени и денег на разработку и обучение.
— Слово Volkswagen люди вводят 76 различными способами, — приводит пример Игорь Ашманов. — Причем вариант «Фольцвахен» — еще далеко не самый ужасный. Каждый из вопросов, которые пользователи адресуют инфам, может быть задан в сотнях вариантов в зависимости от пола, возраста, уровня
образованности и настроения человека. Кроме этого, люди могут доспросить, переспросить, перескочить со слова на слово. Инфу приходится учитывать все вопросы и ответы, то есть анализировать целое дерево диалогов. И вспоминать пользователя и всю информацию о нем, когда он придет в следующий раз. Это объемная и технически невероятно сложная задача.
Не удивительно, что даже такие общепризнанные «умники» среди воплощений искусственного разума, как суперкомпьютер Watson и система WolframAlpha, не умеют поддерживать диалог: первый просто отвечает на вопросы, вторая формирует логический отчет, основанный на ассоциативных вычислениях по собственной базе знаний.
И это еще не все трудности. Анализировать корректность работы инфов тоже сложно. Ошибки, которые делают виртуальные собеседники, бывают двух типов. Справиться с ситуацией, когда система «поняла, что она не поняла», не трудно: инф переспросит пользователя, а ошибка будет зарегистрирована. На пике компетентности доля таких ошибок не превышает 5-10%. Но бывает, что инфу кажется, будто он правильно понял вопрос пользователя, хотя на самом деле он ошибся и выдал нерелевантный ответ. Статистику таких ошибок подсчитать можно только вручную. Собственно говоря, именно поэтому лингвисты тратят столько времени и сил на вычитывание состоявшихся диалогов: только человеческий мозг может понять, где инф не справился с задачей.
На первый взгляд кажется, что разработки «Наносемантики» ограничены еще и языковым барьером: понятно, что русскоязычные инфы будут продаваться исключительно на территории стран СНГ. Но здесь как раз особых проблем нет. По утверждению основателей компании, технология легко масштабируется: «Наносемантика» уже создала тестовых инфов, умеющих общаться по-китайски, вьетнамски и английски. Впрочем, международные амбиции для нее не приоритетны: внешний рынок, как и отечественный, на данный момент не демонстрирует ни устойчивого спроса, ни впечатляющих оборотов.
Выход один — постепенно идти «в тираж» и формировать спрос самим. «Перед нами стоит задача в целом пропагандировать технологию общения человека с искусственным интеллектом, приучать рынок к тому, что разговаривать с компьютером не только можно, но и важно, — говорит Наталья Касперская. — Понятно, что работать с массовым рынком и ко-
¿ig
О о О 2 г-g
3" ä 3 ^ eS ■
О га га ^ ^ и I £2 ^ i_
Роботы
с человеческим лицом
Первого виртуального собеседника создал в 1966 году профессор Массачусетского технологического института Джозеф Вейценбаум. Его чат-бот ELIZA имитировал вопросы, которые задают на сеансах психотерапевты. Элиза определяла ключевые слова во фразе собеседника и развивала на их основе беседу. Например, в ответ на фразу «Я злюсь на свою мать» она могла попросить рассказать побольше о семье. В 1972 году у Элизы появился оппонент — чат-бот PARRY написанный психиатром Кеннетом Колби по образу и подобию пациента, больного шизофренией. С 1990 года самого «человечного» виртуального собеседника ежегодно определяет конкурс Al Loebner. Премия Лёбнера вручается программе, которая показывает лучшие результаты при прохождении так называемого теста Тьюринга2. Среди победителей конкурса — чат-бот A.U.C.E., созданный в 1995 году американцем Ричардом Уоллесом, и британская программа Jabberwacky, которую разработал Ролло Карпентер. Jabberwacky, получившая премию Лёбнера в 2005 и 2006 годах, использовала принципиально новый подход к разговору: она обзавелась собственной базой знаний, из которой черпала контекстную информацию. Если у ранних чат-ботов не было никакой постоянной памяти, то детище Карпентера запоминает и анализирует все произнесенные собеседником фразы. Кроме того, каждый разговор дает ему пищу для дальнейшего совершенствования.
Один из наиболее ярких чат-ботов последнего времени — «Евгений Густман», победитель конкурса искусственных интеллектов, проходившего в Великобритании в 2012 году. У бота имеется виртуальная биография: он будто бы 12-летний школьник из Одессы, у которого есть морская свинка и папа-доктор. Но на самом деле этот искусственный интеллект — творение выходца из России Владимира Веселова, который живет и работает в США. Веселов на пару со своим «Евгением Густманом» тоже g z
с успехом прошел тест Тьюринга: компе- m | 2
тентное жюри конкурса так и не смогло | S 1 ^ определить, когда в диалоге участвует 1 т | <§■
человек, а когда — компьютерная про- | s | о
грамма. Однако этот «обман» удался § х | ,g I
большей частью благодаря тому, что автор бота придал ему яркую индивидуальность: судьи, задававшие заковыристые вопросы, ^ | ш часто списывали не вполне корректные a.i g ответы «Евгения Густмана» и отсутствие о m ^
у него эрудиции на предполагавшийся tf £ I
- С
малый возраст собеседника, а не на ис- !
кусственность его интеллекта. S
о- 2 2 г
нечными пользователями намного сложнее, чем с энтер-прайз-сектором. Есть огромная проблема с тем, как его монетизировать. Громких историй успеха нет. Напротив, перед глазами печальный опыт Siri1: проект не взлетел, даже несмотря на фактически бесплатную его раздачу».
МАЛЬЧИКИ-С-ПАЛЬЧИК
Именно в целях пропаганды и продвижения в 2008 году «Наносемантика» запустила проект iii.ru — социальную сеть, в которой любой желающий мог завести и «воспитать» своего собственного инфа. Сайт «А-я-яй.Ру» близок к обычным аватарным сервисам: как правило, пользователи создают виртуального человечка, внешне максимально похожего на самого себя, а затем обучают свою копию вести беседу так, как могли бы поддерживать разговор сами. Важно, что инфы легко встраиваются в другие ресурсы — так что созданных «виртуалов» можно использовать, например, как персональных ассистентов. С момента запуска на портале зарегистрировалось более миллиона пользователей, которые создали свыше трех миллионов инфов. Основные пользователи «А-я-яй.Ру» — дети: им нравится не столько учить инфов, сколько переодевать их. «Упертых» фанатов, которые тратят значительное количество времени на обучение своих виртуальных копий, меньше 10% пользователей. Ежедневно виртуальные собеседники iii.ru участвуют в 74 тысячах диалогов и выдают более двухсот двадцати тысяч реплик. При желании такой объем данных можно использовать в коммерческих целях: изучать аудиторию, узнавать ее предпочтения, пытаться что-либо продать через инфов. Однако обкатанных схем монетизации B2C-сегмента «Наносемантика» так и не наработала. Попытка превратить проект в условно-платный сервис по модели freemium не прошла, а брать с детей деньги за предметы одежды, как это делают стандартные генераторы аватаров, компании не хотелось. У русскоязычного сервиса есть англоязычный дублер inf.net. С его помощью «Наносемантика» демонстрирует, что «текстовые мозги» универсальны для любого языка, а заодно показывает одно из возможных направлений монетизации. Англоязычные инфы могут выступать для школьников учителями английского: развивая и обучая их, дети сами подтягивают собственный уровень знаний иностранного языка. Деньги же в этом случае будут взиматься за доступ к узкоспециализированным предобученным роботам. Впрочем, задачи заработать на массовом рынке за счет социальных сетей пока нет: изначально «А-я-яй.ру» задумывался как некая реклама на собственной площадке, полигон для подготовки будущего поколения к общению с компьютерами на естественном языке. Доходы, считает Игорь Ашманов, закопаны в другом секторе рынка — в технике для «умного» дома. Сейчас компания работает над созданием инфа, «зашитого» в аппаратное устройство, которое связывает всю бытовую технику в доме. Такой бытовой робот (его разрабатывает другой стартап Ашманова) сможет объединить в сеть имеющиеся в доме приборы и управлять ими, реагируя на голосовые команды пользователя. Подобное статусное, знаковое внедрение «Наносемантике» остро необходимо: искусственный интеллект уже добирается до каждого утюга и каждой микроволновки — самое время ему начать приносить прибыль.