Классификация текстов по признаку «ложный / правдивый» с использованием методов автоматической обработки текстов / Т. А. Литвинова, П. В. Середин, О. А. Литвинова, Д. Р. Лиелль // Научный диалог. — 2016. — № 10 (58). — С. 70—83.
Litvinova, T. A., Seredin, P. V., Litvinova, O. A., Lyell, J. R. (2016). Text Classification on Basis of "False / True" using Methods of Automatic Text Processing. Nauchnyy dialog, 10(58): 70-83. (In Russ.).
ERIHJMP
Журнал включен в Перечень ВАК
и I к I С н' s
PERKXMCALS DIRECIORV.-
Журнал УДК 81'33+811.161.Г322.2+519.765
Классификация текстов по признаку «ложный / правдивый» с использованием методов автоматической обработки текстов1
© Литвинова Татьяна Александровна (2016), кандидат филологических наук, заведующий лабораторией корпусной социолингвистики и автороведческих исследований, Воронежский государственный педагогический университет (Воронеж, Россия), centr_ [email protected].
SPIN-code: 3050-5653 Scopus Author ID: 56638057700 ResearcherlD: P-3809-2016 © Середин Павел Владимирович (2016), доктор физико-математических наук, доцент кафедры физики твердого тела и полупроводников, Воронежский государственный университет (Воронеж, Россия), [email protected].
Scopus Author ID: 8404521100 © Литвинова Ольга Александровна (2016), инженер-исследователь, НИЦ «Курчатовский институт» (Москва, Россия), [email protected].
SPIN-code: 3076-3843 Scopus Author ID: 56878809500 © Лиелль, Джон Роберт (2016), студент магистерской программы «Компьютерная лингвистика», Национальный исследовательский университет Высшая школа экономики (Москва, Россия), [email protected].
Работа посвящена проблеме классификации текстов на русском языке по параметру «ложный / правдивый». Отмечается, что человек распознает ложь в речи на уровне случайной величины, следовательно, крайне необходимы инструменты, помогающие человеку в распознавании ложной, то есть намеренно искаженной ин-
1 Исследование выполнено при поддержке гранта РГНФ № 15-34-01221 «Детекция лжи в письменном тексте: корпусное исследование».
формации. Указывается, что проблема распознавания лжи в речи изучается на протяжении длительного времени, однако в последние 10—15 лет для ее решения стали использоваться методы корпусной и компьютерной лингвистики. Подчеркивается, что большинство подобных работ выполняется на материале английского языка, в то время как русский язык находится на периферии подобных исследований. Авторами статьи построен специальный корпус ложных и правдивых нарративов на тему «Как я провел вчерашний день?» от каждого респондента, N = 173. Тексты были обработаны при помощи русской версии программы LIWC с пользовательскими словарями. Представлены результаты разработки метода, основанного на использовании коэффициента вариации и анализе характера распределения значений параметров текста. Предложенный метод позволил классифицировать текст как ложный или правдивый с точностью 68,3 %. Показано, что модель с разной точностью классифицирует тексты мужчин и женщин, а значит, в дальнейшем необходимо строить подобные модели с учетом характеристик авторов текстов, в том числе гендера.
Ключевые слова: корпус текстов; распознавание лжи в речи; компьютерная лингвистика; корпусы текстов; LIWC.
1. Введение
Ложь — это намеренное искажение информации с целью создать у собеседника ложное впечатление или привести его к ложным выводам [Bur-goon et al., 1994]. Как показали многочисленные исследования, люди разных социальных и профессиональных групп (студенты, психологи, судьи, следователи и т. д.) распознают ложь на уровне случайной величины [Bond et al., 2006]. Как указывает известный эксперт в области распознавания лжи А. Vrij, машины распознают ложь с большим успехом, чем люди [Vrij, 2010].
На протяжении долгого времени ученые изучают феномен лжи и пытаются разработать техники для выявления в речи намеренно искаженной информации. C развитием интернет-коммуникации особенно актуальной становится проблема обнаружения ложной информации в письменных текстах небольшого объема (например, в отзывах о товарах / услугах и т. д.). Очевидно, отдельная языковая категория или единица не может служит надежным маркером лжи — необходим анализ ряда языковых параметров текста в совокупности [Vrij, 2010, р. 103].
В последние 10—15 лет для решения данной задачи исследователи используют методы компьютерной лингвистики, в частности, методы автоматической обработки текстов (NLP) и анализа больших данных. При помощи различных программных средств из текстов, «ложность» / «правдивость» которых известна, извлекаются численные значения различных параметров, строятся модели классификации текста как ложного / правдивого, затем тестируемые на текстах, которые не использовались при построении моделей.
Одной из первых работ, в которых был применен указанный подход, является работа [Newman et al., 2003], в которой было показано, что, ис-
пользуя методы машинного обучения и количественные значения параметров текста, можно автоматически классифицировать тексты как ложные / правдивые с точностью до 67 %.
Как и указанная работа, большинство исследований в данной области выполнены на материале английского языка. Для лингвистической разметки текстов во многих работах, как и в работе Newman и др., используется программа Linguistic Inquiry and Word Count (сокращенно LIWC) [Pennebaker et al., 2007]. Программа подсчитывает доли в тексте слов различных грамматических и лексико-семантических категорий. Внутри каждой категории выделяются подкатегории. Например, программа позволяет подсчитывать в тексте как долю слов, обозначающих психологические процессы, так и в отдельности долю слов, обозначающих эмоции, когнитивные операции и т. д.
Так, в работе [Mihalcea et al., 2009], выполненной с использованием LIWC на материале ложных и правдивых текстов — мнений по трем спорным вопросам, была достигнута точность классификации текстов 70 %, что значительно превышает случайную величину. В похожем исследовании, выполненном на испаноязычном материале [Almela et al., 2013], была исследована эффективность параметров текста, вычисляемых при помощи LIWC, при этом была достигнута схожая точность классификации (73,6 %).
Работ, посвященных квалификации текстов на русском языке по признаку «ложный / правдивый», до настоящего времени практически не существовало. В 2015 году Д. Писаревской было выполнено пилотное исследование, направленное на классификацию текстов новостей [Pisarevskaya, 2015]. С использованием методов машинного обучения и аппарата теории риторических структур был построен классификатор, точность которого составила 60 %. Исследования, направленные на выявление статистически значимых различий между ложными и правдивыми текстами — образцами естественной письменной речи, с 2015 года проводятся в лаборатории корпусной социолингвистики и автороведческих исследований Воронежского государственного педагогического университета (ВГПУ) на основе специально созданного корпуса текстов [Литвинова, 2015; Litvinova et al., 2016с].
Для настоящего исследования мы использовали программу Linguistic Inquiry and Word Count с созданными нами пользовательскими словарями. Мы анализировали тексты по 104 параметрам и с учетом установленных различий между ложными и правдивыми текстами построили модель для классификации текстов на основе анализа численных значений ряда языковых параметров.
2. Материал и методы
Прежде всего для решения поставленной задачи необходим корпус текстов, ложность / правдивость которых известна. Создание таких корпусов текстов представляет собой самостоятельную научную задачу (см., например: [Fitzpatrick et al., 2012]). Большинство используемых в современных работах корпусов текстов имеет ряд ограничений, связанных как с небольшим числом респондентов, так и с тем, что в них содержатся не ложные и правдивые тексты от одного и того же автора, а набор предложений, помеченных как ложные / правдивые, между тем как для разработки методик диагностирования лжи в тексте важно именно выявление моделей изменения идиолекта одного и того же автора при продуцировании им ложных и правдивых текстов на одну и ту же тему. Кроме того, существующие корпусы содержат преимущественно англоязычные тексты.
Недостатком имеющихся корпусов является также отсутствие детальной метаразметки в виде информации об авторах (пол, возраст, уровень образования, данные психологического тестирования и т. д.), которая позволила бы установить влияние характеристик автора на особенности продуцирования им ложного текста.
В нашей работе в качестве материала исследования выступает первый для русского языка корпус текстов такого типа "Russian Deception Bank". Его сбор был начат в 2014 году в рамках создания корпуса "RusPersonality" [Litvinova et al., 2016a], содержащего обширную метаразметку в виде данных об авторах. "Russian Deception Bank" содержит правдивые и ложные нарративы каждого автора на одну и ту же тему («Как я провел вчерашний день») [Litvinova et al., 2016c].
Участникам не пояснялась цель эксперимента. Были даны инструкции писать тексты таким образом, чтобы их правдивость / ложность было трудно установить, при этом каждый респондент должен был указать, какой текст является ложным, а какой — правдивым (см. пример текстов в табл. 1). Мы объясняли испытуемым, что их тексты (без информации о том, какой из текстов является ложным, а какой — правдивым) будут рассмотрены профессиональным психологом, который будет пытаться выявить, какой текст содержит ложь, а какой является правдивым. Каждый респондент, тексты которого эксперт не смог верно классифицировать, получали поощрение — сертификат для приобретения двух билетов в кино.
Число авторов на момент написания статьи N = 173 (76 мужчин, 97 женщин, студенты университета, для которых русский язык является родным). Корпус постоянно пополняется и, помимо собственно текстов,
Таблица 1
Примеры правдивого и ложного текста одного и того же респондента (сохранены орфография и пунктуация автора)
Правдивый текст Ложный текст
В общем мы приехали в Питер, поехали в квартиру, которую забронировали, она находилась недалеко от центра. Побросав вещи сразу пошли гулять, про-гульнулись по центру и пошли кушать, в принципе каждое светлое время суток во время нашего пребывания не отличалось. Вечером направлялись в любой Паб или Бар и там коротали время, именно коротали время, так как особого веселья я там не застал, возможно из-за не самой веселой компании. Конечно было интересно посетить музеи и другие достопримечательности этого города, но все это происходило без должных эмоций, и вообще всю поездку настроение было не очень. Приехав в Питер, мы сразу поехали в квартиру, которую мы забронировали, она была в центре города, прямо на Невском, прямо из окна можно было видеть красивые пейзажи Питера, особенно вечером, когда солнце садилось, было очень красиво. Конечно гулять в этом городе можно бесконечно и это не надоест, пока гуляешь непроизвольно радуешься всему что тебя окружает. Каждый вечер мы колесили по городу по разным заведениям, однозначно таких клубов и пабов у нас в городе еще нету и долго не будет. Невероятное настроение получаешь от этого города.
содержит метаданные об их авторах (пол, результаты психологического тестирования и т. д.). Таким образом, корпус дает возможность для выявления влияния характеристик автора на особенности продуцирования им ложной информации.
Каждый текст был помещен в отдельный файл формата Word. Все 346 текстов были проанализированы при помощи лицензионной версии программы LIWC 2015. Мы использовали входящий в состав программы базовый словарь для русского языка. Из стандартных категорий, вычисляемых на базе встроенного словаря программы, мы исключили категории, отражающие содержание текстов. Таким образом, нами были взяты следующие параметры: I блок — «Стандартные лингвистические переменные» (19 параметров), II блок — «Психологические процессы» (19 параметров), а также доля различных знаков препинания (11 параметров).
Нами были также составлены в соответствии с инструкцией к программе пользовательские словари: словарь 20 самых частотных служебных слов русского языка Freq FW (20 параметров — процентное отношение встречаемости каждого слова в тексте и 1 параметр — процентное отношение встречаемости всех таких слов), словарь указательных местоимений и наречий Deictic (1 параметр — процентное соотношение данных слов к об-
щей длине текста в словах), дискурсивных маркеров DM (10), словарь ин-тенсификаторов и downtowners Intens (2 параметра), словарь местоимений как частей речи Pron (10), словарь перцептивной лексики PerceptLex (1 параметр), словарь, содержащий местоимения и наречия, указывающие на говорящего Ego (я, мой, моя, мое, по-моему) (1 параметр), словарь лексики, обозначающей эмоции Emo (отдельно — негативные и позитивные, 2 параметра).
Таким образом, всего из текстов были извлечены численные значения 104 параметров. Пользовательские словари были составлены на базе имеющихся словарей и тезаурусов русского языка (см. подробнее о некоторых словарях: [Litvinova et al., 2016b]).
Составление словарей, включающих слова тех или иных тематических групп, потребовалось вследствие того, что словарь программы для русского языка является переводом соответствующего англоязычного словаря и не проходил независимую проверку: если все переменные из первой группы определяются однозначно, то отнесение слов к той или иной семантической категории зачастую субъективно и требует независимой оценки.
Математическая обработка результатов анализа текстов была выполнена с использованием профессионального программного обеспечения SPSS 13.0.
3. Результаты и обсуждение
На первоначальном этапе мы исключили из общего списка параметров те из них, которые имели частотность появления в корпусе текстов ниже 50 %. Под частотностью параметра текста мы понимаем соотношение числа ненулевых значений параметра к числу всех проанализированных текстов (как правдивых, так и ложных). Далее мы рассчитали и оценили коэффициент вариации параметров текста, который показывает степень варьирования лингвистического параметра в текстах одного автора [Левицкий, 2007]. Это можно сделать, используя следующее соотношение:
\xm ~ ХЛ;1 j __
V =-х 100%,
n
где xni — значение i-го параметра в правдивом тексте, xyLj — значение i-го параметра в ложном тексте, n — размер выборки. Рассчитанные значения коэффициентов вариации представлены в таблице 1.
Статистический анализ (табл. 2) показал, что рассчитанный коэффициент вариации для выбранных параметров текста лежит в достаточно широких пределах. Среди исследуемых нами параметров имеются как относительно стабильные (до 33 %) [Левицкий, 2007; Литвинова, 2015], так и отличающиеся значительной вариативностью. Из дальнейшего исследования нами были исключены параметры, отличающиеся значительной вариативностью (свыше 50 %).
Для того чтобы понять, как по абсолютной величине изменяются параметры ложных и правдивых текстов одного автора, мы рассчитали усредненные значения каждого параметра (табл. 2).
Для того чтобы определить, какие из выбранных на первом этапе параметров текста мы смогли бы использовать для дальнейших расчетов, мы попытались определить, как связана величина коэффициента вариации параметров текста, частотность параметра в текстах авторов, а также разность средних значений параметров текста по выборке правдивых и ложных текстов. Используя методы корреляционного анализа, мы установили, что для уровня статистической значимости p < 0.05 связь между частотностью параметра и разницей средних значений правдивых и ложных текстов отсутствует. В то же время расчет коэффициента корреляции Пирсона для частотности параметров текста и коэффициента их вариации показал существование сильной связи (r > 0.9 при p < 0.05). Таким образом, мы смогли сделать весьма важный вывод: использование только лишь средних значений параметров текста по выборке не всегда оправданно, так как не учитывается вид распределения конкретного параметра в ложных и правдивых текстах одного автора.
Чтобы учесть вид распределения языковых параметров в правдивых и ложных текстах, с использованием стандартных процедур программного пакета SPSS мы проверили гипотезу о подчинении вида распределения величины конкретного параметра в корпусе ложных и правдивых текстов закону нормально распределенной величины. Одним из наиболее эффективных критериев проверки нормальности является использование критерия Шапиро-Уилка, который является наиболее эффективным, так как он обладает большей мощностью по сравнению с альтернативными критериями проверки нормальности.
Расчет показал, что нормальным распределением в правдивых текстах обладают 15 параметров (табл. 2).
Однако при этом некоторые параметры текста, а именно Sixltr, AllPunc, «Total Pers Pronoun», в ложных текстах меняют вид своего распределения на отличный от нормального. Установление причин отклонения распре-
Таблица 2
Данные анализа текстов
Параметр Частотность в правдивых текстах Частотность в ложных текстах Разница в усредненных значениях параметров в правдивых текстах относительно ложных, % Коэффициент вариации
Words > 6 letters (Sixltr) 100 100 0,607083 15,099559
Total pronouns 97 99 -2,59939 29,140882
Total pers pronouns 97 98 -6,116504854 29,7833318
Verbs 100 100 -3,028308097 27,3724335
Prepositions 100 100 1,038575668 19,7003498
Cognitive Processes 100 100 -3,144654088 21,7112228
Inclusive 100 98 -5,245153934 33,9664574
Space 100 99 -1,180744777 25,5026586
All Punctuation 100 100 6,788990826 16,2179651
Comma 100 99 1,522248244 32,6609491
Freq FW 100 100 0,05220569 10,8388474
И ('and') 98 98 -7,317073171 35,3940123
DM Additions 97 98 -7,671232877 36,1638782
Noun-like Pron 98 96 -5,655172414 40,6802592
PersPron User 96 93 -6,914893617 45,3445778
деления от нормального вида в ложных текстах авторов относительно их правдивых текстов является весьма важной темой, однако лежит вне области данной работы.
В основе модели, которая позволит оценить вероятность отнесения текста к ложным или правдивым, нами выбраны лишь те параметры из общей совокупности, которые:
— являются частотными (то есть встречаются не менее чем в половине текстов);
— умеренно варьируют в текстах одного автора (в среднем по выборке);
— прошли тест на нормальность их распределения.
Следует отметить, что для построения модели использованы те параметры, которые имеют нормальный вид распределения для корпуса правдивых текстов.
Таким образом, для построения модели мы использовали набор элементов, обозначаемых и которые являются средними значениями выбранных нами 15-ти параметров в правдивых и ложных текстах соответственно. Можно говорить, что SП и SЛ представляют собой числовые последовательности [БП1... SП15] и [БЛ1... SЛ15] усредненных параметров текста по корпусу правдивых и ложных текстов.
Для текста, который необходимо проверить на принадлежность к ложным или правдивым, мы должны определить набор тех же самых пятнадцати элементов SТi, также представляющих собой числовую последовательность SТ.
Количественную меру отклонения распределения числовой последовательности SТ от распределений числовых последовательностей SП и SЛ, которые характерны для правдивых и ложных текстов соответственно, определим следующим образом:
2
Хтг =
1 п П Е
__П/ - ^Т/)2
¿П
аналогично определим отклонение распределения SЛ от SТ
Л^Л/
2
х„ =
1
212 Е
п ^
Будем считать, что для того чтобы определить, к какому типу (ложному или правдивому) относится анализируемый текст, нам достаточно будет сравнить величины хк и х^. Анализируемый текст будет относиться к лож-
7 2 7 2
ным, если х^ > или к правдивым, если справедливо х^ <
Для проверки работоспособности такого подхода перед построением модели тексты корпуса были разделены на обучающую и тестовую выборки размерами 113x2 (113 правдивых и 113 ложных) и 30x2 (30 правдивых и 30 ложных) текстов соответственно.
Для оценки предложенной модели была подсчитана точность модели, то есть процент текстов, которые были классифицированы верно.
Тестовая выборка создавалась таким образом, чтобы в ней было равное число женщин и мужчин.
Мы проверяли точность модели отдельно для мужчин и женщин, а также общую точность модели. Точность классификации текстов мужчин составила 73,3 %, точность классификации текстов женщин — 63,3 %. Точность предложенного подхода, оцененная на общем тестовом корпусе,
без разделения на тексты женщин и мужчин, составила 68,3 % (случайная величина — 50 %).
Таким образом, наш анализ показал, что в дальнейшем необходимо строить модели для диагностирования лжи в письменном тексте с учетом характеристик автора текста, в том числе пола [Levitan et al., 2016].
4. Выводы
Таким образом, предложенный нами подход позволил построить классификатор, позволяющий классифицировать текст как ложный / правдивый с точностью 68,3 %, что сравнимо с результатами, полученными на материале других языков.
Анализ показал, что в дальнейшем необходимо строить модели для диагностирования лжи в письменном тексте с учетом характеристик автора текста. Мужчины и женщины «лгут по-разному» [Pérez-Rosas et al., 2014]. Следовательно, в дальнейшем необходимо строить модели для классификации текста как ложного / правдивого отдельно для мужчин и женщин, для людей разных возрастных групп, людей разных психотипов, с тем чтобы увеличить точность указанных моделей. Данное направление исследований является перспективным, однако практически не разработанным, что связано с отсутствием соответствующих корпусов текстов.
В дальнейшем необходимо расширение корпуса ложных и правдивых текстов, содержащих метаразметку в виде данных об авторах, за счет увеличения как числа текстов, так и числа респондентов, и выявление на материале данного корпуса особенностей продуцирования ложных текстов в зависимости от пола, возраста, психотипа автора текста.
Одной из важнейших задач является тестирование предложенного подхода на материале «реальных» ложных текстов, созданных в ситуациях, когда цена лжи высока (при приеме на работу, при даче показаний и т. д.).
В дальнейшем также представляется перспективным расширение списка параметров текста, в том числе за счет параметров, отражающих степень сложности текста, в частности индексов лексического разнообразия, для проверки гипотезы о том, что ложь представляется собой значительную когнитивную нагрузку.
Литература
1. Левицкий В. В. Квантитативные методы в лингвистике / В. В. Левицкий. — Винница : Нова книга, 2007. — 264 с.
2. Литвинова Т. А. Исследование лингвистических характеристик текстов, содержащих намеренно искаженную информацию, с помощью программы Linguistic
Inquiry and Word Count / Т. А. Литвинова, О. А. Литвинова // Вестник МГОУ. Серия, Лингвистика. — 2015. — № 4. — С. 71—77.
3. Литвинова Т. А. К проблеме стабильности характеристик идиостиля / Т. А. Литвинова // Известия Южного федерального университета. Филологические науки. — 2015. — № 3. — С. 98—106.
4. Almela Á. Seeing through Deception : A Computational Approach to Deceit Detection in Written Communication [Electronic resource] / Á. Almela, V.-G. Rafael, C. Pascual // LESLI. — 2013. — N 1 (1). — Access mode : http://www.lesli-journal.org/ojs/ index.php/lesli/article/view/5/5.
5. Bond Ch. F. Jr. Accuracy of Deception Judgments / Ch. F. Jr. Bond, B. M. DePaulo // Pers Soc Psychol Rev. — 2006. — Vol. 10, N 3. — P. 214—234.
6. Burgoon J. K. Interpersonal deception : III effects of deceit on perceived communication and non-verbal behavior dynamics / J. K. Burgoon, D. B. Buller // Journal of Nonverbal Behavior. — 1994. — Vol. 18 (2). — P. 155—184.
7. Fitzpatrick E. Building a data collection for deception research / E. Fitzpatrick, J. Bachenko // E. Fitzpatrick, J. Bachenko, T. Fornaciari (eds). Proc. of the EACL Workshop on Computational Approaches to Deception Detection. — 2012. — P. 31—38.
8. Levitan S. Identifying Individual Differences in Gender, Ethnicity, and Personality from Dialogue for Deception Detection / S. Levitan [et al.] // NAACL Workshop on Computational Approaches to Deception Detection. — San Diego, 2016.
9. Litvinova T. "RusPersonality" : A Russian corpus for authorship profiling and deception detection / T. Litvinova [et al.] // Proceedings of International FRUCT Conference on Intelligence, Social Media and Web (ISMW FRUCT). — Sankt-Petersburg, 2016a. — P. 1—7.
10. Litvinova T. Predicting the gender of an author of a russian text using regression and classification techniques [Electronic resource] / T. Litvinova [et al.] // J. Baixeries, D. I. Ignatov, D. Ilvovsky, A. Panchenko. (eds.). Proceedings of the Third Workshop on Concept Discovery in Unstructured Data. — Moscow, 2016b. — P. 44—53. — Access mode : http://ceur-ws.org/Vol-1625/.
11. Litvinova T. Russian Deception Bank : A Corpus for Automated Deception Detection in Text / T. Litvinova, O. Litvinova // A. Horák, K. Pala, P. Rychly, A. Rambousek (eds.). Community-based Building of Language Resources (CBBLR 2016). — Brno, 2016c. — P. 1—7.
12. Mihalcea R. The Lie Detector : Explorations in the Automatic Recognition of Deceptive Language / R. Mihalcea, C. Strapparava // Proceedings of the Association for Computational Linguistics (ACL-IJCNLP 2009). — Singapore, 2009.
13. Newman M. L. Lying Words : Predicting Deception From Linguistic Styles / M. L. Newman [et al.] // Personality and Social Psychology Bulletin. — 2003. — Vol. 29 (5). — P. 665—675.
14. Pennebaker J. W. The development and psychometric properties of LIWC2007 / J. W. Pennebaker [et al.]. — Austin, TX : LIWC.net, 2007.
15. Pérez-Rosas V. Gender differences in deceivers writing style / V. Pérez-Rosas, R. Mihalcea // Lecture Notes in Computer Science. — 2014. — Vol. 8856. — P. 163—174.
16. Pisarevskaya D. Rhetorical Structure Theory as a Feature for Deception Detection in News Reports in the Russian Language : paper presented at the Artificial Intelligence and Natural Language & Information Extraction, Social Media and Web Search (AINL-ISMW) [Electronic resource] / D. Pisarevskaya. — 2015. — Access mode : https:// www.fruct.org/publications/ainl-abstract/files/Pis.pdf.
17. VrijA. Detecting lies and deceit : Pitfalls and opportunities / A. Vrij. —Chisch-ester : John Wiley and Sons, 2010.
Text Classification on Basis of "False / True" using Methods of Automatic Text Processing1
© Litvinova Tatyana Aleksandrovna (2016), PhD in Philology, Head of Laboratory of Corpus Sociolinguistics and Authorship Studies, Voronezh State Pedagogical University (Voronezh, Russia), [email protected].
© Seredin Pavel Vladimirovich (2016), Doctor of Physics and Mathematics, associate professor, Department of Solid State Physics and Semiconductors, Voronezh State Pedagogical University (Voronezh, Russia), [email protected].
© Litvinova Olga Aleksandrovna (2016), engineer-researcher, National Research Center «Kurchatov Institute» (Moscow, Russia), [email protected]. © Lyell, John Robert (2016), Master degree student, "Computational Linguistics" program, National Research University Higher School of Economics (Moscow, Russia), jjlyell@gmail. com.
The work is devoted to the problem of classification of texts in Russian language for "false / true" parameter. It is noted that people recognize the lie in speech at the level of random variables, therefore, the tools that help people to recognize intentionally distorted information are needed. It is indicated that the problem of recognition the lie in speech is studied for a long time, but in the last 10—15 years the methods of corpus and computational linguistics have been used to solve it. It is emphasized that most of the similar works are made in the English language, while Russian language is on the periphery of such studies. The authors built special corpus of false and true narratives on the theme "How did I spend yesterday?" from each respondent, N = 173. The texts were processed using the Russian version of the LIWC program with users' dictionaries. The results of method development are presented based on the use of variation coefficient and the analysis of the distribution of values of the parameters of the text. The proposed method allowed to classify the text as false or true with an accuracy of 68.3 %. It is shown that the model with different accuracy classifies the texts by men and women, which means that in the future it is necessary to build such models based on the characteristics of the authors of texts, including gender.
Key words: text corpus; lie recognition in speech; computational linguistics; corpus of texts; LIWC.
1 The research is supported by Russian Foundation for Humanities, grant No. 15-34-01221 "The Detection of Deception in Written Text: a Corpus Study".
References
Almela, A. Rafael, V.-G, Pascual, C. 2013. Seeing through Deception: A Computational Approach to Deceit Detection in Written Communication. LESLI, 1 (1). Available at: http://www.lesli-journal.org/ojs/index.php/lesli/article/ view/5/5. (In USA.).
Bond, Ch. F. Jr., DePaulo, B. M. 2006. Accuracy of Deception Judgments. Personality and Social Psychology Review, 10/3: 214—234. (In USA.).
Burgoon, J. K., Buller, D. B. 1994. Interpersonal deception: III effects of deceit on perceived communication and non-verbal behavior dynamics. Journal of Nonverbal Behavior, 18 (2): 155—184. (In Luxemb.)
Fitzpatrick, E., Bachenko, J. 2012. Building a data collection for deception research.
In: Fitzpatrick, E., Bachenko, J., Fornaciari, T. (eds). Proc. of the EACL Workshop on Computational Approaches to Deception Detection. Avignon. (In French).
Levitan, S. 2016. Identifying Individual Differences in Gender, Ethnicity, and Personality from Dialogue for Deception Detection. In: NAACL Workshop on Computational Approaches to Deception Detection. San Diego. (In USA.).
Levitskiy, V. V. 2007. Kvantitativnye metody v lingvistike. Vinnitsa: Nova kniga. (In Russ.).
Litvinova, T. A. 2015. K probleme stabilnosti kharakteristik idiostilya. Izvestiya Yuzhno-go federalnogo universiteta. Filologicheskie nauki, 3: 98—106. (In Russ.).
Litvinova, T. A., Litvinova, O. A. 2015. Issledovaniye lingvisticheskikh kharakteristik tekstov, soderzhashchikh namerenno iskazhennuyu informatsiyu, s pomoshch'yu programmy Linguistic Inquiry and Word Count. Vestnik MGOU. Seriya, Lingvistika, 4: 71—77. (In Russ.).
Litvinova, T. Litvinova, O. 2016. Russian Deception Bank: A Corpus for Automated Deception Detection in Text. In: Horak, A., Pala, K., Rychly, P. Rambousek, A. (eds.). Community-based Building of Language Resources (CBBLR 2016). Brno. (In Czech.)
Litvinova, T. 2016. Predicting the gender of an author of a russian text using regression and classification techniques. In: Baixeries, J., Ignatov, D. I., Ilvovsky, D., Panchenko, A. (eds.). Proceedings of the Third Workshop on Concept Discovery in Unstructured Data. Moscow. Available at: http://ceur-ws.org/Vol-1625/. (In Russ.).
Litvinova, T. 2016. "RusPersonality": A Russian corpus for authorship profiling and deception detection. In: Proceedings of International FRUCT Conference on Intelligence, Social Media and Web (ISMW FRUCT). Sankt-Petersburg. (In Russ.).
Mihalcea, R., Strapparava, C. 2009. The Lie Detector: Explorations in the Automatic Recognition of Deceptive Language. In: Proceedings of the Association for Computational Linguistics (ACL-IJCNLP 2009). Singapore. (In Singapore)
Newman, M. L. 2003. Lying Words: Predicting Deception From Linguistic Styles. Personality and Social Psychology Bulletin, 29 (5): 665—675. (In USA.).
Pennebaker, J. W. 2007. The development and psychometric properties of LIWC 2007. Austin, TX: LIWC.net. (In USA.).
Pérez-Rosas, V., Mihalcea, R. 2014. Gender differences in deceivers writing style. Lecture Notes in Computer Science, 8856: 163—174. (In Germ.).
Pisarevskaya, D. 2015. Rhetorical Structure Theory as a Feature for Deception Detection in News Reports in the Russian Language: paper presented at the Artificial Intelligence and Natural Language & Information Extraction, Social Media and Web Search (AINL-ISMW). Available at: https://www.fruct.org/ publications/ainl-abstract/files/Pis.pdf.
Vrij, A. 2010. Detecting lies and deceit: Pitfalls and opportunities. Chischester: John Wiley and Sons. (In Engl.)