| Большие данные и их приложения
УДК 004.4
Калегин С.Н.
ЗАО «МНИТИ», г. Москва, Россия Институт проблем управления им. В.А. Трапезникова РАН, г. Москва, Россия
РАСЧЁТ РЕСУРСОЁМКОСТИ ПРОГРАММ ЯЗЫКОВОЙ ИДЕНТИФИКАЦИИ ТЕКСТА
Аннотация
В статье приводится расчёт ресурсоёмкости программных решений для определения языковой принадлежности текста в зависимости от их способов идентификации. Рассмотрены наиболее используемые сегодня способы с указанием их преимуществ и недостатков, но без учёта вариантов их технической реализации. Это позволит разработчикам более осмысленно подходить к проектированию подобного программного обеспечения, а потребителям более осознанно его выбирать.
Ключевые слова
Языковая идентификация текста; определение языковой принадлежности текста; программа языковой идентификации; определитель языковой принадлежности текста.
Kalegin S.N.
CJSC MNITI, Moscow, Russia Institute of Control Sciences of the Russian Academy of Sciences, Moscow, Russia
RESOURCE INTENSITY CALCULATION FOR TEXTS LANGUAGE IDENTIFICATION
PROGRAMS
Abstract
The article deals with the resource intensity calculation of texts language identification programs depending on their identification methods. The most commonly used methods are described, together with an indication of their advantages and disadvantages, but without taking into account the technical implementation variants. This gives developers more sensible approach to the design of such software, and consumers will be able to make more informed choice.
Keywords
Text language identification; determining linguistic identity of text; language identification program; detector of text language affiliation.
Введение
В связи с развитием международных отношении и глобализацией информационно-коммуникационных систем, таких как телевидение и компьютерные сети, получили широкое распространение технологии обработки и перевода иноязычных текстов. Для примера можно привести многочисленные системы
автоматического и автоматизированного перевода, которые сегодня имеются в различном исполнении для большинства компьютеров, и универсальные translate-сисгемы от таких компании как Google или Promt, доступные через Интернет любому пользователю, а также
различные автоматизированные системы обработки информации, внедренные сегодня практически на всех уровнях сбора данных и управления. Количество подобных систем и программ машинной обработки информации свидетельствует об их популярности среди пользователей и востребованности на рынке информационных технологии. Такие системы создаются коллективами специалистов в течение нескольких лет и постоянно совершенствуются. Качество их работы зависит от тех принципов, которые были заложены в функциональную основу конкретной системы, алгоритмов взаимодействия составных частеи и их
программной реализации. При этом имеет значение все, начиная с интерфеиса взаимодействия с пользователем и заканчивая дополнительными программными модулями, выполняющими вспомогательные функции. Но основные преимущества и недостатки любои программы характеризуются логическими и технологическими принципами, на базе которых были построены ее алгоритмы, что наглядно показано ниже.
В даннои статье приводится обзор наиболее используемых способов определения языковои принадлежности неструктурированного текста [4, 5] при их программной реализации с целью выявления зависимости ресурсоемкости программ от особенностей способов идентификации, положенных в их основу. На рисунке 1 приведена блок-схема существующих решении [3].
Ниже приводится краткое изложение сути основных современных способов языковои идентификации неструктурированного текста с указанием их качественных характеристик, а также существенных преимуществ и недостатков, определяющих особенности реализующих их программ. Для проведения тестирования способов идентификации в их программной реализации автором разработана соответствующая методика, в которои определены существенные характеристики, выявляющие ресурсоемкость и целесообразность применения каждого конкретного способа, а также его результативность. Следуя даннои методике, основными отличительными особенностями программы языковои идентификации
рационально считать:
• основополагающий идентификационный принцип;
• объем и структура идентификационного набора;
• длина (объем) идентификационного маркера;
• количество операции сравнения;
• требуемьш объем оперативной памяти;
• требуемая вычислительная мощность компьютера;
• необходимость использования дополнительных систем, моделей, баз данных, словарей и т.п.;
• вероятность верного результата.
Как видно из приведенного списка, на результат машинного определения языковои принадлежности текста тем или иным способом существенное влияние оказывают как способы идентификации, на базе которых строится логика алгоритма даннои программы, так и технические показатели конкретной реализации. Для сравнения были выделены наиболее известные в современном мире способы языковои идентификации на основе:
• использования словарей;
• использования уникальных знаков;
• использования статистики комбинации символов (п-грамм);
• грамматического анализа;
• поиска коротких слов.
Изложение расчета их ресурсоемкости, приведенное ниже, структурировано по основополагающим идентификационным
принципам для удобства сравнения их эффективности и технической реализации с учетом рассматриваемых способов и подходов.
N ^
■'ИДЕНТИФИКАЩГОННЫИ: ? СПОСОБ
ПРИНЦИП I 1 ИДЕНТИФИКАЦИИ |
Идентификация по и-грамм-модспям
Идентификация по сочетаниям символов
Идентификация по отдельным символам
Идентификация по словарным формам
Идентификация по списку слов
Иденпфикация по формам слов
Идентификация по синтаксису текста
Идентификация по формам аффиксов
Идентификация по формам глагшоЕ
Идентификация по служебным словам /
Рис. 1. Классификация способов языковой идентификации текста
Ресурсоёмкость способов языковой идентификации текста
Способы языковои идентификации
неструктурированного текста могут быть классифицированы по различным признакам, например, по сложности, эффективности и т.д. В рамках даннои статьи наиболее рационально классифицировать их по типу идентифицирующих элементов - идентификационных маркеров, так как это является основным отличием и определяющим фактором при разработке, которыи задает ограничения по использованию и требования к ресурсам. Для наглядности названия способов даны полужирным шрифтом, а их описание приводится в порядке усложнения алгоритмов реализации. Для каждого способа
Лексический
Грамматический
I
^Типгпш'тлчео.'лп Р^^-р-*
указаны его расчетная ресурсоемкость, относительная вероятность верной
идентификации и условия использования, а также преимущества и недостатки, позволяющие оценить рациональность его применения в различных ситуациях. В представленном ниже обзоре эти способы приводятся в порядке увеличения сложности их реализации и с учетом распространенности. При этом для каждого способа приводятся расчеты максимального количества операции сравнения (Nopr) и объема оперативной памяти (Vpam), требуемого для хранения массива идентифицируемых элементов, идентификационной матрицы (языкового фильтра), служебной информации и т.д. Сопутствующая ресурсоемкость вспомогательных процессов не рассчитывается, так как не является атрибутом рассматриваемого способа и может меняться в широких пределах по различным причинам или оставаться практически неизменной. Например, ресурсоемкость считывания в память компьютера анализируемого текста практически не изменяется, но преобразование считанных данных в массив анализируемых элементов в различных способах идентификации и их конкретных реализациях проводится по-разному, что не позволяет вывести общую формулу и произвести расчеты. При существенных дополнительных затратах ресурсов при использовании описываемого способа этот факт выносится в перечень его недостатков.
Общие формулы расчета ресурсоемкости для всех способов языковои идентификации имеют следующий вид:
Nopr = NN + Nd0f, (1)
где Nopr - максимальное количество операции сравнения;
Nt - количество идентифицируемых элементов анализируемого текста;
Nids - общее количество идентификационных маркеров;
Ndop - количество дополнительных (сопутствующих) операции.
Vpam = (Nsh*L slt + Nidelm*Lidelm + Nidm*Lidm)*Lsim
+ Vsd + Vmtd, (2)
где Vpam - требуемьш объем оперативной памяти;
Nsit - количество слов в тексте;
Lslt - средняя длина слова в тексте;
Nideim - количество идентифицируемых элементов;
Lideim - средняя длина идентифицируемого элемента;
Nidm - количество идентификационных маркеров в матрице;
Lidm - средняя длина идентификационного маркера;
Lsim - средняя длина символов в байтах;
VSd - объем служебных данных;
Vmtd - объем метаданных.
Как видно из приведенных формул, при анализе одного текста различными способами некоторые показатели изменяться практически не будут, поэтому далее по тексту они не приводятся. Например, это относится к размерам самого текста (Н^Цк) и среднеи длине символов в байтах (Ц^т), а также к количеству сопутствующих операции (^ор). Кроме того, при выполнении любои программы в оперативную память загружается ее код, а также используются временные, служебные и дополнительные переменные, обозначенные в формуле (2) как Vsd, объем которых зависит от множества различных факторов, абстрактное вычисление которых невозможно. Поэтому в отдельный параметр ресурсоемкости в даннои работе они не выделяются и в дальнейших расчетах не приводятся.
Здесь требуется отметить, что каждьш символ обычно соответствует 1-2 байтам в зависимости от кодировки и самих символов, но в разных текстах и идентификационных матрицах могут использоваться различные символы и кодировки, что не позволяет произвести точныи расчет абстрактно и требует введения соответствующего коэффициента. Более того, во многих случаях используются дополнительные служебные символы и записи (метаданные), размер которых зависит от конкретной реализации программы и ее рабочеи среды. Но, как правило, совокупный размер метаданных относительно мал и в данном обзоре может игнорироваться. Поэтому для упрощения восприятия и чистоты сравнения при расчетах ресурсоемкости указывается только максимальное количество возможных операции сравнения (сопоставления) идентифицируемых элементов анализируемого текста с идентификационными маркерами, объем требуемои оперативной памяти рассчитывается исходя из общего объема идентификаторов матрицы, а длина одного символа по умолчанию подразумевается равнои 1-2 байтам.
Использование словарей. Этот способ заключается в поиске совпадении слов текста со словами из словареи идентифицируемых языков, в которые обычно включаются наиболее употребительные лексемы, покрывающие более 80 % речи и современной литературы, что по разным оценкам составляет приблизительно (далее используется знак «~») 1500-3000 слов [1, 13, 18]. То есть, идентификационными маркерами являются словарные формы наиболее употребительных слов. Способ относительно простои и легко реализуемый как программными средствами, так и без них. Однако энергетические и временные затраты на поиск каждого слова текста в каждом словаре множества языков делают данныи способ практически нецелесообразным из-за большого количества операции сравнения, которое упрощенно может
быть выражено формулой:
^рг= (3)
где Ы0рг - количество операции;
N - количество слов в тексте;
N¡¡1 - среднее количество слов в одном словаре; - количество задействованных словарей.
Таким образом, для автоматического определения языковои принадлежности неструктурированного текста, к примеру, из 100 слов при использовании одного словаря на язык, среднем объеме каждого из них в 2500 слов и 20 идентифицируемых языках получаем следующее выражение:
^рг= 100*2500*20=5000000.
То есть, при заданных условиях для определения одного из 20 идентифицируемых языков потребуется до 5 миллионов операции сравнения слов и удерживания всех активных словарей в памяти компьютера, иначе потребуется дополнительное время на их считывание с накопителя информации, что существенно замедлит процесс идентификации. При увеличении количества слов текста, языков или словарей число операции будет увеличиваться кратно. Например, при 40 определяемых языках максимальное количество операции сравнения достигнет 10 миллионов, а при увеличении количества слов анализируемого текста до 400 -20 миллионов.
Кроме того, потребуется определенный объем оперативной памяти, соответствующий общему объему массива идентифицируемых элементов текста и идентификационной матрицы, что может быть выражено следующеи формулой:
Урат = ^ Ls¡) Lsim/ (4)
где ^ат - требуемыи объем оперативной памяти;
Н^г - количество задействованных словарей;
N¡1 - среднее количество слов в одном словаре;
Ьв1 - средняя длина идентифицирующего слова в словарях;
Цат - длина символа в байтах.
Перед проведением расчетов по этои формуле требуется уточнить понятие «среднеи длины слова», которая обычно вычисляется по словарю и для различных языков может составлять от 5 до 12 символов [7, 9, 20]. Но результаты специального исследования, проведенного в рамках диссертационной работы автора, показывают, что средняя длина слова в текстах на европейских языках составляет 5-6 символов. С учетом этих данных средняя длина слова при дальнейших расчетах берется равной 7 символам. Также требуется учитывать объем символов в 1-2 баита или вводить усредненныи коэффициент для анализируемых текстов. То есть, при тех же входных данных по формуле (4) получаются следующие выражения: Vpam = (20*2500*7)*1 = 350000 (для символов в 1
баит)
или
Vpam = (20*2500*7)*2 = 700000 (для символов в 2 баита).
По результатам расчетов видно, что для хранения словарей и массива анализируемых элементов текста при данных условиях может быть задействовано более 700000 баит или ~ 700 килобайт оперативной памяти, причем большую часть занимают словари. Для современных вычислительных систем этот объем не является критичным. Однако увеличение количества идентифицируемых языков или объема словарей на порядок потребует до ~7 мегабайт оперативной памяти, что может существенно повлиять на быстродействие некоторых программ, например, запускаемых удаленно на web-сервере, где для работы каждого скрипта выделяется строго определенное количество памяти (обычно несколько мегабайт). А с учетом ресурсоемкости других сопутствующих операции и особенностей алгоритма определителя языка, при использовании меЬ-технологии приведенные требования к количеству оперативной памяти могут стать критичными для его работоспособности.
К тому же при простом сравнении слов текста со словарными формами их грамматические вариации не учитываются, а значит, вероятность обнаружения совпадении слов из словарей со словами одного языка резко понижается (особенно в небольших текстах), что приводит к ошибкам идентификации. Более того, при использовании данного способа обычно не учитываются короткие слова длинои в 2-4 символа (что требует отдельного рассмотрения), которые могут полностью совпадать в разных языках, в том числе неродственных. Это касается, например, артиклей, предлогов и т.п. А вычленение этих слов из текста требует дополнительных ресурсозатрат и в несколько раз уменьшает количество идентифицирующих слов (идентификационных маркеров), что отрицательно сказывается на результате. Таким образом, уточненная формула вычисления количества операции сравнения (3) приобретает следующий вид:
N0рг = N - т) (5)
где N1« - количество коротких слов в тексте.
Кроме того, количество слов в словарной форме существенно меньше их количества в тексте по причине морфологических изменении (склонении и спряжении), вызванных грамматическими требованиями согласования. Ниже приведен пример анализа неструктурированных текстов данным способом (словарные формы выделены полужирным шрифтом, короткие слова не учитываются).
Представитель Минобороны ДНР Эдуард Басурин проинформировал, что сегодня была совершена очередная попытка прорыва обороны
ополчения республики на линии соприкосновения в пригороде Донецка. По словам представителя Минобороны, силовики ВСУ пытаются реализовать свои предыдущие планы по разъединению стратегически значимых населенных пунктов ДНР. (Из новостной ленты)
Нова была красивой планетой, первой успешной земной колонией. Сейчас это пустыня. Целые города исчезли с её лица, уничтоженные взрывами нейтронных бомб. Нечего опознать. Нечего похоронить. Некого оплакать. Вторжение началось внезапно. Объединённые силы Земли нанесли коварные удары по всей территории планеты. После них остались растерзанные тела. Крики женщин и детей о помощи захлебнулись в плазменном огне, прожегшем их плоть. Мы слышали много проповедей о добродетелях прогресса и науки. Что хорошего от них, если целые цивилизации разрушаются в мгновение ока? (Вступление из компьютерной игры "Power DOLLS") Как видно из примеров, в первом тексте из 40 слов только 5 стоят в словарной форме и имеют длину более 4 символов, что составляет 12,5 % от общего числа, а во втором содержится около 14 % словарных форм из 78 слов, то есть в среднем каждое седьмое слово, остальные формы при таком подходе в идентификации не участвуют, что отрицательно сказывается на качестве результатов применения данного способа, так как пропускаются целые предложения. Для повышения процентного содержания
идентификационных маркеров путем приведения всех слов текста к словарным формам потребуется дополнительный морфологический анализ каждого слова, что на порядки увеличит общее количество операции и сделает данныи процесс еще более ресурсоемким и, как следствие, не всегда целесообразным. Например, в русском языке имеется более 350 аффиксов и флексии, а также возможность изменения корня слова [6]. Это увеличивает указанные выше объем оперативной памяти и количество операции на несколько порядков, так как для приведения слов текста к словарной форме потребуется сделать предположение о языковои принадлежности текста, подобрать соответствующую
грамматическую или морфологическую модель, разобрать каждое слово по составу, выделить корень и сформировать на его основе новое слово в нужнои форме. К тому же для проведения подобного анализа требуется иметь отдельный грамматический анализатор или модель для каждого определяемого языка, а для большинства языков их на данныи момент не существует.
Резюмируя результаты вычислении и учитывая специфику данного способа, его можно использовать только при небольшом количестве заранее известных неродственных языков и достаточном количестве анализируемых
элементов. При автоматическом определении языка неструктурированного текста данным способом в условиях жесткого ограничения потребляемых ресурсов (например, с помощью скриптов на web-сервере) потребуется увеличение лимита ресурсоемкости, а процесс идентификации может занять много времени, что в большинстве случаев сделает ее нецелесообразной
Использование уникальных знаков. Данныи способ заключается в отличии языков друг от друга по особенным буквам или знакам традиционной письменной системы в частности, по буквам с диакритическими знаками (диакритиками), которые обычно используются при записи текстов на данном языке. Диакритика бывает над гласной (например, в буквах «и» или «е»), над согласнои (буква «с») или может как-то иначе сопровождать букву или буквосочетание. Кроме того, во многих алфавитах дополнительно используются специальные символы для обозначения фонем данного языка. Например, в польском алфавите есть знак, напоминающий перечеркнутую букву (-Ц, а в украинском -буква, похожая на русское «э», но повернутая в другую сторону (е). Более того, некоторые языки имеют собственную письменную систему, как например, японский или кореискии. Это наталкивает многих специалистов на ассоциацию конкретной письменности с определенным языком. Так, в «Определителе языков мира по письменностям» Гиляревского и Гривнина [2] собрано около 200 языков в ассоциации с их письменными системами, по особенностям которых авторы предлагают определять язык нужного текста. Однако это не всегда приводит к ожидаемому результату по разным причинам. Например, если определять русский язык по наличию в тексте буквы «е», то многие технические тексты, где данная буква практически не используется, не будут идентифицированы, а тексты на других языках (германских или тюркских), записанных кириллицей и имеющих подобную фонему, как раз будут отнесены к русскому. Также язык может быть определен по наличию в тексте специальных непроизносимых букв или знаков. В русском алфавите это твердыи (ъ) и мягкии (ь) знаки. То есть для идентификации языка текста данным способом достаточно выделить из традиционной для конкретного языка письменности несколько характерных символов (обычно 4-6 штук), например, для русского могут быть взяты ё, й, ъ и ь. Это позволит существенно сократить затраты ресурсов.
Как следует из описания,
идентификационными маркерами при этом способе определения языка являются символы, а значит, количество сравнении будет равно количеству символов текста кратному количеству идентификационных маркеров, что может быть
выражено следующей формулой:
Nopr = Nsim Nids (6)
где: Nopr - количество операций сравнения;
Nsim - количество символов в тексте;
Nids - общее количество идентификационных маркеров.
Следовательно, исходя из описания данного способа й колйчества йдентйфйцйрующйх язык символов в 4-6 штук, то есть в среднем ~ 5, получается следующая модификация формулы (6):
N = N *5*N (7)
1 » opr 1 » sim •-> 14 iaz ( ' )
где Niaz - количество определяемых языков.
Таким образом, если в анализируемом тексте содержится 100 слов, средняя длина которых ~ 7 символов, то при 20 определяемых языках получаем:
Nopr = (100*7)*5*20 = 70000.
Из приведенных результатов видно, что при проведенйй йдентйфйкацйй языка текста данным способом требуется прймерно в 71 раз меньше операций сравнения, чем при использований словарей. Кроме того, сами идентификационные маркеры занймают существенно меньше места в памятй компьютера, что также позволяет экономить ресурсы. Так, при среднем количестве идентифицирующих символов по 5 на каждый язык й объеме сймвола в 1-2 байта, получаем следующйе модйфйкацйй прйведенного выше выраженйя:
Vpam = 20*5*1 = 100
йлй
Vpam = 20*5*2 = 200.
Как следует йз расчетов, в данном случае вся йдентйфйкацйонная матрйца займет от 100 до 200 байт в оператйвной памятй компьютера, что практйческй не повлйяет на быстродействйе й не является крйтйчным для современных ЭВМ.
Этй факторы указывают на явное технйческое преймущество данного способа по сравненйю с предыдущйм, однако его эффектйвность характерйзуется не только колйчественным выраженйем затрачйваемых ресурсов, но й результатйвностью йдентйфйкацйй, о чем будет сказано нйже.
Далее прйведен прймер определенйя языка текста с помощью пойска характерных сймволов нацйональных алфавйтов йлй орйгйнальных пйсьменных сйстем прй йдентйфйкацйй текстов на русском (славянская группа) й кумыкском (тюркская группа) языках по 4 маркерам: ё, й, ъ й ь, характерным для русской пйсьменностй (йдентйфйкацйонные маркеры выделены полужйрным шрйфтом, слова подчеркнуты).
Русскйй язык:
В Курске возбудили дело против депутата областной думы Ольги Ли, которая разместила в интернете видеоролик с обращением к президенту Владимиру Путину. В этих выступлениях следователи нашли возбуждение ненависти к
власти....
Представитель Минобороны ДНР Эдуард Басурин проинформировал, что сегодня была совершена очередная попытка прорыва обороны ополчения республики на линии соприкосновения в пригороде Донецка. По словам представителя Минобороны, силовики ВСУ пытаются реализоват ь свои предыдущие планы по разъединению стратегически значимых населенных пунктов ДНР. (Отрывки из новостной ленты)
Перед началом работы с данным устройством внимательно изучите следующие меры безопасности во избежание получения травм и повреждения изделия Nikon. Сохраните инструкции по технике безопасности в месте, доступном всем пользователям данного устройства для дальнейшего ознакомления (Из инструкции по пользованию фотоаппаратом Nikon D3200).
...Наша способность усваивать необычное не беспредельна, а когда путешествуешь на другие планеты, пределы оказываются очень узкими. Слишком много новых впечатлений; их приток становится невыносимым, и мозг ищет отдыха в буферном процессе аналогизирования. Этот процесс как бы создаёт мост между воспринятым известным и неприемлемым неизвестным, облекает невыносимое неизвестное в желанную мантию привычного.... (Роберт Шекли Обмен разумов)
Кумыкскии язык:
...Сююв юрекяллатгъансан Мени ойлягъа салгъансан Гёзлеримни пашмалыкъ, Гёз яшларым акътыргъансан Сюювгъе инандырдип, Сюювну алмайдип, Сенсиз яшап болмай эдим, Сюедим сени, сюедим
Айтдим мен сагъа, сюйгеним, Унутма мени, тилеймен, Унутдунгму сен, аявлум, Башхагъа гёзюнг гъарайму?
Англамадынг сен мени, Мени сен англамадынг.
Мен айтагъан сёзлеге бурулуп сен гъарамадынг ....
(Отрывок из песни «Сююв юрек яллатгъансан, сюйгеним»)
Как видно из данных отрывков, текст на кумыкском языке содержит больше идентификационных маркеров, чем первые четыре, так как из 1170 символов в текстах на русском языке всего 7 являются определяющими, что составляет ~ 0,6 % от общего количества знаков. В противоположность этому, в тексте на кумыкском языке из 320 символов 22 являются идентификационными маркерами, что составляет более 6 % от общего числа знаков, а это на порядок
больше, чем в текстах на русском. То есть статистически, по результатам сравнения приведенных текстов, с русским языком должен ассоциироваться последний (на кумыкском), что абсолютно неприемлемо.
Подобное сравнение с аналогичным результатом может быть проведено для текстов на других языках, например: немецком, турецком и финском, характерным признаком которых являются буквы «а» «о» и «й».
Таким образом, основным недостатком данного способа является смешение понятии языка и письменности, что приводит к принципиальным ошибкам идентификации. Как следует из определении понятии «письменность» и «язык», практически все письменности подходят для фиксации информации, выражаемой в словах и синтагмах, а значит, их можно использовать для записи текста на любом языке. Например, по-русски можно писать кириллицей, латиницей, глаголицей, руницеи, еврейскими, арабскими или греческими буквами, а также слоговым письмом, идеограммами или иероглифами, и в любом направлении, что не приведет к каким-либо искажениям передаваемой информации. Это подтверждается историческим развитием письменности на Руси [14] и многочисленными примерами народов, которые переходили с однои письменной системы на другую за короткое время, что никак не отражалось на их языке. Для примера можно взять языки Среднеи Азии (казахский, узбекскии, киргизский и т.п.) и Кавказа (адыгеискии, аварскии, азербайджанский и т.п.), на которых писали разными письменностями в различные исторические периоды [8], а сейчас они используют модифицированную кириллицу или латиницу. Более того, тексты на некоторых языках могут быть записаны несколькими письменными системами без особой разницы. Например, на языках бывшеи Югославии (хорватском, словенском и т.п.) и сейчас пишут либо латиницей, либо кириллицей, а на вьетнамском языке чаще всего пишут латинскими буквами с диакритиками, хотя существует собственная вьетнамская письменность, созданная на основе китайских иероглифов, которые когда-то также использовались для записи текстов на вьетнамском языке. Похожая ситуация наблюдается в Японии - для записи текстов на японском языке могут использоваться иероглифы или слоговое письмо типа кана (хирагана или катакана) [19]. Однако иероглифы могут служить для записи текстов на абсолютно любом языке, что подтверждается наличием подобных знаков в древности у различных народов и их заимствованием друг у друга. Так, например, китайские иероглифы заимствовались для записи текстов на японском, корейском, вьетнамском и других языках Юго-Восточной Азии, а значит,
определить язык текста по этим знакам без дополнительного анализа практически невозможно, то есть вероятность верного определения языковой принадлежности текста описанным способом невелика вследствие использования однои письменной системы или алфавита для фиксации информации на множестве различных языков, что продемонстрировано примерами выше и подтверждается историческими фактами распространения однои письменности для фиксации информации на языках различных неродственных народов, например, латиницы в Европе или арабского письма в Азии и Африке.
Несмотря на неоспоримые недостатки, подобным способом язык часто определяется в системах распознавания текста. Например, в описании «Способа автоматического определения языка распознаваемого текста при многоязычном распознавании» [10] приводится следующее:
... Известные способы распознавания текста с бумажного или другого жесткого носителя, например микрофиш, перевод изображения в графический файл, разбивку графического файла на области (блоки), предположительно содержащие признаки изображения символов текста, с последующим сопоставлением изображения в блоках с эталонным изображением, в нескольких специальных признаковых (или растровых) классификаторах, содержащих символы одного определенного языка.
и далее в том же документе:
... Вместо нескольких отдельных классификаторов иногда используют
единственный, содержащий признаки символов всех языков, предположительно присутствующих в документе.
Такой способ представлен, например, в патенте США 6370269 April 9, 2002. [12]
Из приведенных цитат следует, что авторы подобных способов неразрывно связывают распознаваемые символы (буквы, слоговые знаки или иероглифы) с конкретными языками, что, с точки зрения лингвистики, в корне ошибочно по определению и в большинстве случаев не соответствует действительности. На это все чаще обращают внимание различные специалисты [16], предлагая использовать лингвистические методы при анализе текста и речи. Однако подобные способы языковои идентификации широко используются в современных системах обработки неструктурированного текста и применяются при проектировании новых программных решении, что вынуждает рассматривать их в качестве возможных вариантов при проектировании программ и систем языковои идентификации текста, а также рассчитывать их ресурсоемкость.
Использование статистики комбинаций символов (байтовых последовательностей [11]
или п-грамм). Данный! способ обычно заключается в определении языка по количеству типичных для него комбинаций! символов или фонем - п-грамм, характерных для каждого языка в соответствии со специальной моделью. Чаще всего подсчитываются комбинации двух (диграммы) или трех (триграммы) символов или фонем, хотя могут встречаться и другие варианты п-грамм. Таким образом, анализируемый текст ассоциируется с тем языком, п-грамм-модели которого с наибольшеи вероятностью соответствует большинство наиденных в тексте комбинации (или байтовых последовательностей). Однако при такои идентификации не учитывается возможность использования нетрадиционной письменности или направления письма и не производится транскрипция или транслитерация, а это значит, что уже на стадии формирования п-грамм может быть выбран неверньш метод деления текста, что отрицательно отражается на результате.
Данныи способ определения языковои принадлежности текста имеет множество вариации и подходов, но их суть сводится к идентификации языка и кодировки документа, основываясь на статистических показателях текстов, для которых язык и кодировка известны заранее. В них подсчитываются частоты п-грамм длинои не более п и предполагается, что примерно 300 самых часто используемых п-грамм зависят от языка [23]. На основе выделенных комбинации символов создаются языковые
идентификационные модели, с которыми впоследствии будет производиться сравнение. Один из вариантов выделенных п-грамм для некоторых европейских языков показан в таблице
Алгоритм определения языка данным способом заключается в сравнении частот п-грамм для наборов тестовых документов (корпусов текстов), язык которых известен, и каждого документа,
язык которого требуется определить. После этого, среди всех тестовых документов находится тот, для которого отличие его n-граммнои статистики и статистики тестируемого документа минимально. Следовательно, языком
анализируемого документа считается язык соответствующего тестового документа или заранее созданной идентификационной модели (графа). Вариант данного алгоритма реализован, например, в поисковой машине MnogoSearch [30].
Ресурсоемкость данного процесса
идентификации для современных компьютеров невелика в силу относительно небольшого количества элементов сравнения и их длины (или объема). Основными недостатками описанного алгоритма являются необходимость
предварительного набора статистики
встречаемости n-грамм в большом количестве текстов на каждом языке и непредсказуемая вероятность идентификации малых текстовых фрагментов - отдельные предложения в текстах на похожих языках распознаются неуверенно и часто с ошибками. Кроме того, требуется дополнительный ресурс в виде базы языковых моделеи.
Иногда дополнительно применяется более простои подход. Например, в ABBYY RME [21], до четвертой версии, морфологическая машина при словарной лемматизации перебирала все загруженные языковые словари, что сближало ее метод идентификации языка со словарным, которьш описан выше. Улучшающий результаты процесс морфологической обработки текста является сравнительно ресурсоемким, полные сборники словоформ могут занимать в памяти от единиц до десятков мегабайт на один язык, поэтому подбор идентификационных моделеи даже для 20 определяемых языков требует существенных ресурсозатрат.
Кроме того, определить язык документа при данном подходе за один шаг очень сложно по причине вероятности ошибки идентификации родственных языков. Для решения этои проблемы обычно рекомендуется производить определение языка для каждого предложения отдельно. Поскольку предложения представляют собои некие законченные мысли, то, за исключением некоторых малораспространенных случаев, их можно считать самыми крупными моноязычными единицами текста. Следовательно, когда в предложении на каком-то языке встречаются отдельные слова на другом, их можно считать инвариантами для основного языка.
Несмотря на относительно результативную работу данного алгоритма, его оригинальных характеристик часто бывает недостаточно в случае, когда обрабатывается текст, содержащий части на близкородственных языках, например, на русском и украинском [17]. Для решения этои
1 (приводится в сокращении) [25].
_Таблица 1
Шведс Англии Немец Франц Итальян
кии скии кии узскии скии
en th en de di
he er es to
er_ the _de de_ _de
et _»_ der ent di
tt nd ie nt co
de ed ich le la
ar an sch e d re
and ein le ion
fr che ion ent
om to die s d e d
oc ing ch e l le
ch to den la o d
de ng_ nd la ne
och er di re no
an_ _of ung on_ _in
проблемы алгоритм можно сделать двухпроходным, что позволит проводить процедуру идентификации в 2 этапа (Рисунок 2).
Этап 1 Построение гипотез о принадлежности языку
J
Этап 2
Контрастирование
Рис. 2. Двухпроходной алгоритм идентификации языка
При первом проходе выдвигаются гипотезы об ассоциации частей текста с каким-либо языком (или языками) в случае уверенного определения, либо определяется только один язык с весовым коэффициентом не ниже определенного порога, либо самьш вероятный язык опережает следующего претендента не менее, чем в 2 раза. Оставшиеся предложения подвергаются обработке при втором проходе - так называемой процедуре контрастирования. Она заключается в том, что языком предложения становится неуверенно распознанный язык, если окружающие его предложения уже сопоставлены с тем же языком [34]. По результатам обоих проходов весь текст ассоциируется с самым вероятным языком. Однако такое усложнение алгоритма не гарантирует вернои языковои идентификации, а только повышает ее вероятность и существенно увеличивает ресурсоемкость языковои идентификации за счет дополнительных этапов и обработки предположении.
Как следует из описания, основными недостатками данного способа являются его абстрактность и вероятностный результат, так как никакого лексического или грамматического анализа текста не производится, варианты письменности игнорируются, а в завершении процесса определения выдается список различных языков, к которым можно было бы отнести данныи текст с некоторой вероятностью. Более того, для приемлемой работоспособности данного способа требуется набрать определенную статистику встречаемости комбинации символов или фонем (п-грамм) в различных языках, а для этого нужно проанализировать десятки или сотни тысяч текстов и создать большую базу данных, что само по себе достаточно ресурсоемко. В силу указанных причин этот способ редко используется лингвистами, однако часто применяется математиками и программистами, так как не требует специальных знании в области языковедения.
Эффективность данного способа при
идентификации языка неструктурированного текста варьируется в широких пределах - обычно от 50 до 100 % [15] - и зависит от многих факторов, среди которых можно выделить следующие:
• количество определяемых языков;
• генеалогическое родство определяемых языков;
• используемая письменная система анализируемого текста;
• используемая кодировка текста;
• количество слов в анализируемом тексте;
• применяемые вариант и алгоритм идентификации;
• качество языковых моделей в базе определителя;
• размер и качество статистической базы данных.
Например, при 2 неродственных определяемых языках и относительно длинном тексте, записанном традиционной для данного языка письменностью в кодировке Unicode, вероятность определения может достигать 100 %. Однако при увеличении количества языков и смешении письменных систем результативность данного способа резко понижается и может доходить до бесполезных результатов, когда вероятность ассоциации текста с различными языками становится практически одинаковой, но ресурсоемкость при этом многократно увеличивается.
Резюмируя сказанное выше, можно сделать вывод, что данныи способ языковои идентификации является одним из самых сложных и ресурсоемких.
Грамматический анализ текста
Суть этого способа заключается в морфологическом разборе слов и синтаксическом анализе предложении [33]. Его идея основана на тактике анализа текста человеком при попытке идентификации языка (вкупе с лексическим сопоставлением), что придает данному способу определенную логичность. Однако автоматически определить язык текста данным способом сразу невозможно, так как неизвестно какая модель должна быть выбрана для идентификации и какие словари или наборы аффиксов загружены. Поэтому требуется отдельный подготовительный этап, на котором выдвигаются гипотезы об ассоциации анализируемого текста с определенным языком или языковои группои по характерным признакам (письменности, лексике и т.п.), после чего делается попытка применить соответствующие языковые модели для окончательного выбора языка. То есть идентификационный процесс должен быть как минимум двухпроходным, что естественно его усложнит и многократно увеличит ресурсоемкость. Для проведения подобного
Корпус документов (тестовые документы)
Предложения тестируемого документа
Предложение 1
Предложение 2
X
Предложение М
Предложение 1
Предложение 2
Предложение М
анализа требуются специальные лингвистические модели и морфологические словари (или анализаторы) для каждого определяемого языка, а для большинства языков, как было сказано выше, их не существует. Также требуется совершить множество деиствии с каждым словом анализируемого текста, что в сумме составит миллионы операции даже для небольшого абзаца, на реализацию которых потребуется затратить нецелесообразное количество ресурсов. Об этом свидетельствуют логика процесса и элементарные расчеты, которые приведены ниже.
Самыи простои вид морфологического словаря представляет собои таблицу, в первои колонке которои записывается словоформа, во второи -нормальная форма, в третьей - набор параметров [28]. Для морфологической идентификации слов текста необходимо в данном словаре наити все соответствующие анализируемым словам формы и выдать их в словарном виде. Если предположить, что средняя длина слова составляет 7 символов (что обычно равно 7-14 байтам), среднее количество параметров - 4 и для обозначения параметров использовать 8 баит, то с указанием части речи одна запись потребует минимум 69 баит, что демонстрируется следующими выражениями:
Vpam = 7*7+4+8+8 = 69
или
Vpam = 7*14+4+8+8 = 118.
Если предположить, что для каждои нормальной (словарной) формы имеется в среднем ~8 словоформ, то для морфологического словаря объемом 2500 слов потребует до 2,3 мегабайта оперативной памяти на каждыи определяемый язык, что для 20 языков составит 46 мегабайт. Однако эти оптимистические предположения не всегда достижимы на практике. Так, в русском языке существительные обычно имеют 12 форм, прилагательные - 24, наречия и предлоги - 1-2 формы, но их количество существенно превосходит число существительных, также имеются числительные и местоимения. Следовательно, максимальное количество словоформ может превышать 300, и среднее количество в этом случае составит около 25 форм на парадигму. На практике потребуется также место для индексов и дополнительных параметров, в случае реляционной таблицы потребуется резервировать место не под среднюю длину слова, а под максимальную и т.д. В итоге словарь в 2500 слов (которого не всегда достаточно для анализа текстов широкой тематики) будет содержать в среднем более 62000 форм одного языка, что при заданных условиях может занять ~ 7,3 мегабайта оперативной памяти компьютера, что для тех же 20 языков потребует объема ~ 147 мегабайт. В результате, с учетом количества определяемых языков, возможных
ошибок гипотетических предположении! о языковой принадлежности текста и особенностей реализующего алгоритма, общее число операции при данном способе идентификации может составить миллионы, потребление оперативной памяти - десятки и сотни мегабайт, а системные требования к данному процессу оказываются нецелесообразно высокими.
Таким образом, данньш способ представляет собои существенно усложненный вариант словарной идентификации, о которои сказано выше, что неизбежно сопровождается теми же недостатками. А следовательно, несмотря на разумныи подход, этот способ может использоваться только в ограниченных условиях для текстов, грамотно записанных традиционной письменной системой, при небольшом количестве определяемых языков и наличии для них всех необходимых материалов (морфологических словареи, грамматических анализаторов и т.д.), а также соответствующих вычислительных ресурсов.
Поиск коротких слов [22]. Этот способ редко используется в чистом виде, но регулярно предлагается программистами. Его основная идея заключается в идентификации языка текста по формам характерных служебных слов и частиц, таких как союзы, предлоги, артикли и т.п. или коротких слов длинои до 4-5 символов. Например, при определении английского языка предлагается искать артикль «the» и другие подобные маркеры. Этот способ имеет низкую ресурсоемкость и эффективен при анализе длинных и грамотно написанных текстов с большим количеством слов, однако практически не применим к коротким и упрощенным текстам, в которых такие слова могут отсутствовать [31] (например, к сообщениям с форумов, электронным письмам и т.д.). Более того, он не учитывает множества совпадении служебных слов в родственных языках и похожих коротких слов, междометии и грамматических форм в других языках. Для примера можно привести романские языки (итальянский, французский, португальский, кастильский, румынскии и т.п.), в большинстве из которых встречаются артикль «la», союз «е», предлог «en» и форма «ma» или «mas», а в большинстве германских языков - «а», «na», «ten», «do», «to» и т.д. Кроме того, такие формы встречаются в других языках, например, в славянских и кельтских, а также в греческом, эсперанто, идо и т.д.
Ниже приведены наглядные примеры текстов на разных языках, которые позволяют провести визуальное сравнение похожих служебных и коротких слов (совпадающие идентификационные маркеры выделены полужирным шрифтом).
Чешскии язык.
Byli jeden dédecek a babicka a méli malou vnucku. Kazdy den vnucka Evicka pomáhala svym prarodicüm.
Evicka krmila zvírátka, babicka pracovala v kuchyni, déda mél na starost pole. Vypéstoval repu takovou, ze se na ni chodili dívat sousedi. Byla veliká, zabírala polovinu pole a stále rostla a rostla. Co délat? Déda ji musí vykopat. Motyka se mu zlomila. Co ted? Jak tu repu dostat?
Zavolal na pomoc babicku. Ta vzala dédu v pase, ten chytil ze vsech sil silné listy a spolecnymi silami táhli, táhli, ale repu nevytáhli.(OmpbieoK из сказки про репку)
Немецкий! язык.
„Wir müssen Briefkastenfirmen und Stiftungen, deren wirtschaftlich Berechtigte anonym bleiben, weltweit verbieten", sagte der SPD-Politiker der „Süddeutschen Zeitung". Er sprach von „Geldgier der Superreichen", die sich verbinde „mit der Gewissenlosigkeit im Banken- und Finanzsektor". Beides zerstöre das Vertrauen in den Rechtsstaat. Es gehe um „organisierte Kriminalität von Banken und Finanzjongleuren", die mit allen Mitteln zu bekämpfen sei. (Из новостной ленты)
Голландский язык.
De taal en het literaire leven in de steden en dorpen van Nederland en Vlaanderen. Wie werd waar geboren? Welke romans spelen in Antwerpen, hoe klonk het Katwijks in de 19de eeuw? De Atlas is een snel groeiende informatiebron voor plaatsgebonden verschijnselen in de Nederlandstalige cultuur. Alfabetische overzichten en aanklikbare kaarten wijzen de weg. En wie alleen in de Middeleeuwen of in de Achttiende Eeuw wil rondkijken, kan dat doen aan de hand van deeloverzichten en historisch kaartmateriaal. Daarnaast is er een afdeling Buitengaats, waar alle mogelijke literatuur is te vinden over de relaties van Nederlandstaligen met de rest van de wereld. (Из новостной ленты)
Кастильский (испанский) язык.
En su intervención ante el pleno del Congreso, Iglesias se ha dirigido a Sánchez para subrayar que en España hace falta un gobierno comprometido con el derecho de asilo y con los derechos humanos.
"Quizás eso no sea posible cuando se llega a acuerdos con los que querían negar la tarjeta sanitaria a personas que sólo estaban huyendo de la pobreza, señor Sánchez", ha señalado, en alusión a Ciudadanos y al pacto al que el PSOE ha llegado con este partido.
Ha añadido que en ese acuerdo de más de 200 propuestas entre socialistas y el partido de Albert Rivera, podían haber incluido alguna referencia la derecho de asilo. (Из новостной ленты)
Гаэльскии (ирландский) язык.
Cuireadh tús inniu le héisteacht Ard-Chúirte i dtaca le cúiteamh do bhuachaill ceithre bliana d'aois as Baile Átha Cliath ar bhain drochghortú dá inchinn agus é ag dul faoin scian in Ospidéal na Leanaí i gCromghlinn in 2012.
Cuireadh obráid ar Jude Miley as Dún Droma agus é ina naíonán féachaint le faoiseamh a thabhairt dó faoi bhrú a bhí ar a scairt.
Ni raibh greim a cuireadh ina chliabhrach gearrtha mar ba cheart tri dhearmad agus tolladh a chroi da bharr. Stop a chroi an la tar eis na hobraide agus rinneadh damaiste mor da inchinn. (Из новостной ленты)
Эсперанто.
Bonokaze mi esperantistighis en Odessa, nigramara urbo, kie loghis unu el la grandaj sovetiaj esperanto-tradukistoj, Sergeo Rublov. lufoje en 1961 mi pro ne-memoras-kio trafis al lia loghejo. La mastro regalis min per ege interesa konversacio pri diversaj esperanto-problemoj kaj pri la problemoj de tradukarto. En la fino li proponis legi kelkajn tradukojn al esperanto el Pushkin-poezio. Mi, sidante en la mola fotelo, fermis la okulojn por pli bone percepti la shatatan poeton en alia (nerusa) lingvo. Tiam mi jam perfekte posedis la lingvon. Ekfluis la konataj strofoj. Jes, tio estis Pushkin, ruse intima Pushkin. Pushkin, centfoje Pushkin! Mi scipovis abstraktighi de la rusa lingvo, sed post la lego al mi shajnis, ke mi audis chion en la rusa lingvo. Fidela, brila traduko! Ech pli, en kelkaj lokoj al mi ekshajnis, ke la recitanto diris ech pli bellingve, pli esprimive ol Pushkin mem. Chu? Chu eblas diri pri la samo pli bone ol Pushkin? (Отрывок из статьи Superi originalon: chu eble?)
По результатам сравнения наиболее употребительных коротких слов из текстов на европейских языках ниже представлена сводная таблица совпадении таких маркеров в разных языковых группах (Таблица 2).
Таблица 2
№ п/п Идентифи цирующее слово В каких языках встречается
1 a польскии, чешскии, англиискии, кастильскии (испанскии), португальский, румынскии, французский, гаэльскии, идо
2 na польскии, чешскии, гаэльскии
3 do польскии, англиискии, португальский, гаэльскии
4 to польскии, англиискии
5 i польскии, шведскии, гаэльскии, итальянский
6 ten польскии, чешскии, англиискии
7 o польскии, португальский, румынскии
8 se чешскии, кастильский, португальский, французский
9 den чешскии, немецкии, шведскии
10 of, is англиискии, голландский
11 as англиискии, португальский, гаэльскии
12 in англиискии, немецкии, голландский, итальянский, гаэльскии
13 das немецкии, португальский
14 er немецкии, голландский
15 es немецкии, кастильский
16 an немецкии, гаэльскии, идо
17 sei немецкии,итальянский
18 kan голландскии, шведскиМ
19 over голландскии, румынскии
20 en голландский, кастильский, французский, эсперанто, идо
21 de голландский, шведский, итальянский, кастильский, португальский, румынский, французский, эсперанто
22 e итальянский, португальский, идо
23 mi итальянский, эсперанто
24 ma польский, итальянский, французский
25 la итальянский, кастильский, французский, румынский, эсперанто, идо
26 le итальянский, французский, гаэльскии
27 un французский, кастильский
Как видно из приведенных данных, определить язык по служебным и коротким словам практически невозможно, так как они могут полностью совпадать в языках разных групп. Например, формы «do» и «as» имеются в польском (славянская группа), португальском (романская группа), английском (германская группа) и гаэльском (кельтская группа), что не позволяет использовать их в качестве надежных идентификаторов, а формы «da», «la», «i», «le», «in» и т.п. позволяют ассоциировать текст на гаэльском с итальянским языком. Кроме того, такие маркеры как «а», «en» или «de» встречаются во многих языках и должны исключаться из наборов идентификационных элементов как ненадежные.
Объем приведенных текстов и количество взятых языков не позволяет выявить все совпадения, которые исчисляются десятками даже в языках разных генеалогических групп, но и поверхностного обзора достаточно, чтобы показать практическую несостоятельность данного способа. Например, слово «den» (день) в чешском совпадает с формои артикля немецкого языка «den», а форма глагола «ma» (имеет) в польском - с союзом «ma» (но) в итальянском и местоимением «ma» (моя) во французском языках. А если учесть современную тенденцию к упрощению письменности, при котором не используются диакритические знаки, то такие формы как si, §i и si будут полностью совпадать, что уменьшит вероятность вернои идентификации на порядки. Следовательно, в результате применения этого способа определения языковои принадлежности текста при большом количестве возможных языков либо будет выдан список различных языков, в которых встречаются заданные слова, либо язык будет определен неверно в соответствии с ассоциативной вероятностью. Такои результат на практике оказывается бесполезным.
Расчет ресурсоемкости процесса
идентификации данным способом аналогичен таковому для словарного способа идентификации по формулам (3) и (4). Следовательно, с учетом относительно малои длины слов-идентификаторов и их небольшого количества для каждого языка, ресурсоемкость данного способа будет низкои, что позволяет использовать его для тестовых целеи и предварительной экспресс-идентификации в многоэтапных алгоритмах.
Отдельно следует сказать о тех случаях, когда в тексте смешиваются слова на разных языках, записанные национальными алфавитами или традиционными письменными системами. Например, имена или названия компании и товаров могут быть написаны на оригинальном языке, а все предложение сформулировано по-русски, или в тексте могут встретиться цитаты на других языках. К примеру, в художественных произведениях европейских писателей 18-19 веков часто используются фразы и «крылатые» выражения на латинском или французском языке, что превращает данныи текст в многоязычный и требует специального подхода при анализе, а ресурсоемкость такого процесса многократно увеличится.
Также в связи с развитием компьютерных сетеи и сетевого общения, стоит упомянуть о современной тенденции писать текст не традиционной письменностью, которая обычно применяется для данного языка, а использовать наиболее доступные пишущему или наиболее понятные целевои аудитории символы (например, на Интернет-форумах часто пишут по-арабски кириллицей, изменяя, при этом, направление письма), что никак не предусмотрено упомянутыми способами определения языка. То есть, при транскрипции, транслитерации или изменении направления письма, для упомянутых способов текст становится неопределяемым в силу специфики их подходов к идентификации, что потребует дополнительных ресурсов для «нормализации» текста перед его анализом и многократно увеличит ресурсоемкость всего процесса.
Для иллюстрации характерных особенностей рассмотренных способов языковои
идентификации ниже приведена обзорная таблица результатов их сравнения (Таблица 3), в которой наглядно представлены особенности данных способов, а также их основные преимущества, недостатки и ресурсоемкость.
По итогам проведенного сравнения используемых сегодня способов определения языковои принадлежности текста видно, что совершенных решении не существует и каждыи способ имеет ограниченное применение. Это подтверждается исследованиями и других ученых, проводивших похожие сравнения и тестирования технологии языковои идентификации на основе
различных наборов текстов [24, 26, 27, 29, 32, 35].
Таблица 3
№ п/ п Способ Идентификационные маркеры Преиму щества Недостат-ки
Словар- слова в исход- простота низкая эф-
ныи ной форме реализа- фективность
1 ции и
повышенная ресурсоемкость
Символ характерные простота низкая эф-
ьныи символы тра- реализа- фективность
2 диционнои ции, низ- и высокая
письменно- кая вероятность
сти ресурсое мкость ошибок
Сравне- характерные высокая сложность
ние сочетания эффек- реализации,
п- символов или тивность повышенная
3 грамм- фонем (п- при ресурсоем-
моде- граммы) определе кость и веро-
леи нных условиях ятностныи результат
Поиск характерные простота низкая эф-
ко- короткие сло- реализац фективность
4 ротких ва (до 4-5 ии, и высокая ве-
слов символов) низкая ресурсое мкость роятность ошибок
Грамма характерные высокая требуется
тиче- аффиксы, сло- эффекти подготови-
скии воформы и вность тельныи этап
анализ грамматические особен- и грамматические анали-
5 ности заторы для каждого языка, сложность реализации и высокая ре-сурсоемкость
Несмотря на разницу подходов, методов и анализируемых языков, результаты этих исследовании очень схожи между собой и с показанными выше, что свидетельствует об их объективности и достоверности. Кроме того, при анализе результатов часто указывается на эффективность комбинирования различных методов и подходов, что позволяет улучшить
многие показатели. Но это существенно усложняет как саму систему, так и процесс идентификации, а также повышает ресурсоемкость и вероятность программного сбоя.
Общим недостатком большинства
рассмотренных способов и подходов является отсутствие лингвистического анализа, которое не позволяет отличать языки различных генеалогических групп, что может вызвать критические ошибки при автоматической обработке текста. Это вынуждает разработчиков комбинировать известные решения в однои гибриднои системе, что многократно ее усложняет и повышает ресурсоемкость процесса идентификации, но существенно улучшает результаты.
Заключение
Представленный в статье перечень способов и подходов к определению языковои принадлежности неструктурированного текста не является исчерпывающим, поскольку он не охватывает многочисленные вариации и комбинации современных технологии. Но даже краткое и поверхностное изложение исследованной темы показывает множество проблем в даннои области, которые остаются нерешенными. Это является определенным стимулом для разработчиков и причиной поиска новых оригинальных решении при создании соответствующих технологии и программного обеспечения.
Как следует из проведенного анализа, основные отличительные признаки технологии, программ и систем языковои идентификации зависят от применяемых способов, алгоритмов и их технических реализации. Это позволяет не только оценивать эффективность и ресурсоемкость существующих разработок, но и осмысленно подходить к проектированию новых с учетом недостатков каждого известного решения.
Литература
1. 2. 3.
10.
11.
1500 необходимых испанских слов / Под. Ред. Пудковой А.В. - Москва: Астрель, 2007. - 63 с.
ГИЛЯРЕВСКИИ Р.С. Определитель языков мира по письменностям / Гривнин В.С. - Москва, 1961. - 303 с.
КАЛЕГИН С.Н. Важность выбора основного идентификационного принципа при проектировании языковых
определителей. / Современные информационные технологии и ИТ-образование. Том 12, № 2. - Москва 2016. - С. 194-204.
КАЛЕГИН С.Н. Способы определения языка текста / Филологические науки. Вопросы теории и практики. № 12 (54): в 4-х
ч. Ч. II. Тамбов: Грамота, 2015. - С. 84-89.
КАЛЕГИН С.Н. Способы определения языковои принадлежности неструктурированного текста в мультиязычнои информационной среде. Конференция «C0NC0RT-2016», Нижнии Новгород, 2016.
КАМЫНИНА А.А. Современный русскии язык. Морфология: Учебное пособие для студентов филологических факультетов государственных университетов. М.: Изд-во МГУ 1999. 240 с.
КУЯНОВ Ю.В. Количественный анализ Большого русского словаря-справочника синонимов / Тришин В.Н. Журнал «Научное обозрение: гуманитарные исследования», №9, 2015 г. - С. 105-111
Лингвистический энциклопедический словарь / Гл. ред. В.Н. Ярцева. - Москва: Советская энциклопедия, 1990. - 685 с. Ляшевская О. Н., Шаров С. А. Частотныи словарь современного русского языка (на материалах Национального корпуса русского языка). - М.: Азбуковник, 2009. - 1087 с.
Патент № 2251737 РФ, G06K9/68. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании / Анисимович К.В., Терещенко В.В., Рыбкин В.Ю.; Аби Софтвер Лтд. (CY); Опубликован 10.05.2005.
Патент № 2500024 РФ, G06F17/00. Способ автоматизированного определения языка и (или) кодировки текстового
документа / Лапшин В.А., Пшехотская Е.А., Перов Д.В.; «Центр Инноваций! Натальи Касперскои» (RU); Опубликован 27.11.2013
12. Патент № 6370269 США. Optical character recognition of handwritten or cursive text in multiple languages. / Al-Karmi, Abdel Naser, Shamsher S., Baldev Singh; International Business Machines Corporation (USA); Опубликован 9.04.2002.
13. ПЕТРОЧЕНКОВ А.В. 2000 самых употребительных англииских слов / 2000 Most Frequent English Words. - Москва: Аирис-Пресс, 2011. - 304 с.
14. РУСИНОВ Н.Д. Древнерусский язык / М: Высшая школа, 1997. - 207 с.
15. СЕЛЕЗНЕВ К. Обработка текстов на естественном языке. «Открытые системы», № 12, 2003 [Электронный ресурс]. URL: http://www.osp.ru/os/2003/12/183694/
16. СМИРНОВ В. А. Автоматизированная система анализа неструктурированной речевои информации с применением лингвистических знании : диссертация ... кандидата технических наук : 05.13.11
17. СОТНИК С.Л. Идентификация языка UNICODE-текста по N-граммам длинои до 4-х включительно (квадрограммам) / журнал «Математичне моделювання» № 1,2(15). - Днепродзержинск: издательство ДГТУ 2006. - С. 111-114.
18. СУХАНОВ В.Ф. Китайско-русский тематический словарь 3000 наиболее употребительных слов. - Москва: Экономика, 2001. - 307 с.
19. Учим японские иероглифы / Под ред. Ф. Сакаде и др. - СПб: Лань, 1997. - 320 с.
20. Частотныи словарь русского языка под ред. Засоринои Л. Н. - М.: Русскии язык, 1977. - 936 с.
21. ABBYY [Электронный ресурс]. URL: http://www.abbyy.ru/products/ (дата обращения: 20.10.2016).
22. ALMEIDA-CRUZ, Y, ESTEVEZ-VELARDE, S., PIAD-MORFFIS, A. Detección de Idioma en Twitter / Revista Internacional de Gestión del Conocimiento y la Tecnología. Vol. 2 (3), 2014.
23. CAVNAR W. B., TRENKLE J. M.. 1994. N-gram-based text categorization. In Proceedings of SDAIR'94, pages 161-175.
24. GOTTRON T., LIPKA N. A Comparison of Language Identification Approaches on Short, Query-Style Texts. / 32nd European Conference on Information Retrieval (ECIR 10), Springer, 2010.
25. GREFENSTETTE G. Comparing two language identification schemes. / 3rd International Conference JADT 1995 (Statistical Analysis of Textual Data). Rome, Italy.
26. GROTHE L., E. DE LUCA W., A. NURNBERGER A Comparative Study on Language Identification Methods / Conference LREC 2008, Marrakech, Morocco.
27. INDHUJA K, INDU M, SREEJITH C, P. C. REGHU RAJ Text Based Language Identification System for Indian Languages Following Devanagiri Script / International Journal of Engineering Research & Technology (IJERT), Vol. 3 Issue 4, 2014.
28. JOHNSON S. Solving the problem of language recognition [Report] / Technical report, School of Computer Studies, University of Leeds, 1993.
29. KRANIG S. Evaluation of Language Identification Methods / University of Tubingen, Bachelor of Arts Thesis.
30. mnoGoSearch [Электронный ресурс]. URL: http://www.mnogosearch.org/ (дата обращения: 20.10.2016).
31. OLVECKY T. N-Gram Based Statistics Aimed at Language Identification / Konferencia IIT.SRC 2005, Bratislava.
32. PADRO M., PADRO Ll. Comparing methods for language identification. URL: http://www.sepln.org/revistaSEPLN/revista/33/33-Pag155.pdf (дата обращения: 20.10.2016).
33. ROMSDORFER, H., PFISTER, B. (2007). Text analysis and language identification for polyglot text-to-speech synthesis. Speech Communication 49, 697-724.
34. TIMOTHY J. Hazen Automatic Language Identification Using a Segmen t-Based Approach / S.B., Massachusetts Institute of Technology, 1991.
35. VOJTEK P., BIELIKOVA M. Comparing Natural Language Identification Methods based on Markov Processes.
References
1. 1500 neobhodimyh ispanskih slov / Pod. Red. Pudkovoj A.V. - Moskva: Astrel', 2007. - 63 s.
2. GILYAREVSKIJ R.S. Opredelitel' yazykov mira po pis'mennostyam / Grivnin V.S. - Moskva, 1961. - 303 s.
3. KALEGIN S.N. Vazhnost' vybora osnovnogo identifikacionnogo principa pri proektirovanii yazykovyh opredelitelej. / Sovremennye informacionnye tekhnologii i IT-obrazovanie. Tom 12, № 2. - Moskva 2016. - S. 194-204.
4. KALEGIN S.N. Sposoby opredeleniya yazyka teksta / Filologicheskie nauki. Voprosy teorii i praktiki. № 12 (54): v 4-h ch. CH. II. Tambov: Gramota, 2015. - S. 84-89.
5. KALEGIN S.N. Sposoby opredeleniya yazykovoj prinadlezhnosti nestrukturirovannogo teksta v mul'tiyazychnoj informacionnoj srede. Konferenciya «CONCORT-2016», Nizhnij Novgorod, 2016.
6. KAMYNINA A.A. Sovremennyj russkij yazyk. Morfologiya: Uchebnoe posobie dlya studentov filologicheskih fakul'tetov gosudarstvennyh universitetov. M.: Izd-vo MGU, 1999. 240 s.
7. KUYANOV YU.V. Kolichestvennyj analiz Bol'shogo russkogo slovarya-spravochnika sinonimov / Trishin V.N. ZHurnal «Nauchnoe obozrenie: gumanitarnye issledovaniya», №9, 2015 g. - S. 105-111
8. Lingvisticheskij ehnciklopedicheskij slovar' / Gl. red. V.N. YArceva. - Moskva: Sovetskaya ehnciklopediya, 1990. - 685 s.
9. Lyashevskaya O. N., SHarov S. A. CHastotnyj slovar' sovremennogo russkogo yazyka (na materialah Nacional'nogo korpusa russkogo yazyka). - M.: Azbukovnik, 2009. - 1087 s.
10. Patent № 2251737 RF, G06K9/68. Sposob avtomaticheskogo opredeleniya yazyka raspoznavaemogo teksta pri mnogoyazychnom raspoznavanii / Anisimovich K.V., Tereshchenko V.V., Rybkin V.YU.; Abi Softver Ltd. (CY); Opublikovan 10.05.2005.
11. Patent № 2500024 RF, G06F17/00. Sposob avtomatizirovannogo opredeleniya yazyka i (ili) kodirovki tekstovogo dokumenta / Lapshin V.A., Pshekhotskaya E.A., Perov D.V.; «Centr Innovacij Natal'i Kasperskoj» (RU); Opublikovan 27.11.2013
12. Patent № 6370269 SSHA. Optical character recognition of handwritten or cursive text in multiple languages. / Al-Karmi, Abdel Naser, Shamsher S., Baldev Singh; International Business Machines Corporation (USA); Opublikovan 9.04.2002.
13. PETROCHENKOV A.V. 2000 samyh upotrebitel'nyh anglijskih slov / 2000 Most Frequent English Words. - Moskva: Ajris-Press, 2011. - 304 s.
14. RUSINOV N.D. Drevnerusskij yazyk / M: Vysshaya shkola, 1997. - 207 s.
15. SELEZNEV K. Obrabotka tekstov na estestvennom yazyke. «Otkrytye sistemy», № 12, 2003 [EHlektronnyj resurs]. URL: http://www.osp.ru/os/2003/12/183694/
16. SMIRNOV V. A. Avtomatizirovannaya sistema analiza nestrukturirovannoj rechevoj informacii s primeneniem lingvisticheskih znanij : dissertaciya ... kandidata tekhnicheskih nauk : 05.13.11
17. SOTNIK S.L. Identifikaciya yazyka UNICODE-teksta po N-grammam dlinoj do 4-h vklyuchitel'no (kvadrogrammam) / zhurnal «Matematichne modelyuvannya» № 1,2(15). - Dneprodzerzhinsk: izdatel'stvo DGTU, 2006. - S. 111-114.
18. SUHANOV V.F. Kitajsko-russkij tematicheskij slovar' 3000 naibolee upotrebitel'nyh slov. - Moskva: EHkonomika, 2001. - 307 s.
19. Uchim yaponskie ierogliffy / Pod red. F. Sakade i dr. - SPb: Lan', 1997. - 320 s.
20. CHastotnyj slovar' russkogo yazyka pod red. Zasorinoj L. N. - M.: Russkij yazyk, 1977. - 936 s.
21. ABBYY [EHlektronnyj resurs]. URL: http://www.abbyy.ru/products/ (data obrashcheniya: 20.10.2016).
22. ALMEIDA-CRUZ, Y, ESTEVEZ-VELARDE, S., PIAD-MORFFIS, A. Detección de Idioma en Twitter / Revista Internacional de Gestión del Conocimiento y la Tecnología. Vol. 2 (3), 2014.
23. CAVNAR W. B., TRENKLE J. M.. 1994. N-gram-based text categorization. In Proceedings of SDAIR'94, pages 161-175.
24. GOTTRON T., LIPKA N. A Comparison of Language Identification Approaches on Short, Query-Style Texts. / 32nd European Conference on Information Retrieval (ECIR 10), Springer, 2010.
25. GREFENSTETTE G. Comparing two language identification schemes. / 3rd International Conference JADT 1995 (Statistical Analysis of Textual Data). Rome, Italy.
26. GROTHE L., E. DE LUCA W., A. NURNBERGER A Comparative Study on Language Identification Methods / Conference LREC 2008, Marrakech, Morocco.
27. INDHUJA K, INDU M, SREEJITH C, P. C. REGHU RAJ Text Based Language Identification System for Indian Languages Following Devanagiri Script / International Journal of Engineering Research & Technology (IJERT), Vol. 3 Issue 4, 2014.
28. JOHNSON S. Solving the problem of language recognition [Report] / Technical report, School of Computer Studies, University of Leeds, 1993.
29. KRANIG S. Evaluation of Language Identification Methods / University of Tubingen, Bachelor of Arts Thesis.
30. mnoGoSearch [EHlektronnyj resurs]. URL: http://www.mnogosearch.org/ (data obrashcheniya: 20.10.2016).
31. OLVECKY T. N-Gram Based Statistics Aimed at Language Identification / Konferencia IIT.SRC 2005, Bratislava.
32. PADRO M., PADRO Ll. Comparing methods for language identification. URL: http://www.sepln.org/revistaSEPLN/revista/33/33-Pag155.pdf (data obrashcheniya: 20.10.2016).
33. ROMSDORFER, H., PFISTER, B. (2007). Text analysis and language identification for polyglot text-to-speech synthesis. Speech Communication 49, 697-724.
34. TIMOTHY J. Hazen Automatic Language Identification Using a Segmen t-Based Approach / S.B., Massachusetts Institute of Technology, 1991.
35. VOJTEK P., BIELIKOVA M. Comparing Natural Language Identification Methods based on Markov Processes.
Статья написана по материалам диссертационной работы автора на тему «Автоматическая идентификация языковой принадлежности текста по формам предикатов». Научный руководитель: Зубарев Юрий Борисович, доктор технических наук, профессор, член-корреспондент РАН. Научный консультант: Фархадов Маис Паша оглы, доктор технических наук, старший научный сотрудник.
Поступила: 21.03.2017
Об авторе:
Калегин Сергей Николаевич, начальник сектора НТО ЗАО «МНИТИ»; аспирант, ЗАО «МНИТИ», Институт проблем управления им. В.А. Трапезникова РАН, [email protected]
Note on the author:
Kalegin Sergey, Head of the NTO sector, CJSC MNITI; aspirant of CJSC MNITI and applicant of Institute of Control Sciences of the Russian Academy of Sciences, [email protected]