ФИЛОЛОГИЯ И КУЛЬТУРА. PHILOLOGY AND CULTURE. 2015. №3(41)
ПЕДАГОГИЧЕСКИЕ НАУКИ
УДК 378.147.88
РАЗРАБОТКА ВИРТУАЛЬНОЙ КЛАВИАТУРЫ ДЛЯ ТАТАРОЯЗЫЧНЫХ ПОЛЬЗОВАТЕЛЕЙ НА БАЗЕ МОБИЛЬНОЙ ОПЕРАЦИОННОЙ СИСТЕМЫ ANDROID
© А.В.Данилов
В статье представлена разработка виртуальной клавиатуры для татарского языка на базе мобильной операционной системы Android. Авторами проанализированы особенности, повлиявшие на процесс разработки. Описаны основные компоненты клавиатуры и их функции. Подробно рассматривается процесс разработки предиктивной системы ввода. Данная разработка позиционируется как пример информационного решения, направленного на сохранение и развитие татарского языка в социально-гуманитарной сфере.
Ключевые слова: татарский язык, локализация, Android, клавиатура, предиктивный словарь, мобильная коммуникация.
В многонациональной Республике Татарстан проживают представители различных культур. По данным Всероссийской переписи населения 2010 года 53,15% составляют татары [1]. Для сохранения и развития татарского языка необходимо, чтобы он стал языком общения в инфоком-муникационной среде, в частности, чтобы интерфейс программных продуктов и приложений был локализован. Данная проблема постепенно решается, однако она остается актуальной для мобильных технологий. Отсутствие необходимого качественного программного обеспечения привело к тому, что многие татароязычные пользователи для мобильной коммуникации используют русскую раскладку клавиатуры. В данной статье представлен процесс разработки и популяризации виртуальной клавиатуры как пример информационного решения, направленного на сохранение и развитие татарского языка в социальной сфере.
Для разработки виртуальной клавиатуры для татарского языка необходимо было решить следующие задачи:
1) проанализировать рынок приложений со схожим функционалом, обобщить полученные данные и выявить положительные и отрицательные стороны существующих программных продуктов;
2) используя имеющиеся положительные наработки, разработать новый программный продукт;
3) опубликовать готовый программный продукт в магазине мобильных приложений Google Play Market.
Для решения первой задачи были изучены виртуальные клавиатуры для татарского языка, расположенные в сети Интернет [2-5]. Функцио-
нал программ в целом аналогичен, так как в них применяется один и тот же принцип соответствия букв и символов определенным клавишам. Анализ эргономических свойств клавиатур проводился по нескольким критериям, а именно:
1) расположению татарских символов на клавиатуре;
2) наличию предиктивного словаря.
От расположения символов зависит скорость набора текста и удобство использования той или иной клавиши. Результаты анализа эргономических свойств клавиатур, полученные с опорой на первый критерий, показывают, что расположение символов на разных программных продуктах представлено по-разному (рис.1-4). В проанализированных виртуальных клавиатурах использовались два основных подхода для расположения букв татарского алфавита:
1. выделение символов в отдельную строку (рис.1, 2),
2. расположение символов на клавиатуре аналогично стандарту ИЦУКЕН-раскладки на татарском языке (рис.3, 4).
Оба подхода имеют недостатки. При опоре на первый подход обнаруживается недостаток места на дисплее мобильного устройства, поэтому процесс ввода становится неудобным. При использовании второго подхода клавиатуры недостаточно удобны, так как в татарском алфавите на 6 букв больше, чем в русском, поэтому приходится одной клавише ставить в соответствие 2 буквы, например, в раскладке ИЦУКЕН над буквой "Ц" располагается буква "Н".
1 2 3 4 5 и г Щ
и ц У К Е н г ш
6 7 8 9 0 No ь ъ
ф ы В А П р О л
- ■ ( ) ж
ч с М И т
+ К, Y э h © 3
Opt BJ | ?
123 Еа Э д X ю ^1
Рис.1. Клавиатура JBak keyboard для татарского языка.
1 —as 3 4 е п 9 0
и ц У К е н Г ш щ 3
ф ы в а п р О л А Ж
я ч с м И т ь б ю э
1 х .. е э ж, h е Y h DEL <ZI
ABC... ъ 1
Рис.2. Клавиатура TatarKey
! ? ^inn И и у К Е н н л г 1 ш — е 3 X
Ш В И и ■ 1
* я ч С м и т э Б Y • СЗ
?123 © 4 " Tatar ►
Рис.3. Клавиатура GingerBread Keyboard для татарского языка
? | ! 1 11 | 1 : 1 J | ( )
Й м е У У К, к э Е н н F Г V Ш Щ э 3 * X
Ф ы w В А П р е О Л Д Ж И € э
* я h ч С м V И т ь Ж, Б ю €3
123 41 ' < Татарча ►
альной панели, не набирая их полностью. Принцип работы клавиатуры с использованием пре-диктивного словаря сводится к тому, что программа анализирует введенные пользователем буквы и предлагает подходящие слова из пре-диктивного словаря, что значительно ускоряет ввод слов. Объем и принцип построения словаря определяют его качество. В изученных программных продуктах такой словарь был разработан лишь для одной клавиатуры. Предиктивный словарь состоял из 60000 слов, и их частотные характеристики не соответствовали тому лексикону, который обычно применяется в мобильном общении. Так, часто используемое в общении слово сзлам появляется на панели лишь при вводе с клавиатуры четвертого символа, то есть при вводе сзла (Рис.5). По мнению автора, оптимизировав предиктивный словарь и ориентировав его на мобильную речь, можно добиться существенного его улучшения.
© Сэла
тмэтлеге Сэлам Сэдака Сэлам
ти и н ш с У щ к т е | В г т\ ш
ф ы в а п 7 о н л
• я ч с ■ м и н э
?123 0 1 4 Tatar ► ■
Рис.4. Клавиатура Multilang Keyboard для татарского языка
Рассмотрим результаты анализа, полученные с опорой на второй критерий. Предиктивный словарь существенно влияет на скорость набора, позволяя пользователю вводить слова со специ-
Рис.5. Работа предиктивной системы на клавиатуре GingerBread Keyboard для татарского языка
В результате были определены следующие направления разработки программного продукта. Во-первых, была поставлена задача оптимизации расположения символов на виртуальной клавиатуре. Во-вторых, возникла необходимость создания предиктивного татарского словаря, ориентированного на мобильную речь. Авторская идея состояла в разделении системы предиктивного ввода на две подсистемы. Первая подсистема, которая в процессе разработки была названа система предиктивного ввода один (СПВ-1), работает аналогично предиктивному словарю, то есть при вводе символов система предлагает быстрый ввод для самых часто употребляемых слов. Вторая подсистема (СПВ-2) анализирует введенное слово, далее предлагает устоявшиеся языковые выражения (клише) татарской речи, которые включены в состав предиктивного словаря.
Вторая задача включала в себя разработку приложения и предиктивного словаря, для чего была создана команда разработчиков из сотруд-
ников кафедры математической лингвистики и информационных систем в филологии Казанского федерального университета и Института прикладной семиотики Академии наук РТ. Команда была разделена на группы, исходя из специфики работы. Первая группа работала над программным кодом и дизайном программного продукта, вторая группа составляла предиктивный словарь.
Разработка виртуальной клавиатуры для татарского языка на базе мобильной операционной системы Android включала в себя следующие этапы:
1) разработку дизайна и определение расположения клавиш;
2) построение алгоритма работы клавиатуры и предиктивной системы ввода;
3) составление словарей в соответствии с разработанным алгоритмом;
4) запись кода, включение словарей и компиляция приложения;
5) тестирование приложения.
В результате первого и второго этапов было выбрано расположение татарских символов на виртуальной клавиатуре, приведенное на рисунке 6, а также выработаны базовые принципы работы клавиатуры._
л е У к е н г ш э 3 h Y
ф ы в а п Р о л д ц X Ц
* я ч с м и т ж, 6 ю ь С9
?123 О # * Tatar ► -
Рис.6. Финальный вариант раскладки клавиатуры на татарском языке
В результате добавления татарских букв и нехватки места на экране пришлось скрыть некоторые символы (Таблица 1).
Таблица 1.
Символ на клавиатуре Скрываемый символ
Э Э
Ш Щ
Ь Ъ
Е Е
Ж Ж
Данный принцип замещения символов родился как компромисс между экономией места на экране и частотой употребления символов: те символы, частота употребления которых меньше остальных, были скрыты за теми символами, очертание которых наиболее близко к скрываемым символам.
Кроме того, в клавиатуру были включены русская ИЦУКЕН-раскладка и английская раскладка QWERTY. Данный шаг обоснован особенностями работы мобильной операционной системы Andriod. ОС воспринимает клавиатуру как автономное приложение, которое она запускает или активирует автоматически. Так, если бы в разрабатываемой клавиатуре была только раскладка для татарского языка, то пользователю пришлось бы заходить в меню настроек для того, чтобы выбрать другую клавиатуру, поддерживающую русскую или английскую раскладку. Так как данные раскладки используются часто, было решено включить их в разрабатываемый продукт.
В результате третьего этапа работы был разработан алгоритм работы предиктивной системы. Система разделена на две подсистемы СПВ-1 и СПВ-2. Каждая подсистема работает с собственной табличной базой данных, где указаны слова и выражения, а также частота их употребления. Ниже приведены схемы базы данных (таблицы 2 и 3).
Таблица 2.
Схема базы данных для подсистемы предиктивного ввода СПВ-1
Слово Частота употребления
сэлам 19000
Таблица 3.
Схема базы данных для подсистемы предиктивного ввода СПВ-2
Слово 1 Слово 2 Частота употребления
ничек хэллэр 13000
Принцип работы предиктивной системы показан на рисунке 7.
Фильтрация базы СПВ-1 по
введенныг» символам
Отображение о фильтрованных
вариантов для предиктивного
яа
„ет
Фильтрация базы СПВ-2 по
первому ключу и введенным
Отображение о фил ьтро в а нных
вариантов для предиктивного
Рис.7. Алгоритм работы подсистем предиктивного ввода
На четвертом этапе были созданы необходимые словари для предиктивной системы. Поиск и
анализ был произведен с использованием ресурсов сети Интернет. В результате было получено два словаря объемом около миллиона слов и словосочетаний.
На пятом этапе в программный продукт были включены предварительные версии словарей, после чего был разработан код и протестирована предиктивная система. Необходимо было оптимизировать код и словари исходя из трех параметров: объем приложения, быстродействие и объем словаря. В результате оптимизации был усовершенствован алгоритм работы предиктив-ной системы, а также на 50% уменьшен объем словарей, что не отразилось на качестве их работы, так как были удалены слова и словосочетания, частота употребления которых крайне мала. Однако количество таких элементов составляет большую часть базы, их удаление уменьшило объем занимаемой памяти, что дало преимущество разработчикам. Также на данном этапе была скомпилирована первая тестовая версия приложения. Процесс работы с приложением представлен на рисунках 8 и 9.
© l ы_, >
Хэ( Э ) (эер > Хэерле Хэерби ) (эерниса
й е У к е н г ш э 3 h Y
Ф ы в а п Р о л д Ц X Ц
я ч с м и т Ж, б ю ь • «а
?123 0 f 4 Tatar ► ■
Рис.8. Работа приложения и подсистемы предиктивного ввода СПВ-1.
При наборе символов хэе подсистема предлагает популярные варианты для быстрого набора.
© хэерле
хэерле ирта кен юл КИЧ 1 булсын 1 с
й е У к е н г ш э 3 h Y
Ф ы в а п Р о л д ц X ч
я ч с м и т Ж, 6 ю Ь ' «э
7123 & 1 < Tatar ► ■
Рис.9. Работа подсистемы предиктивного ввода СПВ-2
При введении слова хэерле система уже предлагает для ввода несколько вариантов словосочетаний.
На шестом этапе приложение было тщательно протестировано, выявлены ошибки, которые впоследствии были исправлены.
Третья задача предполагала публикацию приложения на площадке распространения программных продуктов для операционной системы Android - Google Play Market [6]. После релиза данный программный продукт стал доступным для всех пользователей ОС Android.
На момент публикации статьи цель достигнута: создана виртуальная клавиатура для татарского языка на базе мобильной операционной системы Android. Релиз на площадке Google Play Market состоялся 8 декабря 2014 года. Приложение названо «Тиз.Яз» и находится в свободном доступе в сети Интернет. В период с 8 декабря 2014 года по 22 января 2015 года данное приложение загружено 879 пользователями (рис.10)
НАЗВАНИЕ ПРИПОЖЕНИЯ ЦЕНА УСТАНОВКИ CP ОЦЕНКА/ СБОИ И ANR ПОСПЕДНЕЕ СТАТУС
АКТИВНЫЕ/ВСЕГО ВСЕГО 0БН0ВПЕНИЕ
£ Тиз.Язу1.37 Бесплатное 411/ 879 * 4,26 J 27 4 8дек.2014г Опубликовано
Рис.10. Статистика использования программного продукта «Тиз.Яз»
Таким образом, был разработан программный продукт, который способствует расширению сферы употребления татарского языка как языка инфокоммуникационных технологий.
1. Информационные материалы об окончательных итогах Всероссийской переписи населения 2010 года / Сайт Федеральной службы государственной статистики, 2010. URL: http://www.gks.ru/free_ doc/new_site/perepis2010/perepis_itogi 1612.htm (дата обращения: 22.01.2015)
2. Клавиатура JBak/ 2012. URL: http://jbak.ru/ jbak-keyboard/ (дата обращения : 13.06.2014)
3. Клавиатура Multilang плагин поддержки татарского языка. / 2013. URL: http://play.google.com/ store/apps/details/id/Dklye.plugin.tt (дата обращения: 13.06.2014)
4. Клавиатура GingerBread Keyboard. / 2014. URL: http://4pda.ru/forum/dl/post/4397320/1336908529_G ingerBread_Keyboard.apk (дата обращения: 13.06.2014)
5. Татарская клавиатура TatarKey. / 2014. URL: https://play.google.com/store/apps/details?id=com.tat arkey&hl=ru (дата обращения: 13.06.2014)
6. Клавиатура Тиз.Яз. / 2014. URL: https://play.google.com/store/apps/details?id=ru.antat .tatar_keyboard (дата обращения: 22.01.2015)
ELABORATION OF A VIRTUAL KEYBOARD FOR THE TATAR LANGUAGE USERS BASED ON ANDROID MOBILE OPERATING
SYSTEM
A.V.Danilov
This paper presents the elaboration of a virtual keyboard for the Tatar language based on the Android mobile operating system. The authors analyze the features that influenced the process of elaboration. They describe the main components of the keyboard, their functions and the process of elaborating a predictive text input system. This work is positioned as an example of preservation and development of the Tatar language in the social-humanitarian sphere by means of modern ICT.
Key words: Tatar language, localization, Android, keyboard, predictive dictionary, mobile communication.
1. Informacionnye materialy ob okonchatel'nyh itogah Vserossijskoj perepisi naselenija 2010 goda / Sajt Federal'noj sluzhby gosudarstvennoj statistiki, 2010. URL: http://www.gks.ru/free_doc/new_site/ perepis2010/perepis_itogi1612.htm (accessed: January 22, 2015)
2. Klaviatura JBak/ 2012. URL: http://jbak.ru/ jbakkey-board/ (accessed: June 13, 2014)
3. Klaviatura Multilang plagin podderzhki tatarskogo jazyka. / 2013. URL: http://play.google.com/store/
apps/details/id/Dklye.plugin.tt (accessed: June 13, 2014)
4. Klaviatura GingerBread Keyboard. / 2014. URL: http://4pda.ru/forum/dl/post/4397320/1336908529_G ingerBread_Keyboard.apk (accessed: June 13, 2014)
5. Tatarskaja klaviatura TatarKey. / 2014. URL: https://play.google.com/store/apps/details?id=com.tat arkey&hl=ru (accessed: June 13, 2014)
6. Klaviatura Tiz.Jaz. /2014. URL: https://play.google.com/store/apps/details?id=ru.antat .tatar_keyboard (accessed: January 22, 2015)
Данилов Андрей Владимирович - аспирант кафедры математической лингвистики и информационных систем в филологии Института филологии и межкультурной коммуникации Казанского федерального университета.
420008, Россия, Казань, ул. Кремлевская, 18. E-mail: [email protected]
Danilov Andrey Vladimirovich - graduate student, Department of Mathematical Linguistics and Informational Systems in Philology, Institute of Philology and Intercultural Communication, Kazan Federal University.
18 Kremlyovskaya Str., fâzan, 420008, Russia E-mail: [email protected]
Поступила в редакцию 16.02.2015