Научная статья на тему 'Алгоритм исправления ошибок в поисковых запросах на основе различий русского и узбекского языков'

Алгоритм исправления ошибок в поисковых запросах на основе различий русского и узбекского языков Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
345
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Андреева Ксения Александровна, Когай Валерий Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Алгоритм исправления ошибок в поисковых запросах на основе различий русского и узбекского языков»

m-масса навески порошка искусственного графита, г; М-молекулярная масса метиленового голубого, равная 319,9 г.

S = _£^ = 1,0 ■ 0,3-6,0 2 3 ■ 1 3. 1 06 ■ Ю ^ ° = g g 2 f уд m-M 1,0- 3 19,9 ' v '

Выводы.

Исследование показали, что удельная поверхность адсорбции искусственного графита полученного из угля Узгенского месторождения по метиленовому голубому составляет 599,4 м2/г.Эта величина очень близка к показателям активных углей.

Список литературы

1. Корнухов Н.П. Адсорбция. Текстура дисперсных и пористых материалов. Новосибирск. Наука. Сибирское предприятие РАН. 1999г. С. 110.

2. Аранович И., Ткаченко С.И., Хомченко А.Ю. Определение удельной поверхности пористых материалов методом БЭТ. М. МФТИ, 2014. 47 с.

3. Тегина О.Я. Влияние строение привитого слоя и структурных параметров носителей на адсорбционные свойства полифторалькиль кремнеземов.М.; 2015. С. 170.

4. Crystallographic parameters of tin. автор V.S.Tsvetanov.17/139 Сорбционные и кинетические свойства углеродных молекулярных сит из антрацитов. Бервено А.В., Балыков Д.В.

5. ГОСТ 13144-79. Графит. Методы определения удельной поверхности.

6. АлдашеваН.Т., Кыдыралиев Т.А., ТашполотовЫ. Исследование адсорбционной активности искусственого графита по индикатору метиленому-голубому. Наука, новые технологии и инновации Кыргызстана, 2018. № 8. С. 3-5.

АЛГОРИТМ ИСПРАВЛЕНИЯ ОШИБОК В ПОИСКОВЫХ ЗАПРОСАХ НА ОСНОВЕ РАЗЛИЧИЙ РУССКОГО И УЗБЕКСКОГО ЯЗЫКОВ Андреева К.А.1, Когай В.Н.2

'Андреева Ксения Александровна — магистрант, направление: компьютерный инжиниринг (проектирование прикладных программных средств);

2Когай Валерий Николаевич — кандидат технических наук, доцент, кафедра информационные технологии, Ташкентский университет информационных технологий имени Ал-Хоразмий, г. Ташкент, Республика Узбекистан

Современный человек живет в мире, переполненном информацией. В непрекращающемся потоке данных как никогда становиться важным поиск релевантной информации. Не даром одни из самых успешных 1Т корпораций начинались с поисковых систем.

Одной из важных проблем информационного поиска является исправление опечаток в запросе.

По статистике 63,7% ошибок в запросе представляю собой пропуск, вставка, перестановка и замена букв в словах (напр. сборик ^ сборник, статьтя ^ статья, копмьютер ^ компьютер, модерм ^ модерн) [1]. Для исправления подобных опечаток применяться принцип определения близости двух слов. Из всех альтернативных правильных способов написания искаженного запроса выбирается "ближайший". Для этого необходимо понятие близости между двумя запросами[2]. Как один из способов определения "близких" запросу слов используют фонетический хэш. Основная идея заключается в генерировании для каждого термина "фонетического хеша", т.е. терминам, звучащим одинаково, ставится в соответствие одно и то же число. Эта идея возникла в начале XX века в международных отделах полиции, перед которыми стояла задача поиска преступников, не обращая внимания на разное написание этих имен в разных странах. В основном чтот метод используется для исправления фонетических ошибок в собственных именах[2].

Алгоритмы фонетического хеширования обычно представляют собой набор правил для преобразования слова. Именно набор правил слоеобразования определяет алгоритм хеширования. Учитывая, что разрабатываемый алгоритм предназначен для носителей узбекского языка, обладающие не достаточными навыками посменной русской речи, правила должны быть составлены с учетом совершаемых в таких случаях ошибок.

19

Проблема совершения ошибок при написании слов на русском языке не носителями языка достаточно изучена языковедами. В виду большого количества студентов из Узбекистана в российских ВУЗах, так же широко освещены проблемы, возникающие именно у людей, родным языком которых является узбекский. Наиболее полно этот вопрос освещается в работах А.Ю. Мельникова[3].

При обучении фонетике русского языка, безусловно, важно учитывать ряд фонетических особенностей узбекского языка. Так, если в русском языке букве ш соответствует твёрдый звук [ш], то в узбекском языке буква ш отсутствует: звук [ш] иногда обозначает сочетание букв s и h Иностранные студенты часто путают буквы ш и щ как в письменной, так и в устной речи, произнося вместо звука [ш] - [ш'] (и наоборот).

В узбекском языке после звука [ш] никогда не встречается звук [ы] (и буква, и звук [ы] отсутствуют в языке). В этой связи узбекские студенты испытывают трудности при чтении и написании слов, в которых после буквы ш следует буква и, но произносится [ы], поэтому буквенные сочетания жи, ши и ци они читают не как [жы], [шы], [цы], а как [ж'и], [ш'и] и [тс'и].

Произношение твёрдого звука [ц] тоже составляет трудность, так как в узбекском языке буква с как отдельная буква отсутствует и встречается только в составе диграфа Л. Русской букве ц в узбекском соответствует сочетание ts в середине слова после гласной, в остальных же случаях - буква s. В то же время часто при написании диктанта студенты из-за отсутствия достаточных знаний по грамматике русского языка записывают сочетания тся / ться как ца.

Если в русском языке буквы ё, ю, я являются отдельными буквами и обозначают одновременно два звука, то в узбекском языке им соответствуют сочетания уо, уи, уа. Именно поэтому особенное внимание иностранных учащихся следует обратить на написание русских слов, в которых встречаются буквы е, ё, ю, я, так как при восприятии текста на слух студенты могут написать не одну, а две отдельных буквы (не ёлка, а йолка); вместо звука [е] могут произносить [э].

Наконец, одной из основных причин появления ошибок в письменной речи узбекских студентов является отсутствие мягкого знака или его написание в тех словах, где он не требуется. Дело в том, что этот знак отсутствует в узбекском языке, поэтому необходимо объяснение, в каких случаях употребляется мягкий знак в словах, принадлежащих той или иной части речи (например, в некоторых существительных после согласного л; перед е, ё, ю, я и т.д.). Особенное внимание нужно сосредоточить на написании мягкого знака в суффиксах и окончаниях глаголов (возвратный суффикс -сь-, суффикс инфинитива -ть-, окончания второго лица единственного числа -ешь, -ишь), отсутствии мягкого знака после суффикса прошедшего времени -л-, в форме третьего лица единственного числа (-ет, -ит) и т.д. Трудность вызывают сочетания тся и ться.

Однако особенное внимание следует уделить произношению гласного звука [ы], мягких и твёрдых согласных звуков (в первую очередь шипящих и [ц]), ударению в словах. Особенное внимание следует уделить произношению сочетаний жи, ши и ци [3].

Таким образом, алгоритм должен предусматривать правила озвончения и оглушения согласных.

Еще распространённые ошибки связаны с путаницей А/О и И/Е в безударной позиции. К тому же Гласные О, А, И, Е являются наиболее распространенными в русском языке [4]. Поэтому следует объединить их одним символом:

О, А ^ 1

И, Е ^ 2

Но, учитывая особенности узбекского алфавита, и возможность написания йотированных гласных с буквой Й, следует расширить правило до:

О, А, Я, ЙА ^ 1

И, Е, ЙЭ, ЙЕ ^ 2

Остальные гласные встречаться в русском языке достаточно редко [4], реже чем большая часть согласных, поэтому их можно так же поместить в одну группу, образовав правило:

Ы, Э, Ю, У, Ё ^ 0

И в него так же добавив возможное написание йотированных гласных, и получить следующее правило:

Ы, Э, Ю, ЙУ, Я, У, Ё, ЙО ^ 0

Полученными 4 правилами, можно покрыть все ошибки, связанные с ошибками в написание гласных.

Далее следует рассмотреть ошибки при написание шипящих согласных. Часто путают буквы ш и щ, поэтому следует воспринимать их как один звук, и обозначать одним символом. Так же можно к ним отнести букву Ж, и получить правило: Ж, Ш, Щ ^ Ж

Так же проблемы возникают с звуком [Ц]. Русской букве ц в узбекском соответствует сочетание ts в середине слова после гласной, в остальных же случаях - буква s, поэтому следует преобразовать возможные варианты написания этого звука: ТС, ТЦ ^ Ц

Следующей проблемой является написание мягкой гласной И после шипящих, где часто совершаться ошибки, и вместо И пишут Ы. Для исправления этих ошибок введем следующие правила:

ЖИ, ЖЫ ^ 4 ЦИ, ЦЫ ^ 5

Замена происходит на цифры, не на правильное написание по той причине, что в данных слогах достаточно четко слышится И/Ы, а если просто заменить Ы на И, то одно из предыдущих правил объединит букву с остальными гласными.

Обеднив все получение правила, можно получить алгоритм построения фонетического хэша. При записи в фигурных скобках указанно множество заменяемых подстрок. Символы "." И "$" имеют те же значения, что и в синтаксисе регулярных строк.

1. Удалить из строки {Ь, Ъ}

2. Заменить {Ш, Щ} на Ж

3. Заменить {ЖИ, ЖЫ} на 4

4. Заменить {ТС, ТЦ} на Ц

5. Заменить {ЦИ, ЦЫ} на 5

6. Заменить {Ц} на С

7. Заменить {Ы, Э, Ю, ЙУ, У, Ё, ЙО} на 0

8. Заменить {о, А, Я, ЙА} на 1

9. Заменить {И, E, ЙЭ, ЙЕ} на 2

10. Для подстроки ".{Б, В, Д, З, Г}.{П, Ф, Т, С, К, $}" произвести следующие замены: Б -> П, В -> Ф, Д -> Т, З -> С, Г -> К

11. Для подстроки ". {П, Ф, Т, С, К }. {Б, В, Д, З, Г}" произвести следующие замены: П ^ Б, Ф ^ В, Т ^ Д, С ^ З, К ^ Г

12. Сократить все повторяющиеся подряд символы до одного.

Если использовать этот алгоритм для получения хэша для следующих групп слов, то будет видно, что они все отражаться в один код. Жизнь, Жызнь, Жизн, Жызн ^ 4зн Влюбиться, Влюбитсйа, Влюбица ^ вл0б2с1 Цирк, Тсирк ^ 5рк Ёлка, Йолка ^ 0лк1

Оловянный, Олавянный, Алавянный, Оловяный ^ 1л1в1н0й

Полученный алгоритм может использоваться для нечеткого поиска в системах Республики Узбекистан, когда присутствует значительный процент пользователей, плохо владеющих русским языком.

Список литературы

1. Панина М.Ф., Байтин А.В., Галинская И.Е. Автоматическое исправление опечаток в поисковых запросах без учета контекста //Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной Международной конференции «Диалог. 2013. С. 568579.

2. Маннинг К.Д., Рагхаван П., ШютцеХ. Введение в информационный поиск. 2011.

3. Мельникова А.Ю. Проблемы обучения русскому языку как иностранному студентов из Узбекистана //Вестник Челябинского государственного педагогического университета. 2017. №. 2.

4. Ляшевская О.Н. и Шаров С.А. Новый частотный словарь русской лексики (на материалах Национального корпуса русского языка) // Москва: Азбуковник, 2009.

i Надоели баннеры? Вы всегда можете отключить рекламу.