24. Шелухин В. Ю. Управление очисткой газов агломерационных машин с использованием модели процесса / В. Ю. Шелухин, М. Ю. Рябчиков, Е. С. Рябчикова, Е. Т. Гибаева // Автоматизированные технологии и производства, 2016. № 1 (11). С. 83-87.
25. Парсункин Б. Н. Оптимизация управления процессом измельчения шихтовых материалов в металлургическом производстве / Б. Н. Парсункин, О. С. Логунова, М. Ю. Рябчиков, Е. С. Рябчикова, Ю. А. Калугин, А. И. Сунаргулова // Автоматизированные технологии и производства, 2015. № 4 (10). С. 14-19.
26. Рябчиков М. Ю. Исследование влияния угла освещения на качество определения контуров зерен щебня, расположенных в несколько слоев / М. Ю. Рябчиков, Р. Э. Бурнашев, Е. С. Рябчикова, Н. В. Богданов, А. И. Сунаргулова // Автоматизированные технологии и производства, 2015. № 3 (9). С. 18-20.
27. Рябчиков М. Ю. Подход к управлению кислородно-конвертерным процессом с использованием комплексных моделей / М. Ю. Рябчиков, Т. Г. Сухоносова // Автоматизированные технологии и производства, 2015. № 2 (8). С. 31-35.
28. Рябчиков М. Ю. Обзор существующих систем оперативного управления агломерационным процессом / М. Ю. Рябчиков, В. В. Гребенникова, Е. С. Рябчикова, Н. В. Богданов, А. И. Сунаргулова // Автоматизированные технологии и производства, 2015. № 3 (9). С. 31-35.
29. Рябчиков М. Ю. Прикладные модели химических процессов в агрегате печь-ковш используемые в задачах управления и обучения / М. Ю. Рябчиков, Е. С. Рябчикова // Автоматизированные технологии и производства, 2015. № 2 (8). С. 36-39.
30. Рябчиков М. Ю. Алгоритмическое обеспечение системы контроля и управления лещадностью продуктов дробления / М. Ю. Рябчиков, Р. Э. Бурнашев // Автоматизированные технологии и производства, 2015. № 1 (7). С. 4-8.
31. Рябчиков М. Ю. Комплекс моделей автоматизированной системы интеллектуальной поддержки управления качеством металлургического агломерата / М. Ю. Рябчиков, В. В. Гребенникова // Автоматизированные технологии и производства, 2015. № 2 (8). С. 4-8.
32. Рябчикова Е. С. Сравнительный анализ систем экстремального регулирования, основанных на статистических критериях наличия тренда, на примере управления электрическими параметрами ДСП / Е. С. Рябчикова, М. Ю. Рябчиков, А. И. Сунаргулова, Р. В. Танков, В. Ю. Перевалов // Автоматизированные технологии и производства, 2015. № 4 (10). С. 4-8.
33. Бурнашев Р. Э. Управление работой центробежной дробилки СС-0.36 с учетом значения коэффициента крепости исходного материала по методу Протодьяконова / Р. Э. Бурнашев, М. Ю. Рябчиков, В. В. Гребенникова // Автоматизированные технологии и производства, 2014. № 6. С. 203-208.
34. Рябчиков М. Ю. К вопросу о моделировании выбросов и выносов из кислородного конвертера / М. Ю. Рябчиков, Т. Г. Сухоносова // Автоматизированные технологии и производства, 2014. № 6. С. 32-36.
35. Рябчикова Е. С. Разработка модели многопараметрических низкочастотных возмущений в ДСП / Е. С. Рябчикова, М. Ю. Рябчиков, Б. Н. Парсункин // Автоматизированные технологии и производства, 2014. № 6. С. 5-11.
Algorithmic model of computerized system of keywords extracting from text based
on ontology Kogay V.1, Pak V.2
Алгоритмическая модель компьютерной системы выделения ключевых слов
из текста на базе онтологий Когай В. Н.1, Пак В. С.2
'Когай Валерий Николаевич /Kogay Valeriy — кандидат технических наук, доцент; 2Пак Виталий Станиславович /Pak Vitaliy - старший преподаватель, кафедра информационных технологий, Ташкентский университет информационных технологий, г. Ташкент, Республика Узбекистан
Аннотация: в статье приведен анализ методов расчетов семантической близости для задач обработки текстов естественного языка, выполнена разработка алгоритмической модели системы анализа текстов для определения ключевых слов на базе предметно-ориентированного корпуса Википедии. Abstract: in this article the analyzes of methods of calculation of semantic proximity for natural language processing of texts are given. The development of algorithmic models of text analysis system for defining of the keywords on the basis of object-oriented Wikipedia body.
Ключевые слова: корпус языка, анализ, метрика, омонимия, семантическая связь, алгоритмическая модель, семантический граф.
Keywords: body language, analysis, metrics, homonymy, semantic relationship, algorithmic model, semantic graph.
УДК 004.912
Введение
Онтология - набор понятий, сущностей определенной области знаний, ориентированный на многократное использование для различных задач [1]. Онтологии могут создаваться на базе существующего в языке корпуса языка.
Одной из серьезных является проблема установления отношений, когда вышестоящее понятие частично характеризует нижестоящее. Часто это связано с проблемой смешения понятий-типов и понятий-ролей.
Онтология представляет собой описание декларативных знаний, предназначенное для чтения человеком и выполненное в виде классов с отношением иерархии между ними [2].
В настоящей работе предлагается подход, основанный на выделении устойчивых терминов и установлении связей между ними путём анализа корпусов предметно-ориентированных текстов, одним из которых является Википедия (www.wikipedia.org).
Существует множество работ, где семантическая близость терминов, полученная по Википедии, используется для решения следующих задач обработки естественного языка и информационного поиска: разрешение лексической многозначности терминов [3, 4, 5, 6], выведение общей темы документа [7], категоризация [8], выделение ключевых слов [9].
Основными достоинствами документов Wikipedia с точки зрения машинной обработки являются:
• заголовок, максимально точно соответствующий теме статьи. Это выгодно отличает вики от других литературных жанров;
• первый абзац, обычно дающий краткое описание термина, может содержать основные ключевые слова;
• наличие внутренних ссылок на статьи по данной теме;
• специальный раздел ссылок «Смотри также»;
• специальный формат для ссылок на статью о том же термине на другом языке;
• категории, классифицирующие документы по их тематической принадлежности.
Достоинством Википедии, как корпуса в целом, является большое количество текстов (больше
200 тыс. на русском, больше двух млн. на английском) и доступность дампов энциклопедии [10].
Вычислив семантическую близость между статьями Википедии, можно оценить отношения между значениями терминами [11].
К недостаткам семантических методов можно отнести сложность снятия омонимии и установления отношений между терминами, что зачастую является главной причиной лишь незначительной эффективности анализа текста.
Семантический метод определения ключевых слов научно-технического текста состоит из следующих последовательных этапов.
1. Предварительная обработка документа
Для эффективной обработки текстовых документов необходимо произвести предварительную обработку информации. В данной работе обработка текстовых документов включала в себя: графематический анализ, морфологический анализ, снятие омонимии, выделение коллокаций. Ниже приведено описание этапов предобработки.
1.1. Графематический анализ.
Графематический анализ - это начальный анализ естественного языка, представленного в виде цепочки текстовых знаков, вырабатывающих информацию, необходимую для дальнейшей обработки Морфологическим и Синтаксическим процессорами [12].
В данной работе графематический анализ состоял из следующих этапов:
• Разделение входного текста на элементы (слова, знаки препинания);
• Удаление нетекстовых элементов;
• Выделение нелексических элементов (элементы форматирования, числа, даты, инициалы и т. д.).
На этапе разделения входного текста на элементы, входные данные проверяются на наличие
терминальных символов, таких как знаки препинания, пробелы, переносы строк.
Процесс удаления нетекстовых элементов представляет собой удаление из текста, таких элементов, как гиперссылки, некорректно написанные слова и иноязычные вкрапления. Для определения типа входной последовательности в данной работе используются регулярные выражения.
Регулярное выражение представляет собой формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов, с специальным синтаксисом, поддерживающим базовые операции [13].
В данной работе регулярные выражения использовались для определения принадлежности слова русскому или английскому языку, а также для определения соответствия формату даты и времени, номеру телефона. Таким образом, входные данные, не удовлетворяющие набору регулярных выражений, автоматически отбрасываются.
1.2. Морфологический анализ.
На этапе морфологического анализа осуществляются морфоанализ и лемматизация русских словоформ.
Процесс морфологического анализа начинается с приписывания каждому слову морфологического признака: часть речи, род, число, падеж.
Для проведения морфологического анализа предложено использовать словарь с морфологическим описанием.
1.3. Снятие омонимии.
Для снятия омонимии используется машинное обучение по размеченному корпусу текстов русского языка. Для этого собирается статистическая информация о совместной встречаемости слов с целью вероятностного определения характеристики слова. В подобных задачах используется метод п-грамм [14].
Как показано в [14], значение п обычно принимают равным 3, т.к. биграммы (п=2) обладают слишком малой историей, а 4-граммы порождают большое количество вариантов.
В методе предлагается наивный классификатор Байеса, который при помощи лексических параметров соседних слов использует варьируемое окно. В задаче снятия омонимии имеется набор параметров (Т1, Т2, ..., Тп) - последовательность предшествующих слов (контекст), а Q - омонимичное слово.
Как показано в [14], суммарная вероятность появления комбинации контекста и омонимичного слова, описывается выражением:
п
р(тх,т2,..,тп,в) = Р(0Пр(т. I 0) (1)
¡=1
Для подсчета условных вероятностей вида Р(Т | Т 1), как было сказано выше, в теории п-грамм используется корпус. В корпусе для каждого из слов подсчитывается частота его встречаемости по всему корпусу С(Ж ) , а также частоты совместной встречаемости слов, т.е. С(Щ, ) .[14] Следовательно, формула вычисления условной вероятности примет вид:
Р(Ж1Ж1) = С ^ (2) ' ' С (Ж^)
Использование триграммной модели позволяет подсчитать вероятность для каждого из возможных вариантов и выбрать в качестве начальной формы слова триграмму с наибольшей вероятностью [14]:
Р(Ж I Щ_1}Щ_2) = тах[Р(Ж] | Ж^Ж^ХР(Ж21 Щ^Ж^),...,Р(Ж,к | Ж^Ж^)] (3)
1.4. Выделение коллокаций.
После снятия омонимии, исходный текст представляет собой последовательность слов в начальной форме. Для дальнейшей эффективной обработки текста необходимо выделить устойчивые словосочетания, представляющих последовательность из двух или более слов.
Выделение словосочетаний происходит при помощи лингвистической модели. В ходе предварительных исследований, проведенных по данной работе, было обнаружено, что названия статей Википедии преимущественно представляют собой однословные или двухсловные комбинации. Принимая во внимание этот факт, для эффективного определения словосочетаний следует использовать двухсловные комбинации.
В процессе отнесения слова/(пары слов) к одному из двух видов словосочетаний использовалась М1-мера [15]. Коэффициент MI сравнивает зависимые контекстно-связанные частоты встречаемости терминов с независимыми:
Л/ГТ л / (п, с) N М1 = 4 ' 7 (4) ё2 /(п)/(с) ( )
где М - объем информации, п - ключевое слово, c - коллокат,Д(п,с) - совместная частота встречаемости п и с, Д(п), Д(с) - частоты встречаемости п и с в корпусе, N -количество словоформ в корпусе.
Таким образом, описанная выше мера позволяет определять является ли выражение словосочетанием.
2. Расчет степени близости между терминами.
Термин Wikipedia состоит из набора ссылок, которые указывают на документы, находящихся в коллекции энциклопедии. Каждый из документов представляет собой HTML документ, содержащий ссылки на другие статьи в Wikipedia. В случае обнаружения многозначного термина проверяется степень его близости к контексту.
Страница Wikipedia представляет собой HTML-документ, содержащий набор последовательность специальных тегов разметки текста.
Главная информационная роль отводится атрибутам тегов. Для этого используются такие атрибуты, как href (адрес ссылки), style (стиль) и др. [16]:
<a href="http://www.example.com" style="color:Ыue">Здесь элемент содержит атрибут href.</a>
В результате изучения структуры HTML-документа Wikipedia были определены границы, относящиеся к описательной части статьи:
• <div id=\"bodyContent\">.. ,</div> - контейнер, содержащий основной текст статьи;
• <div class=\"visualClear\">.. ,</div> - контейнер, содержащий ссылки на категории статьи.
Для определения степени близости между терминами была выбрана специальная метрика Джаккарда:
N (T) П N (T2) 1 N(T ) U N(T2)
где N ( ) - количество ссылок в описании термина;
3. Решение проблемы многозначности.
Многозначность слов - распространенное явление естественного языка. Правильное значение многозначного слова может быть установлено при помощи контекста, в котором это слово упоминается. Задача разрешения лексической многозначности слова представляет собой автоматический выбор наиболее подходящего значения слова (в нашем случае - наиболее подходящей статьи Википедии) при упоминании его в некотором контексте [9] .
В случае, когда термин является многозначным, ему соответствует несколько векторов:
(5)
N' =
L
L
L
L
L_
(6)
где п - количество многозначных терминов, т - размер вектора ссылок термина NN ■ .
В рамках настоящей работы контекст - представляет собой совокупность векторов однозначных терминов, каждый из которых имеет набор ссылок. Таким образом, контекст можно представить в виде матрицы:
1 ^12 ^2 1
K' =
v22
L1m
L
2 m
L
si
L
s 2
L
(7)
K
где 5 - количество терминов в контексте, т - размер вектора ссылок термина -
Для решения проблемы многозначности терминов производится сравнение каждого из них с контекстом, затем выявлялись термины с максимальной суммой расстояний до контекста. Ниже приведен алгоритм разрешения многозначности:
1. Вычисление расстояния от многозначного термина для каждого термина из контекста:
D = N [ K ]
Т
где [K ] - транспонированная матрица K
К К
К К
Ят1 Ят
К К
К
"т 1 ~ т 2 '" ^
где Б' матрица расстояний.
2. Вычисление суммы расстояний для каждого из возможных значений термина:
X Я,
к =
X я
2 ,
X Ят
(10)
3. Выбор термина с максимальным значением суммы расстояний:
= [Д ] (11) 1
Таким образом, происходит разрешение многозначности терминов в статьях Ш1к1ре(Иа. Вышеприведенный алгоритм применяется для каждого из многозначных терминов.
4. Выделение ключевых терминов.
Для выделения ключевых слов предлагается использование семантического графа.
Семантический граф представляет собой взвешенный граф 0(¥, Е ) , где V - множество вершин графа, Е - множество ребер графа. Вершинами графа являются термины документа, наличие ребра между двумя вершинами означает тот факт, что термины семантически связаны между собой, вес ребра является численным значением семантической близости двух терминов, которые соединяет данное ребро.
Для построения семантического графа необходимо определить отношения между терминами на основе приведенных выше метрик. Очевидно, что чем больше вес ребра, тем семантически ближе термины друг к другу.
В данной работе для выделения ключевых терминов из семантического графа подсчитывался вес каждой вершины V, равный сумме весов ребер, соединенных с данной вершиной.
^ =х
Ж,,
(12) ,
где - вес ребра, соединяющего вершину г с вершиной V.
В результате, имеем список терминов, каждый из которых имеет весовой коэффициент. Чем больше значение веса термина, тем выше его значимость в тексте.
5. Алгоритмическая модель метода.
Википедия представляет собой электронную энциклопедию, которую с успехом можно использовать для машинной обработки. Однако для выделения определенных знаний из статей Википедии требуется произвести ряд шагов по предварительной обработке, как текстового документа, так и статей Википедии. Ниже на рис.1 представлена обобщенная схема работы алгоритма извлечения ключевых терминов из текстового документа.
Рис. 1. Обобщенная схема извлечения ключевых терминов
Заключение.
В результате был разработан метод семантического анализа научно-технических текстов на базе предметно-ориентированного языкового корпуса Википедия с целью выделения ключевых слов. В основу метода положена следующая последовательность операций: предварительная обработка, графематический анализ, морфологический анализ, выделение коллокаций, снятие омономии и выделение ключевых слов. В качестве базовой метрики семантической близости в работе была выбрана метрика близости Джакарда. Для решения проблемы многозначности предложена матрица контекста, состоящая из ссылок. Для выделения ключевых слов предложена разработка семантического графа, вершинами которого являются термины, ребрами - степень семантической связи по Джакарду. На основе теоретических выводов была разработана общая алгоритмическая модель метода выделения ключевых слов из научно-технических текстов.
Эффективность предлагаемого метода основывается на теоретическом обосновании каждого этапа метода и логической непротиворечивостью алгоритма метода.
В будущем необходимо экспериментальным путем на основе программной реализации метода исследовать точность предлагаемого метода для семантического анализа научно-технических текстов различных направлений.
Результаты работы могут быть использованы для семантических методов поиска плагиата в научно-технических текстах.
Литература
1. Bhargava S. C., Kumar A., Mukherjee A. A. Stochastic cellular automata model of innovation diffusion // Technological forecasting and social change. Vol. 44. № 1, 1993. 87-97 p.
2. Лапшин В. А. Роль онтологий в современной компьютерной науке. // RSDN Magazine №4-2009. [Электронный ресурс]: Lapshin V.A ontology role in modern computer science // RSDN Magazine № 4, 2009). URL: http://www.rsdn.ru/article/philosophy/what-is-onto.xml.
3. Mihalcea R. 2005. Unsupervised large-vocabulary word sense disambiguation with graph-based algorithms for sequence data labeling. // HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing // Morristown, NJ, USA: Association for Computational Linguistics. 411-418 p.
4. Sinha R. and Mihalcea R. 2007. Unsupervised graph-based word sense disambiguation using measures of word semantic similarity. // ICSC '07: Proceedings of the International Conference on Semantic Computing // Washington, DC, USA: IEEE Computer Society. 363-369 p.
5. Medelyan O., Witten I. H. and Milne D. Topic indexing with wikipedia. // Wikipedia and AI workshop at the AAAI-08 Conference (WikiAI08), 2008.
6. Turdakov D. and Velikhov P. Semantic relatedness metric for wikipedia concepts based on link analysis and its application to word sense disambiguation. // Colloquium on Databases and Information Systems (SYRCoDIS).
7. Syed Z., Finin T. and Joshi A. Wikipedia as an Ontology for Describing Documents. // Proceedings of the Second International Conference on Weblogs and Social Media. AAAI Press, 2008.
8. Janik M. and Kochut K. J. Wikipedia in action: Ontological knowledge in text categorization. // International Conference on Semantic Computing, 2008. 268-275 p.
9. Гринева М., Гринев М. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов. // Труды Института системного программирования РАН, том 16, 2009 г. ISSN 2220-6426 (Online), ISSN 2079-8156 (Print), стр. 155-165. (Grineva M, Grinev M. The analysis of text documents for thematically grouped key terms extraction // Trudi institutta sistemnogo programmirovanoya RAN, tom 16, 2009).
10. Крижановский А. А. Оценка результатов поиска семантически близких слов в Википедии: Information Content и адаптированный HITS алгоритм. // Wiki-конференция, 2007. Россия, Санкт-Петербург (Krijanovskiy A. A. Estimation of search of semantically relative words of Wikipedia: Infarmation Content and adaptive HITS algorithm // Wiki-conference, Russia, Sankt-Peterburg, 2007).
11. Турдаков Д. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова. // Одиннадцатая конференция RCDL, 2009. Россия, Петрозаводск. (Tudakov L. Sense disambiguation of Wikipedia terms based on Hidden Markov Model // 11th conference RCDL, Russia, Sankt-Peterburg, 2009).
12. Кунгурцев А. Б., Тыхан И. В. Формирование словаря предметной области. // VII Международная научно-практическая конференция. «Искусственный интеллект. Интеллектуальные и многопроцессорные системы - 2006» Украина, Кацивели (Kungurcev A. B., Tihan I. V. Formation of the domain dictionary // Artificial intelligence. Intelligent and multiprocessor systems, 2006 // Ukrain, Kacivelli).
13. [Электронный ресурс]: Регулярные выражения. Материал из Википедии — свободной энциклопедии. URL: Шр://т.шк1ре(11а.о^/№1к1/Регулярные_выражения (Regullar expressions. Materials of Wikipedia - free encyclopedia).
14. Большакова Е. И., Клышинский Э. С., Ландэ Д. В., Носков А. А., Пескова О. В., Ягунова Е. В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика // учеб. пособие М: МИЭМ, 2011. (Bolshakova E. I., Klishinskiy E. S., Lande D. V., Noskov A. A, Peskova O. V Automated processing of natural languages text and computer linguistics // tutorial M:MIEM, 2011).
15. Хохлова М. В. Экспериментальная проверка методов выделения коллокаций. // Инструментарий русистики: корпусные подходы // Хельсинки, Slavica Helsingiensia, 2008 (Hohlova M.V., Experimental check of collocation extractions methods // Russian Studies Instrumentation: housing approaches // Slavica Helsingiensia, 2008).
16. [Электронный ресурс]: HTML. Материал из Википедии — свободной энциклопедии. URL: http://ru.wikipedia.org/wiki/HTML (HTML. Materials of Wikipedia - free encyclopedia).
Implementation of mass measurement in robotic systems Nazluyan D.
Реализация измерения массы в роботизированных системах
Назлуян Д. С.
Назлуян Давид Санасарович /Nazluyan David — бакалавр техники и технологии, кафедра вычислительной техники, факультет микроприборов и технической кибернетики, Национальный исследовательский университет Московский институт электронной техники, г. Москва
Аннотация: в статье рассматривается метод распознавания массы в статическом режиме роботизированной системой, используя сервоприводы со специальными датчиками нагрузки. Все исследования проводились c использованием роботизированной системы Robotis Bioloid. Abstract: the article deals with the method in the static mode, the robotic system, the mass detection using actuators with special load cells. All studies were performed using the robotic system c Robotis Bioloid.
Ключевые слова: измерение массы, Bioloid, роботизированные системы, статический метод измерения массы, Dynamixel AX-12, сервопривод, мотор.
Keywords: mass measurement, Bioloid, robotic systems, the static method of measuring the mass, Dynamixel AX-12, actuator, motor.
Человечество с давних пор думает над тем, как упростить не только рутинные вещи, но и достаточно сложные операции, придумывая различные приспособления и механизмы. Позже был придуман компьютер, который смог упростить массу сложных математических вычислений. Но на этом люди не остановились - было ясно, что применение компьютеров может быть куда более широким, если научить его не только вычислять, но и управлять механизмами. Так появилась робототехника.
Одной из интересных задач для роботизированной системы является определение массы объекта. Интересная она как для развития взаимодействия роботов и людей, так и в образовательных целях -разработка лабораторных работ для студентов высших технических образовательных учреждений.
В качестве тестовой роботизированной системы, подходящей под выполнение поставленной задачи, был выбрана роботизированная система Robotis Bioloid Premium Kit.