_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х_
[Электронный ресурс] /И.В.Кряклина, Е.В. Шешунова, И.Л. Грек // Современные проблемы науки и образования: науч.-метод. журн. - 2014. - № 1. - Режим доступа: http://www.science-education.ru. (Дата обращения: 16.03.2016)
© Абитов А.М., Атаев М.А., 2016
УДК 004.912
Авакьянц Артём Валериевич
аспирант ДГТУ, г.Ростов-на-Дону,РФ E-mail: avakj [email protected]
ИСПОЛЬЗОВАНИЕ КОНЦЕПТУАЛЬНЫХ ГРАФОВ ДЛЯ ПОИСКА ПО ДЛИННЫМ ЗАПРОСАМ
Аннотация
В данной статье рассматривается проблема решения задачи полнотекстового поиска, в которой поисковым запросом является текст, состоящий из нескольких предложений. Такая задача актуальна для сервисов, посвященных ответам на вопросы (порталы технической поддержки, форумы и т.п.). Для решения данной задачи предлагается алгоритм, позволяющий свести поиск по тексту к поиску по словосочетаниям. Эксперименты показали, что данный алгоритм является эффективным. На основании вышеизложенного, считаю целесообразным преобразование предложений в слова и словосочетания.
Ключевые слова
Информационный поиск, обработка словосочетаний, концептуальные графы.
Научно-техническая революция, широко развернувшаяся во второй половине XX века, породила не только проблемы и противоречия, но и надежды на то, что с помощью новых научных дисциплин и новой техники будут, наконец, разрешены противоречия человеческой жизни. Информатизация общества -повсеместное внедрение комплекса мер, направленных на обеспечение полного и своевременного использования достоверной информации и зависит от степени освоения и развития новых информационных технологий. Электронные ресурсы, по мере своего развития накапливают все больше информации, поиск по которой способен, с одной стороны, помочь пользователям таких систем получить ответ немедленно, не ожидая ответа специалистов, а с другой - снизить количество дублирующих вопросов и нагрузку людей, отвечающих на вопросы.
Постановка задачи. Структура рассматриваемого информационного ресурса достаточно типична для любой компании: имеется база данных опубликованной в Интернете справочной документации по продуктам, а также база данных техподдержки, в которую собираются вопросы пользователей, поступающие с форумов и по электронной почте. В той же базе данных хранятся ответы на эти вопросы.
Алгоритмическое обеспечение поисковой системы. Алгоритм, предлагаемый для решения поставленной задачи, можно разбить на следующие этапы.
1. Обработка запроса (разбиение на слова, выделение словосочетаний).
2. Поиск (вычисление релевантности по словосочетаниям).
3. Обучение (корректировка веса найденных элементов). Последняя операция не является обязательной, но позволяет улучшить качество поиска, о чем будет рассказано ниже. Приведем подробное описание алгоритма, решающего каждую из подзадач.
Обработка запросов. На этапе обработки запросов производятся разбор текста на слова и предложения, фильтрация шумовых слов, раскрытие форм слов и выявление словосочетаний. Последнее рассмотрим подробнее. Выявление словосочетаний производится путем обработки знаков препинания в индексируемых документах, а также путем построения концептуальных графов [1], соответствующих предложениям запросов. Концептуальный граф как семантическая модель текста предложения позволяет найти в нем словосочетания в виде пар концептов, связанных определенными отношениями, например, отношением
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х_
«атрибут». В данной технологии применяется программное обеспечение для автоматического построения концептуальных графов для текстов [2].
Применение концептуальных графов. Для более детального анализа предлагается использовать концептуальные графы, учитывающие информацию о формах слов, частях речи и т.д. Незначащие предложения (например, приветствия, подписи, и т.п.) часто не являются грамматически корректными, и их можно отфильтровать простым способом, построив для них концептуальные графы. Такие графы окажутся некорректными, т. е. в них окажутся концепты, не связанные никакими отношениями. Обнаружение таких концептов выполняется также при помощи системы построения концептуальных графов [2]. Рассмотрим пример запроса в техподдержку компании:
Добрый день! У меня есть скрипт теста с кучей контрольных точек, но когда он достигает контрольную точку не может быть проверен, выполнение скрипта останавливается, любые тесты после неудачной контрольной точки не выполняются. Заранее спасибо.
Жирным выделены словосочетания, имеющие технический смысл и выявленные в результате разбора. Отметим, что предложения Добрый день и Заранее спасибо были отфильтрованы на этапе построения концептуального графа, поскольку между словами не обнаружилась семантическая связь. Концептуальный граф позволяет выявить взаимосвязь между « у меня есть», «скрипт теста» и «кучей контрольных точек», хотя в исходном тексте эти словосочетания разделены предлогам. Подсчет встречающихся рядом слов, как, например, при латентно-семантическом анализе [3] или в алгоритме TextRank[4], не позволил бы выявить эту связь. Для построения концептуального графа использовались два внешних ресурса: словарь, хранящий информацию о частях речи, формах слов и т.п. и набор шаблонов, описывающих различные семантические роли, т.е. отношения между словами. Таким образом, результатом разбора запроса является ряд словосочетаний, состоящих из семантически связанных (а не просто идущих подряд) слов. Если какое-то словосочетание повторяется в тексте несколько раз, ему присваивается больший вес. Далее эти словосочетания объединяются оператором ИЛИ (поскольку текст может содержать несколько не связанных друг с другом вопросов) и подаются на вход поисковой системы. В результате задача поиска по тексту сводится к поиску по набору словосочетаний, а эта задача решается, в свою очередь, с помощью предлагаемого алгоритма. Поиск по словам и словосочетаниям. Теперь рассмотрим сам алгоритм поиска, использующийся как для поиска по коротким запросам, так и для поиска по текстам. На итоговую релевантность документа запросу влияют следующие факторы:
1) операторы поиска (И, НЕ И, ИЛИ, и т.п.);
2) вес ключевых слов;
3) позиции слов в документе и знаки препинания;
4) результаты морфологического разбора запроса.
Сначала производится булевский поиск, т.е. отбор документов, соответствующих имеющимся в запросе операторам поиска (если операторы не заданы явно, все слова считаются объединенными оператором И). После этого вычисляется релевантность по словосочетаниям. Поскольку проиндексированные документы считаются состоящими из нескольких полей (заголовок и текст, заголовок имеет больший вес), релевантность вычисляется отдельно по каждому полю. После этого с учетом веса поля считается итоговая релевантность. При вычислении релевантности по словосочетаниям учитываются следующие предположения:
1) словосочетания, повторяющиеся в тексте запроса несколько раз, имеют больший вес (зависящий от количества повторений);
2) чем больше слов в словосочетании, тем более узкий смысл оно выражает, а значит, тем больше смысловая близость между документами, содержащими это словосочетание;
3) чем дальше слова расположены друг от друга, тем меньше вероятность того, что они связаны; Правило подсчета количества искомых словосочетаний в документе основывается на том, что слова,
расположенные далеко друг от друга и/или в разных предложениях скорее всего не связаны между собой. Соответственно контекстное окно должно учитывать оба фактора, что легко достигается за счет искусственного увеличения позиции слов при обработке
знаков препинания. Считается, что искомое словосочетание присутствует в документе, если расстояние между каждой парой составляющих его слов меньше некой величины, равной искусственному приращению
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х_
позиции после конца предложения. Данное условие является более гибким, чем то, что используется в недавно появившемся алгоритме PATeR [5], в котором учитывается только разбиение текста на предложения, но не обрабатываются ситуации, когда два слова находятся на разных концах длинного предложения.
Также предлагаемый алгоритм учитывает большее количество факторов (например, количество слов в словосочетании).
Отметим, что максимальное значение релевантности по ключевым словам не будет превышать 1, а, значит, документы, имеющие ненулевую релевантность по словосочетаниям (максимальное значение которой не ограничено и может достигать намного больших величин) будут, как правило, стоять в рейтинге выше.
Формула итоговой релевантности учитывает следующие факторы.
1. Релевантность по словосочетаниям должна иметь больший вес, чем релевантность по отдельным словам, но ее отсутствие не должно приводить к нулевому итоговому значению.
2. Релевантность по словам и словосочетаниям вычисляется для каждого проиндексированного поля отдельно, после чего умножается на вес поля.
3. Для того чтобы сделать формулу итоговой релевантности более универсальной, логично не связывать ее с конкретными алгоритмами, использующимися для вычисления каждой составляющей релевантности.
Вывод: Для решения поставленной задачи поиска по длинному запросу, состоящему из нескольких предложений, предлагается алгоритм, выделяющий из текста запроса связанные словосочетания путем построения концептуальных графов. Таким образом, задача поиска по тексту сводится к задаче поиска по словосочетаниям. Для поиска по словосочетаниям предлагается алгоритм, учитывающий большее количество факторов, чем существующие аналогичные алгоритмы. Список использованной литературы:
1. Мир концептуальных графов. [Электронный ресурс]. — Режим доступа: URL: http://conceptualgraphs.org/ (дата обращения: 17.12.15).
2. Богатырев, M.^^, Митрофанова, O. A., Тухтин, В.В. Построение концептуальных графов для статей тезисы в электронных библиотеках // Труды концептуальных структур инструмент совместимость семинара (CS-TIW 2009) на 17 Международной конференции по концептуальных структур (ICCS'09). M., 2009. С. 50-57.
3. Ландауэр, T.K., Фольц, Ф.Ф.,Лахам, Д. Введение в латентно-семантический анализ // дискурс процессы. Вопрос 25. С. 259-284, 1998.
4. Михалцеа, Р., Тарау, П., TextRank: Наведение порядка в текстах // Труды конференции по эмпирических методов в задачах обработки естественного языка. [Электронный ресурс]. — Режим доступа: URL: http://www.citeulike.org/user/johnkork/article/430523 (дата обращения: 17.12.15).
5. Бани-Ахмад С.Г., Ал-Двейк Г. Новый термин ранга подход, который поддерживает улучшенную поиск в литературе электронных библиотек // Исследования журнал информационных технологий. - 2011. Vol. 3. N. 1. С. 44-52.
© Авакьянц А.В.,2016
УДК 631.363.2.:636.085.6
Амрин Рустамбек Нурланович
аспирант 2 года обучения, факультет технического сервиса в АПК ФГБОУ ВО Омский ГАУ, г. Омск, РФ E-mail: [email protected]
К ВОПРОСУ О МЕХАНИЗАЦИИ ДОЗИРОВАНИЯ В КОРМОПРИГОТОВЛЕНИИ
Аннотация
Точность многокомпонентного дозирования сыпучих кормов существенно повышается при