Научная статья на тему 'Онтологические связные данные в поисковых системах типа «Вопрос-ответ»'

Онтологические связные данные в поисковых системах типа «Вопрос-ответ» Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
96
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / RDF / ОНТОЛОГИЯ / БАЗЫ ЗНАНИЙ / ПОИСКОВЫЕ СИСТЕМЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Щербаков Д. А.

В данной работе представлена рекуррентная структура данных для поисковых систем типа «вопросответ»(ВО). Такая структура имеет ряд преимуществ: точное разделение контекстов, хранение иерархической информации о сущностях и определение их связей. Даются рекомендации о источниках данных для наполнения базы знаний ВО систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Онтологические связные данные в поисковых системах типа «Вопрос-ответ»»

международный научный журнал «инновационная наука» №11/2015 issn 2410-6070

крайней мере два плоских упругих коаксиально расположенных кольца, внешнего 1 и внутреннего 2 с центральным отверстием 5, расположенных в параллельных горизонтальных плоскостях, жестко соединенных между собой посредством, по крайней мере, двух упругих элементов 3 и 4, радиально расположенных в горизонтальной плоскости. При колебаниях виброизолируемого объекта, установленного через отверстие 5 на внутреннее кольцо 2, обеспечивается пространственная виброзащита и защита от ударов, а упруго-демпфирующим сетчатым элементом 10 обеспечивается в системе демпфирование. Список использованной литературы:

1. Oleg S. Kochetov. Study of the Human-operator Vibroprotection Systems.// European Journal of Technology and Design. Vol. 4, No. 2, pp. 73-80, 2014.

2. Кочетов О.С. Расчет системы виброзащиты технологического оборудования // Материали за 9-а международна научна практична конференция, «Achievement of high school», - 2013. Том 44. Технологии. София. «Бял ГРАД-БГ» ООД - 72 стр. С.43-48.

3. Кочетов О С. Расчет пространственной системы виброзащиты. Журнал «Безопасность труда в промышленности», № 8, 2009, стр.32-37.

4. Кочетов О С. Виброизоляторы типа «ВСК-1» для ткацких станков // Текстильная промышленность.-2000, № 5.С. 19...20.

5. Кочетов О С. Исследование систем виброзащиты человека-оператора// Охрана и экономика труда. № 1(14), 2014.С.70-76.

6. Кочетов О.С., Новиков В.К., Баранов Е.Ф., Киселева Т.В. Исследование систем виброзащиты рабочих мест на объектах водного транспорта // Речной транспорт 21 век. № 3., - 2014. С. 57-60.

7. Кочетов ОС. Виброизолирующая система для металлорежущих станков// Главный механик. - 2013. - № 9. - C. 64-65.

8.Кочетов О.С.Расчет тарельчатого упругого элемента системы виброзащиты технологического оборудования//Главный механик. 2013.№ 12.C.47-51.

9. Кочетов О С. Исследование системы защиты человека-оператора от вибрации на базе нелинейных упругих элементов // Международный научный журнал «Science Time». - 2014. Выпуск № 9. C. 137-148.

© Шмырев В.И., 2015

УДК 004.62

Д.А.Щербаков,

аспирант, НГТУ им.Р.Е.Алексеева, г. Нижний Новгород, Российская Федерация, [email protected]

ОНТОЛОГИЧЕСКИЕ СВЯЗНЫЕ ДАННЫЕ В ПОИСКОВЫХ СИСТЕМАХ

ТИПА «ВОПРОС-ОТВЕТ»

Аннотация

В данной работе представлена рекуррентная структура данных для поисковых систем типа «вопрос-ответ»(ВО). Такая структура имеет ряд преимуществ: точное разделение контекстов, хранение иерархической информации о сущностях и определение их связей. Даются рекомендации о источниках данных для наполнения базы знаний ВО систем.

Ключевые слова

Информационный поиск, RDF, онтология, базы знаний, поисковые системы.

Введение

В отличие от «стандарных» поисковых систем (результатом работы которых является поиск ключевой

международный научный журнал «инновационная наука» №11/2015 issn 2410-6070

фразы в инвертированном индексе) поисковые системы типа «вопрос-ответ» (ВО) имеют важную специфику функционирования: задачей ВО систем является предоставление пользователю данных, которые отсутствуют в ключевом запросе. Другими словами, они предоставляют пользователю малую порцию данных, которая прямо или косвенно является исключительно следствием пользовательского запроса. ВО системы, отличающиеся от своих аналогов более высоким качеством поиска, должны предоставлять пользователю ответы, основанные как на имеющейся в базе знаний поисковой системы информации, так и при ее отсутствии. Иными словами, такая система должна иметь возможность «синтезировать знания». Возможность синтеза знаний накладывает ограничения на производимые вычисления системой (вероятность успешного синтеза данных и их точности). Примером такого синтеза может быть пользовательский запрос, задачей которого является получение результата операции путем сопостовления одной линии событий (или цепочки объектов) с другой (имеющей совместимую онтологическую иерархию и соответствующую метрику).

В основе любой поисковой системы находятся данные. ВО системы должны оперировать такими данными, которые позволяют точно идентифицировать контекст как пользовательского запроса, так и выделить тот контекст в базе знаний, который максимально точно соотносится с пользовательским. Для решения такой задачи релевантной структурой данных ВО систем являются «связные данные», агрегация которых имеет формат графа. Узлами и ребрами такого графа являются RDF / RDFS триплеты (см.раздел «Структура данных»). Процесс наполнения базы знаний ВО системы так же имеет ряд проблем, которые необходимо решать (см.раздел «Наполнение базы знаний поисковых систем типа «вопрос-ответ»»).

1. Структура данных. На этапе формирования графа данных (преобразование исходного текста во внутреннюю структуру данных системы) необходимо извлечь из текста как именованные сущности, так и связи между ними. Решить данные задачи позволяет множество имеющихся на сегодняшний день инструментов по разметке частей речи в предложениях[1, с. 186-190], используя выходные данные которых необходимо сформировать триплеты для последующей их агрегации с базой знаний ВО систем. Возьмем пример текстовых данных из ресурса Wikipedia и сформируем на его основе список RDF /RDFS триплетов (см.рисунок 1): «Java является объектно-ориентированным языком программирования, разработанный компанией «Sun Microsystems». Приложения Java обычно транслируются в специальный байт-код, выполняемый виртуальной машиной Java (JVM), поэтому они могут работать на любой виртуальной Java -машине вне зависимости от компьютерной архитектуры. Дата официального выпуска - 23 мая 1995 года. На сегодняшний день Java имеет несколько версий: Java 1.0, Java 1.2, Java 2, Java 5.0, Java 6, Java 7 и Java 8. В версии Java 8 были добавлены такие важные вещи как: потоки stream, поддержка лямбда-выражений, ключевое слово default и др».

#"Java" ¡является #"я'зыком программирования" #"Java" :былРазработан i/"Sun Microsystems" #"Java приложения" ¡наиисаныНа #"Java" ¿"Java приложения" ¡транслируются!} #"байт-код" #"Java приложения" ¡выполняются

#''виртуальной машиной Java (JVM)" ¿"Java приложения" :могутРаботатьНа

#"любой виртуальной Java-машине" ¿"Java" ¡датаВыпуска #"23 мая 1995 года"

¿"Java 8" добавлено #"патоки stream" #"Java ¡добавлено #"лямбда-выражения" #"Java 8" ¡добавлено #"ключсвос слово default"

Рисунок 1 - список триплетов Оперируя такими сущностями (триплетами), поисковая система способна корректно интерпретировать как сами объекты (см.раздел «Уникальность триплетов»), так и учитывать связи между объектами (RDF предикаты). Т.к. агрегированная база знаний содержит связные данные, то список триплетов, изображенный

международный научный журнал «инновационная наука»

№11/2015

issn 2410-6070

на рисунке 1, можно представить в виде графа (см.рисунок 2).

(* байт-код ; {

Рисунок 2 - представление списка триплетов в виде графа

1.1 Уникальность триплетов. В исходном виде триплеты из примера раздела «Структура данных» не имеют уникальности. На практике может существовать множество одноименных элементов, которые имеют идентичные имена. Так имя Java может обозначать язык программирования, аббревиатуру чая или иные понятия. Для сохранения своей уникальности необходимо сформировать онтологический префикс элементов (иерархию наследования).

Элемент Java может быть именован как <язык_программирования/объектно_ориентированный/^а>, а объект Sun Microsystems - <компания/ акционерное_общество/Sun_Microsystems>. Предикат так же может обладать онтологической информацией: <запрограммирован/разработан>. Такая запись онтологии является удобочитаемой для человека. На приктике системы должны использовать возможности RDF /RDFS и OWL для определения прилегающих классов в иерархии (class, subclass) и отношений (property, subproperty). Таким же подходом определяются рекуррентные свойства объектов, субъектов и предикатов.

1.2 Пример запроса. Корректно извлекая ключевые слова из пользовательского запроса (объекты и предикаты), можно смоделировать поиск ответа на основе примера из раздела «Структура данных»: «В какой версии языка Java был добавлен функционал потоков stream?» Пример псевдокода поиска по триплетам предствлен на рисунке 3.

question = {<какая_версия>, "добавлено", "потоки stream"}

triplets = {["Java", "является", "языком программирования"],

objectQuestion = [ "Java", "имеетВерсию", <какую>} versions = SearchForObject ( triplets, objectQuestion )

Рисунок 3 - псевдокод поиска ответа

международный научный журнал «инновационная наука» №11/2015 issn 2410-6070 2. Наполнение базы знаний поисковых ситем типа «вопрос-ответ». Существуют два основных источника данных: предоставлящие структурированные и неструктурированные данные. Наполнение базы знаний осуществляется из обоих, с той разницей, что эталонным источником является структурированный, однако объем данных из таких источников минимален.

2.1 Не структурированная источники. К данной категории источников можно отнести все новостные издания, форумы, информационные порталы и прочие. Другими словами, это те источники, где перед моделированием триплетов необходимо извлечь из текста именованные сущности и их отношения. Работа с такими источниками повышает вероятность неточности извлечения данных, и как следствие, формирование менее авторитетной базы знаний. Качество базы знаний напрямую зависит от точности извлечения информации из данных источников. Объем данных в данной категории источников значительно превосходит объем данных из структурированных истоников.

2.2 Структурированные источники. Данная категория источников предоставляет данные в виде готовых триплетов с наличием онтологической информации. Примерами таких источников являются базы знаний wikipedia [2], dbpedia [3], freebase [4], YAGO [5] и прочие. Необходимо учитывать, что онтологическая информация не является стандартизированной, и в каждом из источников пути в иерархии сущностей различаются. Однако есть ряд методик, которые позволяют привести множество онтологических путей к единой форме [6, с.91-94].

Итоги

В представленной работе определяется оптимальная структура данных для поисковых систем типа «вопрос-ответ». Разъясняются причины и преимущества использования такой структуры. Так же приводятся рекомендации по реализации уникальности всех элементов связных данных. С учетом того, что данные имеют рекуррентную структуру, записываемую в виде RDF триплетов, то появляется возможность усложнения каждого элемента данных. Такой подход положительно сказывается на проектировании математических методов обработки и оценке как каждой единицы данных, так и цепочки узлов (определенный путь в агрегированном графе). Приводятся методы и источники наполнения базы знаний на основе представленной струкуры данных. Разъясняются их основные преимущества и недостатки.

Материал сопровождается как примерами анализируемых данных, так и примером псевдокода поиска ответа на вопрос на основе предложенной структуры. Список использованной литературы

1. Щербаков Д.А., Ширяев М.В. «Методы вероятностного определения связей между именованными сущностями в текстовых данных» // Системы управления и информационные технологии, №3.1(61), 2015. -С. 186-190

2. Wikipedia, https://www.wikipedia.org/

3. Dbpedia, http://wiki.dbpedia.org

4. Freebase, https://www.freebase.com/

5. YAGO, www.mpi-inf.mpg.de/departments/databases-and-information-systems/ research/yago-naga/yago/

6. Щербаков Д.А., Ширяев М.В. Автоматическое именование кластеров текстовых данных на основе иерархической категоризации // Материалы XXI международной научно-техническая конференция «Информационные системы и технологии» ИСТ -2015 Россия, Н.Новгород, 2015, - С. 91-94

© Щербаков Д.А., 2105

i Надоели баннеры? Вы всегда можете отключить рекламу.