Научная статья на тему 'Структура и особенности реализации информационно-поисковой системы «ИТ-специалист»'

Структура и особенности реализации информационно-поисковой системы «ИТ-специалист» Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1031
77
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА / СТРУКТУРА И РЕАЛИЗАЦИЯ / INFORMATION RETRIEVAL SYSTEM / STRUCTURE AND REALIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чиркин Евгений Сергеевич, Королева Наталья Леонидовна, Дудаков Владислав Петрович

Описана структура и особенности реализации информационно-поисковой системы «ИТ-специалист». Раскрыты механизмы, позволяющие решить проблемы обучения и профессиональной подготовки ИТ-специалистов с учетом быстрого устаревания профессионально-ориентированного контента в ИПС и недостатка квалификации лиц, выступающих в роли экспертов при его формировании и распространении.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STRUCTURE AND FEATURES OF REALIZATION OF “IT SPECIALIST” INFORMATION RETRIEVAL SYSTEM

The structure and features of realization of the IT specialist information retrieval system are described. The mechanisms, allowing solving a problem of training and vocational training of IT specialists taking into account fast obsolescence professional content of the information retrieval system and a lack of qualification of the persons acting as experts at its formation and distribution are revealed.

Текст научной работы на тему «Структура и особенности реализации информационно-поисковой системы «ИТ-специалист»»

УДК 004.021

СТРУКТУРА И ОСОБЕННОСТИ РЕАЛИЗАЦИИ ИНФОРМАЦИОННО-ПОИСКОВОЙ

СИСТЕМЫ «ИТ-СПЕЦИАЛИСТ»

© Е.С.Чиркин, Н.Л. Королева, В.П. Дудаков

Ключевые слова: информационно-поисковая система; структура и реализация.

Описана структура и особенности реализации информационно-поисковой системы «ИТ-специалист». Раскрыты механизмы, позволяющие решить проблемы обучения и профессиональной подготовки ИТ-специалистов с учетом быстрого устаревания профессионально-ориентированного контента в ИПС и недостатка квалификации лиц, выступающих в роли экспертов при его формировании и распространении.

Одна из острейших проблем профессионального образования в настоящее время - несоответствие структуры профессионального образования потребностям рынка труда: значительное число вузов практически утратило связь с рынком труда, 85 % выпускников школ продолжают обучение в вузах, более 2/3 обучающихся в образовательных организациях профессионального образования - студенты вузов. Вместе с тем сильно ощущается дефицит квалифицированных исполнителей, способных работать с современными технологиями, о чем свидетельствуют результаты опросов работодателей. Поэтому основным приоритетом Государственной программы «Развитие образования на 2013-2020 гг.» является модернизация сферы образования в направлении большей открытости, больших возможностей для инициативы и активности самих получателей образовательных услуг, включая обучающихся, их семьи, работодателей и местные сообщества, через вовлечение их как в управление образовательным процессом, так и непосредственно в образовательную деятельность [1]. Таким образом, в настоящее время особенно актуальными становятся общедоступные интернет-ресурсы для программ профессионального образования, включая специализированные порталы по направлениям подготовки, в формировании контента которых участвуют и обучающиеся, и потенциальные работодатели. В настоящей статье описаны структура и особенности реализации профессионально-ориентированной online системы «ИТ-специалист».

В процессе программной реализации ИПС «ИТ-специалист» нами были использованы следующие методы и подходы:

- автоматическая систематизация контента;

- выделение областей интересов пользователей;

- построение профессиональной карты интересов отдельно взятого пользователя;

- защита пользователей и контента от несанкционированного доступа.

В статье мы рассмотрим особенности реализации вышеуказанных методов и подходов в процессе проектирования ИПС «ИТ-специалист».

Первоначально планировалось оформление информационно-поисковой системы в виде веб-сайта и раз-

мещение его в сети Интернет. В процессе разработки структура была изменена в пользу выделения ресурсоемких частей проекта в отдельные модули, размещенные на площадке (или площадках) с достаточной вычислительной и ресурсной емкостью, а веб-сайт, размещенный в сети Интернет, исполняет роль интерфейса и площадки для взаимодействия участников проекта (обучаемых, преподавателей, работодателей). Также по принципу высоконагруженных сервисов архитектура была изменена в сторону создания запаса по горизонтальной масштабируемости проекта.

В обыкновенных задачах проблему недостаточных ресурсов решают путем увеличения мощности компьютера (добавление оперативной памяти, замена центрального процессора на более производительный, увеличение дисковой емкости, замена носителей на более быстродействующие), осуществляя т. н. «вертикальное» масштабирование. Однако существует определенный и легкодостижимый предел, после которого наращивать мощность компьютера становится невозможным (вопрос упирается либо в стоимость, либо в предел развития техники), поэтому при другом способе решения - «горизонтальном» масштабировании - система проектируется изначально как способная к распределению по фиксированному (или неограниченному) количеству компьютеров - либо для их совместной работы над проектом, либо для обслуживания отдельных его фрагментов. К особенностям второго подхода можно отнести два важных положения: а) не каждую решаемую на компьютере задачу возможно распараллелить; б) в архитектуру проекта изначально должна быть заложена возможность по ее масштабированию.

Исходя из этих позиций, ИПС «ИТ-специалист» была разделена на следующие модули (рис. 1), размещение которых возможно на разных (частично зависимых) площадках:

- веб-сайт - интернет-версия;

- веб-сайт - локальная версия;

- серверы с СУБД - главный и, возможно, ведомые (реплики);

- модуль управления, модули систематизации контента, оценки научности, оценки актуальности, вебпаук и др. - каждый может быть размещен на отдель-

1628

Рис. 1. Модель информационно-поисковой системы «ИТ-специалист»

ной вычислительной площадке, требуется только доступ к БД, а также все модули, кроме модуля управления, могут работать параллельно;

- облачное хранилище - используется для синхронизации модулей и хранения резервных копий;

- площадка для хранения резервных копий.

Рассмотрим более подробно каждый из модулей

ИПС «ИТ-специалист».

Веб-сайт (интернет-версия) построен на основе системы управления контентом (CMS) WordPress, которая была выбрана из-за простоты архитектуры и возможности внесения усовершенствований путем написания собственных модулей (плагинов). В ИПС используются возможности стандартных плагинов WordPress по написанию и оформлению статей и публикаций, их оценке, модерации, комментированию и пр. Доступ к основной функциональности отделен штатными средствами CMS (механизмом приглашений), а также рядом административных ограничений. Каждый вновь зарегистрированный участник обязан пройти несложное анкетирование (анкета обслуживается специально разработанным плагином) и ряд тестов (также посредством специально разработанного плагина), подтверждающих заявленную им в анкете квалификацию. Также добавлены плагины работы с глоссарием и синхронизации с локальной версией веб-сайта. Интернет-версия веб-сайта после минимально необходимой настройки может быть размещена на любом походящем хостинге.

Веб-сайт (локальная версия) представляет «оформление» основного назначения проекта, имеет упрощенный пользовательский интерфейс, служит для доступа к модулю управления. Функционал публикаций и база пользователей вторичны по отношению к интернет-версии.

Модуль управления принимает задания через вебинтерфейс (локальный веб-сайт), не имеет собственного интерфейса, представляет собой набор скриптов, заданий для планировщика операционной системы (например, для cron) и прикладной интерфейс (API). Модуль управления предельно упрощен для увеличения надежности (быстродействие его также достаточно высоко по сравнению со всеми остальными модулями проекта), это единственный модуль, который исполняется в единственном экземпляре и чья работа не может быть распараллелена (это не требуется). Назначение управляет очередью заданий (создает файлы-задания для исполнения прочими модулями) и их приоритетами. Проверяет окончание заданий, перезапускает при необходимости, информирует локальный и интернет-сайты (т. е. пользователей системы) о статусе исполнения заданий, степени их завершенности и результатах исполнения. Под заданиями в данном случае подразумеваются вызовы необходимых модулей ИПС с соответствующими параметрами, передача результатов их работы другим модулям. При необходимости модуль управления рассылает административные уведомления посредством электронной почты и SMS.

1629

В качестве системы управления базой данных выбран MySQL как одна из самых известных, распространенных, проверенных и надежных СУБД. Используется движок на основе InnoDB, т. к. для распределенного проекта особенно важно поддержание целостности базы данных (фактически, логически распределенной вне зависимости от формы хранения) для недопущения несогласованного состояния отдельных функциональных модулей проекта, что достигается использованием транзакций, которые и предоставляет InnoDB.

Обычно в высоконагруженных проектах СУБД является узким местом, практически не поддаваясь масштабированию. Для увеличения быстродействия системы часто либо переходят на другую СУБД (например, с поддержкой кластеризации), либо прибегают к алгоритмическим ухищрениям. В нашем проекте сервер БД MySQL развернут на высокопроизводительном компьютере в двух независимых экземплярах, между которыми настроена репликация. Это сделано с тремя целями: во-первых, отработка процедуры горизонтального масштабирования при наличии одного главного MySQL-сервера и любого количества реплицируемых, запись (изменение данных) ведется на главный сервер, а запросы на чтение можно отправлять на любой реплицируемый (таким образом, возможно значительно повысить быстродействие всей системы), а во-вторых, т. к. ИПС является по своей сути ресурсоемким проектом, это сделано для испытаний пределов запасов производительности компьютера, дисков и оперативной памяти. В-третьих, репликация (разумеется, при размещении реплик на физически другом сервере) - своеобразная замена резервной копии, способной быстро заменить собой главный сервер в случае его сбоя.

Облачное хранилище используется как накопитель, постоянно доступный в сети Интернет (доступ осуществляется по протоколу WebDAV). Исходя из соображений безопасности и ограниченного свободного дискового пространства на хостинге с интернет-версией веб-сайта, а также следуя общей идеологии проекта -надежности и возможности самовосстановления, синхронизация не сделана через веб-интерфейс сайта, и сам хостинг не используется как накопитель. Модуль управления периодически (ведется разработка механизма подключения по уведомлению) проверяет поступление новых материалов, требующих их обработки, загружает их и формирует очередь заданий. По аналогичному принципу возвращаются статус и результат обработки. Вместо облачного хранилища может использоваться любой сервер, доступный по протоколу FTP (но при этом нет возможности использовать доступ по уведомлению - обмен производится только посредством регулярных проверок).

Резервное копирование осуществляется комплексом скриптов, часть из которых запускается по расписанию. Ввиду значительного объема хранимой информации (собственно вся информация проекта плюс поисковые индексы) выделено два сценария - сокращенный вариант (сохраняется только минимально необходимая информация и структура индексов) и полное сохранение всей информации в резервной копии, включая индексы. Сокращенный сценарий запускается ежедневно, сохраняет необходимый минимум данных на хранилище резервных копий, облачное хранилище и ряд удален-

ных носителей. Полный сценарий в настоящее время запускается раз в две недели.

В настоящее время процедура сокращенного восстановления в ручном режиме интернет-версии вебсайта занимает несколько десятков минут (до часа), остального комплекса (полностью в автоматическом режиме) - около двух часов. При этом комплекс готов обслуживать (принимать задания) пользователей немедленно после восстановления работоспособности интернет-версии веб-сайта. Полный функционал ИПС будет доступен после восстановления и перестроения утерянных поисковых индексов. Полное восстановление в настоящее время занимает около 8 часов, полное перестроение поисковых индексов - около двух суток непрерывной работы. Индексы перестраиваются последовательно, временно повышается приоритет индексов тех документов, которые необходимы для исполнения высокоприоритетных заданий, находящихся в текущей очереди. Очередь выполненных заданий модуля управления хранится в течение недели, восстановление начинается с исполнения необходимых из них. Дополнительные скрипты по принудительному перезапуску проекта в режиме пересоздания индексов и проверки целостности способны в любой момент проверить и восстановить работоспособность проекта.

Модуль «веб-паук» - основной модуль сбора информации для поисковой системы. Представляет собой специальную программу, посещающую заданную вебстраницу и другие (по списку правил), на которые есть ссылка с нее; закачивает RSS-новости. Помимо этого, модуль ведет учет частоты обновления ресурса для определения необходимости повторного захода. Может исполнять задания в автономном режиме - без соединения с базой данных ИПС.

Модуль извлечения текста - извлекает текст из всех необходимых документов различных форматов. В настоящее время поддерживаются форматы Microsoft Office (DOC, DOCX, RTF), HTML, MHT, OpenOf-fice.Org (ODT), текстовые документы в любой кодировке. Модуль представляет собой программный комплекс в составе следующих компонентов:

1) программа определения кодировки текста и преобразования текстового документа из любой кодировки в UTF-8. Используются статистические особенности текста и ряд эвристических приемов для определения действительной кодировки текста и получения содержания документа в форме, пригодной для дальнейшей обработки;

2) программа определения формата документа. Используются шаблоны и эвристические приемы для определения формата документа и последующего преобразования в текст с использованием текстового процессора OpenOffice.Org через его штатный API;

3) программа преобразования в текст (оригинальный код, а также с использованием текстового процессора OpenOffice.Org (в перспективе - с использованием Microsoft Office)). Наблюдения показывают, что невозможно преобразовать подряд более порядка 10-20 тыс. документов, видимо, из-за утечек памяти в офисном пакете и в операционной системе происходят различные сбои. Поэтому офисный пакет запускается в изолированной среде - в VirtualBox. Программный комплекс отслеживает работоспособность виртуальной компьютерной системы и при необходимости переза-

1630

пускает его. Помимо этого с хост-системы в автоматическом режиме забираются файлы для преобразования.

База данных «программные продукты» содержит названия самых распространенных программных продуктов, имеющих отношение к обучению ИТ-специалистов и их последующей профессиональной деятельности. Каждая запись содержит: название компании-разработчика (или автора), полное и сокращенное название программного продукта, версию, дату выхода, имя конкретной версии (если есть), краткое описание. В работе ИПС данная база данных позволяет устанавливать точное название программного продукта по его контексту и хронологию упоминаемых фактов, и другие не упоминаемые, но подразумеваемые факты любой публикации.

В базу данных «новости» помещаются новости (импорт из лент новостей ЯББ) из сферы информационных технологий с ряда доверенных с точки зрения экспертов ресурсов. В настоящее время используется для хронологической привязки - поиска первого упоминания какого-либо события, термина, лица, программного продукта и т. п.

База данных «термины» содержит термины из области информатики и защиты информации, а также термины, имеющие отношение к информатике, информатизации и телекоммуникациям из действующего законодательства, синонимы данных терминов (собственно синонимы, аббревиатуры, иноязычные эквиваленты), словарные статьи. Также для каждого термина присутствует дата его введения (первого упоминания), дата выхода из повсеместного употребления (для юридических документов - дата его прекращения действия или дата выхода документа, его заменяющего). Для объективности и возможности проверки и внесения исправлений каждая характеристика термина снабжается названием документа (и, возможно, его иКЬ), из которого она была взята.

Дополнительно к БД «термины» существует база данных противоположного назначения, содержащая жаргонные и сленговые понятия, общеупотребительные слова, искаженные и ошибочные написания названий, аббревиатур, имен собственных, событий и явлений. Эта база данных позволяет ее использовать как «переводчик» сленга в правильную терминологию (для восстановления контекста в документе), а также как «черный список» в процедуре автоматизированного определения степени научности той или иной публикации.

База данных «источники» содержит: а) аннотированный каталог ссылок на документы, полезных для изучения каждому ИТ-специалисту (каждая статья в БД характеризуется, помимо выходных данных (автора, названия, ссылки, аннотации), разделом ИТ, а также экспертами проставляется указание (факт) научности статьи); б) автоматически пополняемый список публикаций (каждая запись содержит максимально точные выходные данные соответствующей публикации); в) упрощенные по структуре и форме представления текстовые копии документов, помещенных в ИПС для индексирования. В дальнейшем эта информация используется для проверки достоверности ссылок из библиографии, индексирования содержания, проведения поиска, каталогизации и т. п.

Модуль оценки актуальности документа. ИПС оценивает актуальность (современность) каждого внесенного в нее источника посредством построения специальной хронологической карты - по датам упоминаемых терминов (по БД «термины»). Если это невозможно, производится анализ содержания на более глубоком уровне - по сопоставлениям фрагмента анализируемой статьи и словарной статьи распознается упоминание термина (т. е. когда последний явно не употребляется). Таким образом, составляется оценка актуальности источника.

Дополнительно в его тексте распознаются даты (на русском и английском языках), а также на русском -относительные даты: например, пусть существует конструкция вида «...за полгода до анонса Windows 8 состоялась презентация .». Система проанализирует эту конструкцию следующим образом: 1. Фрагмент «за полгода до» - указание на арифметическое действие «минус 6 месяцев» для даты, вычисленной из последующей конструкции (алгоритм заложен в ИПС на этапе создания); 2. Фрагмент «Windows 8» будет преобразован в «Microsoft Windows 8», т. к. маловероятно, что речь идет о чем-то ином, чем данная операционная система (определяется по базе данных «программные продукты» и контексту), и вновь анализируемый фрагмент «анонса Microsoft Windows 8» (*); 3. Далее возможно два варианта - если ранее в базе данных новостей была в какой-то момент времени распознана фраза вида «состоялся анонс Windows 8», то за дату искомой фразы (*) будет взята дата публикации данной новости, если же подобного фрагмента ранее найдено не было, то за дату искомого фрагмента будет взята дата выхода Windows 8 и будет отнято 6 месяцев по предшествующей фразе.

Таким образом, будет достаточно точно определен временной интервал упоминаемого первоначального события и, следовательно, определена актуальность информации, изложенной в документе.

Модуль систематизации контента. Непересекаю-щиеся основания для классификаций первоначально вручную создаются экспертами (путем оценки документов в БД «источники») по ряду признаков, в настоящее время это:

- предмет (учебная дисциплина);

- область (связь и телекоммуникации, защита информации, прикладная информатика, программное обеспечение, а также отношение к действующему законодательству и др.);

- проблемно-ориентированное основание. Условно, каждая публикация при этом считается направленной на решение конкретной прикладной проблемы. Например, к факту «предупреждение антивируса об обнаруженной угрозе» будут относиться публикации: лабораторные работы по обучению данному антивирусу; тренажер по работе данного антивируса; публикация об основных вредоносных угрозах - современных и исторический экскурс; общие сведения о вредоносных программах; рекомендации по предотвращению подобных угроз в будущем; рекомендации по ликвидации последствий; рекомендации по обновлению операционной системы, ее компонентов и установленного программного обеспечения. То есть, в целом, пользователь «с проблемой», изучивший данный пакет материа-

1631

ла, при желании получит не только исчерпывающий ответ, но и, в идеале, впоследствии будет способен справиться не только с такой же проблемой, но и всеми аналогичными.

Автоматизированная систематизация контента осуществляется, в основном, с помощью БД «термины». По тексту составляется карта используемых терминов. Каждое слово в контексте через словарные статьи «раскрывается», т. е. происходит отнесение слов и словосочетаний к тому или иному термину с различным весом (коэффициентом). Понижается коэффициент общеупотребительных слов и словосочетаний, выделяются вводные и связующие обороты и др. Потом отсекаются слова, не удовлетворяющие определенным границам, составляется список терминов, описывающих контент, - множество слов, в сжатой форме описывающих содержание статьи. На основании знания предметных областей по базе уже существующих ресурсов проводится второй этап анализа - выделение онтологии предметной области. Строятся две онтологии: первая строится на основе размещения экспертами в той или иной классификации ресурсов из БД «статьи» -это позволяет достаточно точно классифицировать статью без привлечения эксперта, но предположив его выбор; вторая строится исходя из множества употребленных терминов, характерных для определенной области ИТ.

Модуль оценки научности текста. Степень научности текста определяется ИПС по совокупности следующих показателей:

1) по частоте употребления научных терминов (нетрудно заметить, что любая академическая статья, в т. ч. узкоспециализированная, изобилует терминами из соответствующей области науки) [2];

2) по частоте употребления языковых конструкций (словосочетаний), характерных для научных статей. Для построения частотного словаря составлялось простое большинство русскоязычных оборотов по общедоступным академическим источникам - если любая пара (или больше) слов из одного предложения встречается более чем в трети всех текстов, ее можно считать характерной для научной речи; дополнительно понижался рейтинг для этих же словосочетаний, если они употреблялись более чем в 5 % всех доступных источников статей [2];

3) текст не должен содержать выражений из словаря сленговых терминов;

4) текст не должен содержать «эмоциональных» знаков препинания (в конце предложений), например, таких как «!», «?!», «???», символы-смайлики и их представления в текстовом виде. Для уменьшения вероятности ошибки проводится распознавание контекста, например, символ «!» во многих языках имеет значение «логическое отрицание», а повсеместное употребление слова «Warning!!!» может означать текстовое выделение в книге для начинающего;

5) орфографическая проверка должна показать незначительное количество ошибок (считается количество однотипных и разнотипных ошибок);

6) существование источника (по БД «источники»). Например, некий недобросовестный студент в своей публикации может сослаться на статью, которой достоверно нет в упоминаемом источнике, а на ее месте

(на указанных страницах) на самом деле находится совсем другая публикация;

7) для электронных изданий проводится поверхностный анализ содержания на наличие заимствования:

а) на точное заимствование - проверка на цитирование либо плагиат в зависимости от объема и оформления;

б) на неточное заимствование - как проверка факта достоверности ссылки, например, существует ли вообще пересечение ссылающегося текста и якобы источника;

8) не оказывает влияния на оценку, но по запросу отображается читателю - наличие других публикаций, ссылающих на данный источник;

9) не оказывает влияния на оценку, но по запросу отображается читателю - оценка покрытия источниками текста публикации (например, может использоваться для оценки степени оригинальности публикации).

Описанные выше механизмы в совокупности позволяют решить следующие проблемы в обучении и профессиональной подготовке ИТ-специалистов.

1. Большой объем несистематизированной непроверенной информации, используемой в обучении.

Значительный объем накопленного контента и ускорение темпов его создания требуют непрерывного процесса систематизации, без которой его эффективное использование становится невозможным. Технически систематизация происходит посредством его хранения в специальных форматах (базы данных, разметка специальными метками (например, HTML-тэгами, смарт-тегами), представление документов в формате XML и другие), которые поддерживаются системами по управлению контентом. Использование подобных средств позволяет сделать доступным содержание (семантику) различному программному обеспечению без непосредственного участия пользователей. Вместе с тем фактическая систематизация контента по-прежнему требует обязательного участия человека.

В нашей работе используются алгоритмы, использующие подход, основанный на систематизации контента и известный как «семантическая сеть». Такой поход не имеет широкого распространения ввиду сложности его применения для широких групп пользователей с разносторонними интересами, однако в такой сфере, как узконаправленная подготовка ИТ-специалистов на основе профессиональных стандартов в области информационных технологий данный способ представления оправдан ввиду его высокой эффективности. Семантическая сеть базируется на разнообразных онтологиях предметных областей, которые определяют соответствующую терминологию и описывают взаимосвязи между различными компонентами (таксономии). Число создаваемых в различных областях знания онтологий постоянно увеличивается, что требует создания новых программных средств, предназначенных для систематизации контента.

Ядром решения упомянутой проблемы в данном методе являются несколько баз данных со специально подобранным экспертами содержимым и ряд оригинальных алгоритмов.

2. Высокая скорость развития информационных технологий в совокупности с легкостью распространения информации в сети Интернет приводит к ложному впечатлению актуальности тех или иных данных, в действительности устаревших.

1632

Модуль оценки актуальности фрагментов документа полностью способен решить эту проблему, восстанавливая хронологию контекста каждого названия, термина, понятия и т. д.

3. Систематизация контента осуществляется непрофессионалами и быстро устаревает.

При самостоятельном поиске человеком информации (тем более актуальной, или в сжатые сроки) по какой-либо проблеме часто бывает очень важным для скорейшего и более полного достижения им поставленных целей положение документа в какой-либо иерархии, классификации, каталоге [3].

Применяемый в настоящее время подход назначения документу меток и его фиксированного положения в той или иной классификации имеет недостаток - наиболее значимым мнением о содержании документа оказывается мнение его публикатора, которое может быть некомпетентным, сфальсифицированным, а также публикация может на самом деле преследовать совершенно другие цели (например, повышение популярности ресурса). Более того, публикатором документа часто является лицо, не имеющее никакого отношения ни к автору, ни к содержанию документа, поэтому очень важным оказывается создание классификации существующего материала.

Модуль систематизации контента позволяет пользователю при поиске информации отсеять заведомо не интересующие его документы и получить объективное и достоверное представление о содержимом документа без его непосредственного изучения.

4. Низкое качество публикаций, связанное не с содержанием, а с изложением - с использованием бытовой и просторечной лексики.

Модуль оценки научности текста предоставляет свои замечания по стилю изложения документа, что позволяет пользователю получить более качественную информацию.

5. Высокая скорость распространения информации в сети Интернет с несоблюдением норм заимствования приводит к подмене или утере (намеренно или в результате небрежности) авторства текста.

В настоящее время информация, необходимая для профессиональной подготовки ИТ-специалистов, представлена несколькими форматами: непериодические издания (печатные и электронные учебно-методические пособия, учебно-методические комплексы); свободный поиск в сети Интернет; периодические профессионально-ориентированные издания. Следует заметить, что большая часть актуальной профессиональной информации в области ИТ-технологий представлена, как правило, литературой на иностранном языке (чаще всего - английском). Основными недостатками представленной информации являются:

- многократное дублирование устаревшей информации в сети Интернет;

- ввиду недоступности автора на конкретном ресурсе информация не обновляется и не исправляется.

Каждая публикуемая в ИПС статья с помощью модуля оценки научности текста проходит проверку источников, на основании которых она была написана, ссылок и гиперссылок, что позволяет оценить, является ли данный документ оригинальной публикацией либо частичным или полным заимствованием, и установить автора.

Предложенная модель информационно-поисковой системы позволяет решить основные проблемы, встающие перед обучаемым в процессе самостоятельного получения им профессиональных компетенций. В то же время ИПС «ИТ-специалист» значительно облегчает труд преподавателей и экспертов, сокращая обработки поступающей информации, показав наличие в ней явных (в т. ч., возможно, умышленных) ошибок и, самое главное, представить объективную оценку содержимому.

ЛИТЕРАТУРА

1. Государственная программа Российской Федерации «Развитие образования на 2013-2020 гг.». URL: Ы*р://минобрнауки.рф /новости/2712. Загл. с экрана.

2. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для веб-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : труды 9 Всерос. науч. конф. RCDL’2007: сб. работ участников конкурса. Переславль-Залесский, 2007. Т. 1. С. 166-174.

3. Чиркин Е.С., Королева Н.Л. Направления развития поиска и систематизации контента в профессиональном образовании в области систематизации контента // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2012. Т. 17. Вып. 1. С. 206-208.

БЛАГОДАРНОСТИ: Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект №12-07-00512).

Поступила в редакцию 2 ноября 2012 г.

Chirkin E.S., Koroleva N.L., Dudakov V.P. STRUCTURE AND FEATURES OF REALIZATION OF “IT SPECIALIST” INFORMATION RETRIEVAL SYSTEM

The structure and features of realization of the IT specialist information retrieval system are described. The mechanisms, allowing solving a problem of training and vocational training of IT specialists taking into account fast obsolescence professional content of the information retrieval system and a lack of qualification of the persons acting as experts at its formation and distribution are revealed.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Key words: information retrieval system; structure and realization.

1633

i Надоели баннеры? Вы всегда можете отключить рекламу.