Программные продукты и системы /Software & Systems
№ 3 (111), 2015
УДК 004.65 Дата подачи статьи: 04.03.15
DOI: 10.15827/0236-235X.111.210-213
БАЗА ДАННЫХ ПО БИОРЕАКТОРАМ
Е.С. Воробьёва, аспирант, [email protected]; Р.Р. Сафаров, соискатель; С.И. Иванов, к.т.н., старший научный сотрудник, [email protected];
Н.В. Меньшутина, д.т.н. профессор, [email protected] (Российский химико-технологический университет им. Д.И. Менделеева, Миусская пл., 9, г. Москва, 125047, Россия)
В настоящее время большое внимание уделяется развитию биотехнологических процессов, важным элементом которых является биореактор. В связи с развитием современной промышленности количество и многообразие выпускаемых биореакторов постоянно увеличивается. Для систематизации данных о промышленных биореакторах с помощью пакета Microsoft SQL Server 2008 R2 была создана БД «Bioreactors» (Биореакторы), в которой систематизированы как сами аппараты, так и их основные технические и эксплуатационные характеристики. Для удобства эксплуатации разработанного программного продукта необходимо обеспечить максимально комфортное взаимодействие пользователя с программой, поэтому с помощью программного пакета Microsoft Visual Studio 2010 было разработано приложение, представляющее собой графический интерфейс БД. Приложение позволяет получать информацию о биореакторах, производителях, средствах автоматизации и другие данные в виде таблиц с возможностью сортировки сведений. Таблицы предназначены как для внесения в базу информации о новых моделях аппаратов, компаниях и измерительных приборах, так и для корректировки и обновления существующей информации. Часть программных окон оснащены графическими областями для наглядного представления конструкции биотехнологического аппарата. Полученный программный продукт имеет интерфейс, адаптированный для пользователей без знания языка запросов SQL. Для автоматического пополнения данных программного продукта был создан модуль ПО, позволяющий в автоматическом режиме анализировать, собирать и классифицировать информацию с web-сайтов производителей биореакторов для наполнения и актуализации имеющейся БД. Используемый в модуле подход основан на анализе DOM-дерева, а также комбинации таких методов, как HtmlAgilityPack и Data Extracting SDK.
Ключевые слова: биореактор, база данных, Microsoft SQL Server, Microsoft Visual Studio, DOM-дерево.
Важным элементом биотехнологических процессов является биореактор. Существуют различные типы структурного оформления систем биореакторов в зависимости от необходимых условий процесса. Развитие современной науки и техники позволяет использовать практически уникальное устройство для каждого биотехнологического производства или исследования [1]. Разнообразие аппаратурного оформления и конструкционных особенностей биореактора способствует возникновению множественных классификаций, помогающих систематизировать рабочие характеристики устройства [2, 3].
В век информационных технологий особую значимость приобретает быстрый и удобный поиск информации. Основным средством хранения и обработки данных являются БД, функциональные особенности которых позволяют сортировать данные и осуществлять выборку необходимой информации [4].
С помощью Microsoft SQL Server 2008 R2 была создана БД «Bioreactors» с целью систематизации информации о промышленных биореакторах, выпускаемых современными производителями [5-9]. БД состоит из семи таблиц: «Bioreactors» (Биореакторы), «Process» (Процессы), «Controllers» (Средства контроля), «MixerType» (Тип смешения), «Manufacturers» (Производители), «Activities» (Деятельность) и «ManufActivity». Набор таких данных, как название биореактора, материал его корпуса, наличие встроенной системы стерилизации, насоса и рабочего ПО, хранится в табли-
це «Bioreactors», которая содержит поля «Name» (Название), «BodyMaterial» (Материал корпуса), «HeatExchange» (Теплообмен), «Autoclave» (Автоклав), «Pump» (Насос), «Software» (ПО), «Designation» (Конструкционное решение), а также ключи для связи с данными из других таблиц (рис. 1). Для контроля параметров процесса в биореакторах используют измерительные приборы и датчики, тип которых описан в таблице «Controllers». В данной таблице отражены эксплуатационные характеристики каждого прибора. Информацию о масштабности биотехнологической установки включает таблица «Process», в которую включены данные об объеме рабочего сосуда, необходимого для проведения лабораторного эксперимента, пилотного или промышленного производства. В таблице «MixerType» находятся данные об используемом способе перемешивания веществ в биореакторе, например перфузионном. Таблица «Manufacturers» содержит сведения о производителях с учетом названия компании, контактного номера телефона, страны, адрес страницы производителя в Интернете, представительства в России для иностранных компаний. Дополнительные коммерческие возможности компаний сведены в таблицу «Activities», созданную для демонстрации аспектов полезного сотрудничества. Инфологиче-ская схема БД представлена на рисунке 1.
Для удобства эксплуатации разработанного программного продукта необходимо обеспечить максимально комфортное взаимодействие пользователя с программой [10]. Поэтому с помощью
210
Программные продукты и системы /Software & Systems
№ 3 (111), 2015
Activities
IdActivity
ActivityName
Addlnformation
ManufActivity
IdActivity Id Company
i______
Manufacturers
IdCompan y
CompanyName
WebSite
Country
RepresRussia
PhoneRussia
Bioreactors
IdBioreactor
Name
IdMixer
BodyMaterial
IdProcess
IdCompany
IdPump
HeatExchange
Autoclave
Software
Designation
ImageReactor
IdControllerO2
IdControllerPH
IdControllerLevel
IdControllerTemp
Г
MixerType
IdMixer TypeName Bad Qualities GoodQualities
Process
IdProcess
ProcessName
Volume
Designed
BadQualities
GoodQualities
Controllers
IdController i—| ControllerName Parameter
Рис. 1. Инфологическая схема БД «Bioreactors» Fig. 1. An infological scheme of “Bioreactors " database
программного пакета Microsoft Visual Studio 2010 было создано приложение «Bioreactors», которое представляет собой графический интерфейс БД.
Главное окно приложения предоставляет пользователю возможность обзора таблицы «Bioreactors» (рис. 2). Доступ к данным осуществлен в виде таблицы с активными полями. В результате нажатия на поле происходит сортировка информации в строках таблицы в алфавитном порядке, а также по увеличению/уменьшению значения ин-
тересующего параметра. При выделении данных основной таблицы в графическом поле окна отражается внешний вид соответствующего биореактора. Реализована возможность корректировки и добавления данных. В этом окне пользователю доступны такие функциональные кнопки, как «Производители», «Контроллеры», «Назначение биореактора», «Диаграмма таблиц» и «Запрос», нажатие которых приводит к открытию соответствующих окон.
Окно «Производители» включает в себя две области для работы с данными (рис. 3). В верхней части рабочего окна расположена таблица с данными, отражающая информацию из таблицы «Manufacturers». Аналогично главному окну программы поля представленной таблицы являются активными. С их помощью осуществляется сортировка данных, которые можно корректировать, добавлять или удалять. При выделении отдельных данных в графической области также изменяется логотип компании-производителя.
[ База Данных "Биореакторы"
, I ^ WftMl
Л
~г
I Name
HeatExchange Autoclave
Biostat A plus 1 Стекло боросил... 1 1 Встроенный Встроенный ш
Biostat В 1 Стекло Боросил. 1 1 Встроенный Встроенный I®
Biostat С plus 1 Сталь нержаве .. 2 1 Встроенный Встроенный ш
Biostat DltiBag RM 1 Поликарбонат 1 1 Отсутствует Отсутствует ЕЗ
Biostat CultiBag ... 1 Поликарбонат 2 1 Встроенный Встроенный ш
Jupiter 1 Стекло боросил... 1 2 Встроенный Встроенный и
lo 3 Поликарбонат 1 2 Встроенный Встроенный п
S Series 1 Сталь нержаве... 2 2 Встроенный Встроенный 0
1 Series 3 Сталь нержаве... 3 2 Встроенный Встроенный 0
Esedra 1 Стекло Боросил. 2 2 Встроенный Встроенный ш
Minfors 1 Стекло Боросил. 1 3 Встроенный Встроенный №
Labfors 1 Стекло Боросил. 1 3 Встроенный Встроенный ЕЗ
Techfors S 1 Стекло боросил... 2 3 Встроенный Встроенный ш
ComngA 1 Полистирол 1 4 Отсутствует Отсутствует п
ComingB 1 Полистирол 1 4 Отсутствует Отсутствует п
Mini Bio 1 Стекло боросил... 1 € Отсутствует Отсутствует 0
CellReady 1 Полистирол 1 € Встроенный Отсутствует 0
SB200-X 1 Сталь нержвею . 3 % Отсутствует Отсутствует №
г г, , п „ га
Производители —ЩГ-------------
7-
Л , *
Назначение Биореактора
а
У
)
У'
Диаграмма таблиц
V
V
Ы
С
Сохранить изменения
Удалить данные
У
Рис. 2. Главное окно приложения «Bioreactors» Fig. 2. The main window of “Bioreactors" application
211
Программные продукты и системы /Software & Systems
№ 3 (111), 2015
Веб-поиск
Извлечение
веб-контента
Анализ
использования
веб-ресурсов
Извлечение
веб-структур
Анализ данных, сравнение с имеющимися _______данными_______
Актуализация данных в БД
Рис. 4. Общая схема работы программного модуля для сбора информации по биореакторам
Fig. 4. A general operational scheme of the software module for collecting information about bioreactors
Нижняя область создана для просмотра данных, являющихся результатом наиболее распространенных запросов в рассматриваемой области. Результат выводится в таблицу с помощью кнопок. Так, при нажатии кнопки «Дополнительные возможности предприятия» в таблице появляются данные, которые являются результатом объединения и сортировки данных из двух таблиц посредством вложенного запроса. Аналогично при нажатии соответствующих кнопок реализованы наиболее распространенные запросы, например, подсчет количества биореакторов каждого предприятия или наличие встроенной системы автоклава. Такие разделы программы, как «Контроллеры» и «Назначение биореактора», разработаны по принципу главного окна.
При разработке программного продукта был создан модуль ПО, позволяющий в автоматическом режиме анализировать, собирать и классифицировать информацию с web-сайтов производителей биореакторов для наполнения и актуализации имеющейся БД [6-8]. Программный модуль анализирует содержание web-страницы, находит информацию о биореакторах, сравнивает ее с имеющейся в БД и при необходимости дополняет или изменяет информацию в БД. Приведем краткое описание принципа работы программного модуля, общая схема работы которого представлена на рисунке 4.
Используемый в модуле подход основан на анализе DOM-дерева (Document Object Model -«объектная модель документа»), который позволяет получить данные непосредственно по уникальному идентификатору, а также по другим атрибутам элемента дерева. В случае отсутствия идентификатора возможно обращение к элементу, используя уникальный путь при спуске вниз по DOM-дереву или, например, при пересортировке однотипных элементов.
Данный подход удобен в использовании, так как позволяет извлекать данные любого типа и уровня сложности, а также получать необходимое значение элемента по пути его расположения. Однако необходимо учесть то, что путь элемента может изменяться, поэтому данная часть программного модуля рассчитана на кратковременный период сбора данных - при сильном изменении структуры web-сайта производителя требуется корректировка путей элементов сайта. Следует отметить, что необходимость в анализе DOM-дерева присутствует не всегда. Например, если данные веб-ресурса отражены с помощью некоторых таблиц или шаблонов, где рассматриваются элементы одного типа, но разного значения, используется так называемый парсинг строк (string parsing), применение которого зачастую более эффективно, чем анализ DOM-дерева.
Из-за многообразия данных и способов их выражения на сайтах производителей в данном программном продукте используются комбинации различных подходов. В работе использовались такие инструменты, как HtmlAgilityPack, предоставляющий возможность анализировать DOM-дерево, и Data Extracting SDK, позволяющий использовать парсинг строк.
Таким образом, разработанный программный продукт обеспечивает удобный доступ к данным пользователю с любым уровнем владения языком запросов SQL, а также при отсутствии таких навыков. Приложение позволяет осуществлять оперативный поиск необходимой информации в понятной и легкой для восприятия форме. С учетом темпов развития мирового производства важной функцией данного приложения является возможность добавления и расширения хранимых данных как с помощью автоматизированного модуля, так и в режиме ручной работы пользователя с приложением.
212
Программные продукты и системы /Software & Systems
№ 3 (111), 2015
Литература
1. Меньшутина Н.В., Мишина Ю.В., Алвес С.В. Инновационные технологии и оборудование фармацевтического производства. М.: Бином, 2012. Т. 1. 328 с.
2. Сазыкин Ю.О., Орехов С.Н., Чакалева И.И. Биотехнология: учеб. пособие для студентов вузов. М.: Академия, 2008. 256 с.
3. Северин С.Е. Биохимия и медицина - новые подходы и достижения. М.: Русский врач, 2006. 94 с.
4. Меньшутина Н.В., Матасов А.В. Современные информационные системы хранения, обработки и анализа данных для предприятий химической и смежных отраслей: учеб. пособие. М.: Изд-во РХТУ им. Д.И. Менделеева, 2011. 307 с.
5. Каталог фармацевтического оборудования. URL:
http://pharmic.ru/ (дата обращения: 19.12.2014).
6. Биореакторы промышленные. Бизнес-каталог фирм, компаний, предприятий. URL: http://www.ru.all.biz/bioreaktory-promyshlennye-epg1070832 (дата обращения: 20.12.2014).
7. Поставщики машин и оборудования. URL: http://www. oborudunion.ru/i_store/item_1000356668/promyshlennye-bioreak-tory.html (дата обращения: 21.12.2014).
8. Химический портал ChemPort.Ru. Поставщики фармацевтического оборудования. URL: http://www.chemport.ru/labe-quipment_products1350.html (дата обращения: 21.12.2014).
9. Фирма промышленной автоматизации и биореакторов «Bioreactors.net». URL: http://www.bioreactors.net/index.php/ru/ visus-bioreaktoru-razotajus.html (дата обращения: 24.12.2014).
10. Дунаев В.В. Базы данных. Язык SQL. СПб: БХВ-Пе-тербург, 2006. 288 с.
DOI: 10.15827/0236-235X.111.210-213 Received 04.03.15
BIOREACTORS DATABASE
Vorobyova E.S., Postgraduate Student, [email protected]; SafarovR.R., Candidate;
Ivanov S.I., Ph.D. (Engineering), Senior Researcher, [email protected] Menshutina N.V., Dr.Sc. (Engineering), Professor, [email protected] (D. Mendeleev University of Chemical Technology of Russian Federation,
Miusskaya Sq. 9, Moscow, 125047, Russian Federation)
Abstract. Nowadays, much attention is paid to the development of biotechnological processes, an important element is the bioreactor. Taking into account the development of modern industry, the number and variety of produced bioreactors is constantly increasing. In order to systematize industrial bioreactors data using Microsoft SQL Server 2008 R2, the “Bioreactors” database was created. It systematizes the devices themselves as well as their basic technical and operational characteristics. For easy operation of the developed software it is necessary to provide the most comfortable user interaction with the program. Thus, using the Microsoft Visual Studio 2010 software package, an application was created. It represents a database graphical interface. The application allows you to obtain information about the bioreactors, manufacturers, tools, automation and other data in tables with the option to sort information. The tables in the database were developed for entering information about new models, companies and measuring instruments, and for correcting and updating existing information. A part of the software windows are fitted out with graphical regions to visualize the design of a biotechnological apparatus. As the result, the software product includes an interface adapted for users without knowledge of SQL. A software module was created for automatic data enrichment of the software product. It allows automatically analyze, collect and classify information from the web sites of manufacturers of bioreactors to fill and update existing databases. The approach, which was used in the module, is based on the DOM tree analysis, as well as on the combination of such methods as HtmlAgilityPack and Data Extracting SDK.
Keywords: bioreactor, database, Microsoft SQL Server, Microsoft Visual Studio, DOM tree.
Referents
1. Menshutina N.V., Mishina Yu.V., Alves S.V. Innovatsionnye tekhnologii i oborudovanie farmatsevticheskogo proizvodstva [Innovative Technologies and Equipment for Pharmaceutical Industry]. Moscow, Binom Publ., 2012, vol. 1, 328 p.
2. Sazykin Yu.O., Orekhov S.N., Chakaleva I.I. Biotekhnologiya [Biotechnology]. Textbook for Students of Higher Educational Institutions. Moscow, Academy Publ., 2008, 256 p.
3. Severin S.E. Biokhimiya i meditsina - novye podkhody i dostizheniya [Biochemistry and Medicine - New Approaches and Achievements]. Moscow, Russkiy vrach Publ., 2006, 94 p.
4. Menshutina N.V., Matasov A.V. Sovremennye informatsionnye sistemy khraneniya, obrabotki i analiza dannykh [Modern Information Systems for Storing, Processing and Analysis of Data for Chemical and Allied Industries]. Manual. Moscow, D. Mendeleev University of Chemical Technology of Russian Federation Publ., 2011, 307 p.
5. Katalogfarmatsevticheskogo oborudovaniya [Pharmaceutical Equipment Catalogue]. Available at: http://pharmic.ru/ (accessed December 19, 2014).
6. Promyshlennye bioreactory. Biznes-catalog firm, company i predpriyaty [Industrial Bioreactors. Business Directory of Firms, Companies, Enterprises]. Available at: ttp://www.EN.all.biz/bioreaktory-promyshlennye-epg1070832 (accessed December 20, 2014).
7. Postavshchiki mashin i oborudovaniya [Suppliers of Machines and Equipment]. Available at: http://www.oborudunion.ru/i_store/item_1000356668/promyshlennye-bioreaktory.html (accessed December 21, 2014).
8. Khimichesky portal ChemPort.Ru. Postavshiki farmatsevticheskogo oborudovaniya [Chemical Portal ChemPort.Ru. Suppliers of Pharmaceutical Equipment]. Available at: http://www.chemport.ru/labequipment_products1350.html (accessed December 21,2014).
9. Firma promyshlennoy avtomatizatsii i bioreactorov "Bioreactors.net" [A brand of Industrial Automation and Bioreactors “Bioreactors.net”]. Available at: http://www.bioreactors.net/index.php/ru/visus-bioreaktoru-razotajus.html (accessed December 24, 2014).
10. Dunaev V.V. BazyDannykh. YazykSQL [Databases. SQL]. St. Petersburg, BHV-Peterburg Publ., 2006, 288 p.
213