Научная статья на тему 'О стандартизации методов псевдонимизации персональных данных в здравоохранении'

О стандартизации методов псевдонимизации персональных данных в здравоохранении Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
769
117
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАЩИТА ПЕРСОНАЛЬНЫХ ДАННЫХ / PROTECTION OF PERSONAL DATA / ОБЕЗЛИЧИВАНИЕ ПЕРСОНАЛЬНЫХ ДАННЫХ / DEPERSONALIZATION OF PERSONAL DATA / ИНФОРМАЦИОННЫЕ СИСТЕМЫ В ЗДРАВООХРАНЕНИИ / INFORMATION SYSTEMS IN HEALTH CARE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Столбов Андрей Павлович

Рассмотрены методы обезличивания персональных данных анонимизации и псевдонимизации в информационных системах в здравоохранении. Перечислены основные нормативные документы и стандарты, определяющие требования к защите персональных данных и их обезличиванию. Описаны варианты и примеры использования технологий псевдонимизации в здравоохранении. Сформулированы предложения по внедрению методов псевдонимизации в здравоохранение.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON STANDARDIZATION OF METHODS OF PSEUDONYMIZATION OF PERSONAL DATA IN HEALTH CARE

The methods of de-identification: anonymization and pseudonymization of personal data in information systems in health care. Lists the key normative documents and standards defining the requirements for the protection of personal data and their depersonalization. Described embodiments and examples of the use of technology pseudonymization in health care. Formulated proposals for the introduction of methods of pseudonymization in health care.

Текст научной работы на тему «О стандартизации методов псевдонимизации персональных данных в здравоохранении»

ОПЫТ ПРАКТИЧЕСКОЙ СТАНДАРТИЗАЦИИ

doi: 10.26347/1607-2502201709-10025-036

О СТАНДАРТИЗАЦИИ МЕТОДОВ ПСЕВДОНИМИЗАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ В ЗДРАВООХРАНЕНИИ

А.П. Столбов

ФГАОУ ВО Первый московский государственный медицинский университет им. И.М. Сеченова (Сеченовский университет), Москва, Россия

Рассмотрены методы обезличивания персональных данных — ано-нимизации и псевдонимизации в информационных системах в здравоохранении. Перечислены основные нормативные документы и стандарты, определяющие требования к защите персональных данных и их обезличиванию. Описаны варианты и примеры использования технологий псевдонимизации в здравоохранении. Сформулированы предложения по внедрению методов псевдонимизации в здравоохранение.

Ключевые слова: защита персональных данных, обезличивание персональных данных, информационные системы в здравоохранении

Авторы заявляют об отсутствии возможных конфликтов интересов

ON STANDARDIZATION OF METHODS OF PSEUDONYMIZATION OF PERSONAL DATA IN HEALTH CARE

A.P. Stolbov

FGAOU VO First Moscow State Medical University I.M. Sechenov Ministry of Health of Russia (Sechenov University), Moscow, Russia

The methods of de-identification: anonymization and pseudonymization of personal data in information systems in health care. Lists the key normative documents and standards defining the requirements for the protection of personal data and their depersonalization. Described embodiments and examples of the use of technology pseudonymization in health care. Formulated proposals for the introduction of methods of pseudonymization in health care.

Keywords: protection of personal data, depersonalization of personal data, information systems in health care

Authors declare lack of the possible conflicts of interests.

Компьютеры и Интернет все активнее и шире используются в практическом здравоохранении, медицинской науке и образовании. Почти все лечебные учреждения используют сегодня медицинские информационные системы (МИС), имеют доступ в Интернет и свой сайт. Концепцией создания Единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ) [1] и приоритетным проектом «Электронное здравоохранение» [2] предусмотрены ведение в лечебно-профилактических учреждениях электронных медицинских карт (ЭМК) и создание федеральной системы ведения интегрированной ЭМК гражданина (ИЭМК). Уже сейчас в медицинских и страховых медицинских организациях (МО, СМО), фондах ОМС и региональных МИС накоплены и обрабатываются огромные по объемам персонифицированные базы данных (БД), содержащие сведения, составляющие врачебную тайну, которые по закону должны быть надежно защищены от несанкционированного доступа, изменения и удаления.

Основные требования к организации обработки и защиты информации о физических лицах определены Федеральным законом «О персональных данных» № 152-ФЗ от 27.07.2006, Постановлениями Правительства Российской Федерации № 687 от 15.09.2008, № 1119 от 01.11.2012, № 211 от 21.03.2012, приказами Федеральной службы по техническому и экспортному контролю Российской Федерации № 17 от 11.02.2013 (в ред. от 15.02.2017) и № 21 от 18.02.2013, приказом Федеральной службы безопасности Российской Федерации№ 378 от 10.07.2014. Реализация мероприятий по защите информации в информационной системе (ИС) подразумевает применение целого комплекса организационных и технических мер и дорогостоящих специальных технических, программных, в том числе криптографических средств защиты информации.

Одним из способов обеспечения конфиденциальности персональных данных и снижения затрат на их защиту является обезличивание информации. В новой редакции Федерального закона «Об основах охраны здоровья граждан в Российской Федерации» № 323-ФЗ от 21.11.2011 (ред. от 29.07.2017) сказано, что на федеральном уровне в ЕГИСЗ сбор и обработка данных персонифицированного учета лиц, которым оказывается медицинская помощь, а также лиц, в отно-

шении которых проводятся медицинские экспертизы, медицинские осмотры и медицинские освидетельствования, осуществляется в обезличенном виде, в порядке, установленном Минздравом России по согласованию с Роскомнадзо-ром. Из этого следует, что сведения в федеральном сегменте базы данных ИЭМК должны быть представлены в обезличенном виде.

Целью настоящей работы является анализ и обсуждение возможностей и особенностей применения методов обезличивания персональных данных в здравоохранении.

Основные понятия. Персональные данные — любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу — субъекту персональных данных (ст. 3 закона № 152-ФЗ). Далее, если это не указано особо, в качестве субъекта персональных данных будем рассматривать пациента.

Оператор персональных данных — юридическое или физическое лицо, которое: а) самостоятельно или совместно с другими лицами организует и/или осуществляет обработку персональных данных, и б) определяет цели их обработки, состав данных и выполняемые над ними действия (операции).

Идентификатор лица (personal identifier) — информация, с помощью которой лицо может быть однозначно определено в определенном контексте [3].

Служба идентификации субъектов персональных данных (пациентов) — специальные сотрудники, подразделение или организация, уполномоченные предоставлять авторизованным пользователям определенный, «стандартный» набор персональных данных конкретного пациента по запросу, содержащему его идентификатор (на основе [3]).

Обезличивание (де-идентификация, де-персо-нификация) персональных данных — действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных. Основная цель обезличивания — обеспечение конфиденциальности персональных данных. Далее обезличенные данные будем назвать О-данными (записями, документами).

Деобезличивание (персонификация) — действия, в результате которых обезличенные данные

принимают вид, позволяющий определить их принадлежность конкретному субъекту персональных данных — становятся персональными данными.

Анонимный идентификатор (anonymous identifier, AI) — идентификатор лица, по которому невозможно однозначно установить, какое именно физическое лицо он обозначает [3].

Анонимность данных — невозможность на основе этих данных однозначно установить их принадлежность определенному, конкретному лицу (персоне), без использования дополнительной информации.

Псевдоним (pseudonym) — идентификатор лица, по которому нельзя воспроизвести обычно используемый его идентификатор и установить его личность без использования дополнительной информации (на основе [3]).

Служба (сервисы) псевдонимизации — программные средства, предназначенные для выполнения функций формирования и присвоения псевдонимов пациентам, обезличивания и обратной персонификации (деобезличивания) записей, а также специально уполномоченные сотрудники, подразделение или организация, осуществляющие администрирование и обеспечение применения этих программных средств пользователями.

В документе Европейского союза [4] и стандартах Международной организации стандартизации (ИСО, www.iso.org) сведения о человеке подразделяются на:

— сведения, позволяющие идентифицировать персону/личность (Personally Identifiable Information, PII); здесь и далее PII — это вполне определенный набор атрибутов (элементов структуры) данных — Ф.И.О., дата и место рождения, адрес места регистрации, жительства, место работы, должность, сведения о законных представителях, членах семьи, родственниках и т.д., различного рода идентификаторы, сопоставленные с персоной: серия и номер паспорта, полиса ОМС, СНИЛС, ИНН, номер медицинской карты и т.п., а также контактные данные: номер телефона, адрес электронной почты и т.д.; считаем, что всегда существует хотя бы одна совокупность PII-атрибутов, обеспечивающая однозначную идентификацию пациента; заметим, что с точки зрения возможности идентификации пациента, набор PII-атрибутов в записи может быть

избыточным; некоторые рекомендации по составу атрибутов и алгоритмам идентификации пациентов приведены в ГОСТ ISO/TS 22220;

— сведения, соотносимые с конкретной личностью — персоной (the Information Correlation with the Person, ICP) — документированные сведения о человеке, в том числе о состоянии здоровья, оказанной медицинской помощи и т.д., — на основе которых невозможно однозначно определить их принадлежность конкретному лицу (персоне); то есть любой набор ICP-атрибутов является анонимным (anonymized data); в [3] такие данные названы «обрабатываемыми» или «де-персонифицированными»;

— персонифицированные данные (personalized data, далее — исходные И-данные, записи) — данные о конкретном человеке (персоне), содержащие, в том числе сведения, позволяющие его идентифицировать; формально состав таких данных можно представить в виде пары (PII, ICP), где PII и ICP — наборы PII- и ICP-атрибутов.

Далее, если специально не указано иное, словом «атрибут» будем обозначать и определенный элемент структуры данных (структуры записи), и его значение или величину (число, символьную строку, код и т.п.). Латинскими буквами в тексте и формулах будем обозначать как определенные атрибуты, так и их соответствующие наборы и/ или категории (классы, виды).

Виды обезличивания персональных данных. Следует различать необратимое и обратимое обезличивание. В зависимости оттого, какие действия выполняются и как реализуется процесс обезличивания, полученная деперсонифи-цированная О-запись может быть:

а) анонимизированной, когда все PII-атрибу-ты из записи удаляются либо изменяются таким образом, что выполнить ее обратную персонификацию — сопоставить с PII какого-либо определенного пациента — невозможно (необратимое обезличивание); при этом О-запись помечается неким анонимным идентификатором AI; далее такие данные будем назвать А-данными;

б) псевдонимизированной, когда, как и при анонимизации, PII-атрибуты изменяются или удаляются из записи, но при этом обезличенные данные о пациенте помечаются его «секретным» псевдонимом Ps, присвоенным по определенным правилам, что позволяет при необходимости выполнить процедуру обратной персонификации —

деобезличивание О-записи; далее такие данные будем назвать П-данными.

Как будет показано далее, псевдонимизация данных и организационно, и технологически существенно сложнее и «затратнее», чем аноними-зация. В то же время надо иметь в виду, что:

— после выполнения процедуры анонимиза-ции А-данные о пациенте уже не могут быть корректно изменены и/или дополнены;

— собрать и объединить/интегрировать А-дан-ные об одном и том же пациенте, полученные от разных источников и/или в разное время, невозможно;

— изменение, актуализация А-данных может осуществляться только путем повторной анони-мизации обновленных исходных персонифицированных данных о пациенте;

— в отличие от А-данных, П-данные о пациенте могут быть получены в разное время от одного или нескольких источников, объединены, дополнены — изменены по составу атрибутов и/или их значений без выполнения процедуры деобез-личивания;

— изменение, актуализация и консолидация П-данных о пациенте могут осуществляться в инкрементном режиме с сохранением инкогнито пациента.

Конфиденциальность обезличенных данных. Полученные после обезличивания данные не содержат сведений, позволяющих идентифицировать личность, и поэтому они уже не являются персональными данными (с точки зрения закона№ 152-ФЗ). В общем случае это позволяет существенно упростить организацию доступа к обезличенным данным и снизить совокупные затраты на создание системы защиты и обеспечение конфиденциальности информации.

В настоящее время в большинстве развитых стран возможность сбора А-информации без согласия субъекта персональных данных независимо от целей обработки нормативно регулируется только в части обязательных требований к процедурам гарантированной анонимизации данных. Что касается П-данных, то возможность их сбора и обработки с той или иной целью, а также допустимость открытого, публичного доступа к таким данным, во многих странах строго регламентируется национальным законодательством. Например, в Германии для обработки псевдони-мизированных данных требуется специальное

согласие субъекта персональных данных. Сегодня, в связи с интенсивной «интернетизацией» экономики, социальной сферы и здравоохранения, появлением социальных сетей и развитием технологий, называемых Big Data, вопросы правового регулирования и регламентации процессов сбора и использования псевдонимизирован-ных данных находятся в зоне особого внимания как государственных органов, так и общественных организаций. В российском законодательстве каких-либо явных ограничений и требований относительно сбора и обработки обезличенных данных пока еще нет, хотя уже обсуждаются законопроекты, регламентирующие использование Big Data, в том числе в сфере здравоохранения и медицинской науки.

Таким образом очевидно, что организация практического применения технологий анони-мизации и псевдонимизации в здравоохранении, когда медицинская, клиническая и административная информация о пациенте должна быть документирована и юридически значима, требует соответствующего правового, методического и технического обеспечения.

Применение методов псевдонимизации в здравоохранении. Общемировая практика показывает, что псевдонимизацию данных, содержащих сведения, относящиеся к врачебной тайне, целесообразно применять:

1. В тех случаях когда врач, медработник, участвующий в процессе оказания медицинской помощи пациенту, непосредственно работает только:

— с медицинскими документами, например, при подготовке экспертного заключения (»вто-рое мнение»), при описании и интерпретации медицинских изображений и диаграмм: рентгеновских снимков, томограмм, ЭКГ и т.д., в том числе полученных по каналам связи (телерадиология, телекардиология, телеморфология и т.д.);

— с биоматериалами при проведении лабораторных исследований; сегодня такая практика все чаще используется медицинскими организациями при взаимодействии с внешними, централизованными лабораториями, что существенно упрощает их работу и позволяет снизить затраты на защиту информации.

В описанных выше случаях псевдонимизация может осуществляться как локально, так и централизованно (см. далее). При этом после получе-

ния П-документа с результатами исследования или заключением перед их записью (включением) в медицинскую карту пациента предварительно должна осуществляться обратная персонификация документа.

2. При «вторичном» использовании массивов медицинских данных, когда: а) необходимо обеспечить доступ к ним большого количества различных пользователей для решения управленческих, научных и иных задач, и при этом б) может потребоваться идентифицировать пациента (субъекта данных) — осуществить обратную персонификацию, например, для получения дополнительных сведений о пациенте и т.д.; типичными примерами такого рода массивов данных могут быть:

— территориально-популяционные нозологические регистры;

— геномные (ДНК-) медицинские регистры; заметим, что в законодательстве большинства европейских стран и у нас в РФ действует принцип «одинаковых требований к уровню конфиденциальности» геномной, генетической и иной медицинской информации;

— регистры потенциальных и фактических доноров и реципиентов органов и тканей человека; в качестве примера можно назвать всемирную поисковую систему доноров костного мозга (www.bmdw.org);

— регистры, формируемые при проведении научных исследований; особенно эффективно это при сборе, унификации и консолидации данных многоцентровых исследований [5];

— регистры пациентов, используемые при проведении клинических испытаний; заметим, что применение методов псевдонимизации позволяет при этом обеспечить также и высокий уровень «ослепления» пользователей — экспертов, работающих с этими данными;

— регистры лиц, с имплантированными медицинскими изделиями, которые используются при сборе катамнестической информации и оценке безопасности и эффективности применения медицинских изделий [6];

— регистры, формируемые при сборе извещений о побочном действии лекарственных препаратов, медицинских изделий и биомедицинских клеточных продуктов;

— базы данных персонифицированного учета объемов и результатов медицинской помощи,

оказанной по программам ОМС, которые формируются и ведутся в СМО и территориальных фондах ОМС.

Очевидно, что при работе с перечисленными выше регистрами и базами данных псевдоними-зация должна, как правило, осуществляться централизованно. В то же время у автора есть положительный опыт работы с обезличенной базой данных об оказанной медицинской помощи для выявления клинически связанных случаев обращения пациента в различные лечебно-профилактические учреждения (так называемых эпизодов), псевдонимизация которой осуществлялась локально в территориальном фонде ОМС.

3. При централизованном ведении баз данных, в которых собираются и накапливаются различные медицинские и иные сведения о персоне — конкретном человеке, поступающие из множества учреждений, в которых он проходил обследование, лечение или реабилитацию [7]; такая персоно-центрированная модель сбора данных о состоянии здоровья и оказанной медицинской помощи за рубежом получила название Long Life Personal Health History, а у нас — интегрированная ЭМК — ИЭМК [8, 9]; в ГОСТ Р ИСО/ТО 20514 этому соответствует термин Electronic Health Record for Integrated Care (ICEHR). Основная цель создания подобных БД — обеспечение преемственности, безопасности, качества и эффективности медицинской помощи. К ним организован удаленный доступ авторизованных пользователей — прежде всего врачей различных учреждений, которым при этом «видны» реальные PII-данные пациента. Иным категориям пользователей доступ к таким БД предоставляется только в режиме чтения А- или П-записей — реальные PII-данные пациентов для них закрыты. В отличие от медицинских регистров, предназначенных для решения узкоспециальных задач, такие БД, очевидно, обладают гораздо большим «аналитическим потенциалом» и могут быть использованы при решении самых разных клинических, управленческих, научных и учебных задач, в том числе для формирования и ведения медицинских регистров. Псевдонимизация записей в таких БД должна осуществляться централизованно. Примером подобной БД является единая база данных «выписных» эпикризов в национальной системе здравоохранения Великобритании, ведение которой осуществляется с ис-

пользованием псевдонимов, для чего создана специальная служба, обеспечивающая удаленный авторизованный доступ врачей и пациентов к этой базе данных через систему Spine [10].

Доступ к перечисленным выше базам данных может быть организован так же, как и к аноними-зированным данным — без возможности персонификации записей.

Методы обезличивания. В настоящее время разработано много различных методов обезличивания [5, 11—13]. Приказом уполномоченного органа по защите прав субъектов персональных данных — Роскомнадзора — в 2013 г. были утверждены требования по обезличиванию персональных данных [14], опубликованы методические рекомендации по применению этого приказа [15]. С июля 2013 г. введен в действие ГОСТ Р 55036 [3], с июля 2017 г. — ГОСТ Р ИСО/МЭК 27038 [16]. Однако, все эти документы имеют «рамочный» характер — для практического использования методов анонимизации и псевдони-мизации в российском здравоохранении необходимо определить организационные процедуры, разработать алгоритмы и специальные программные средства, исходя из потребностей различных прикладных задач и условий их применения, и издать соответствующие нормативно-методические документы.

Далее будем рассматривать процессы обезличивания только структурированных данных — записей и документов.

Процедуры и алгоритмы обезличивания основаны на том, что любая структурированная персонифицированная запись (документ) может быть представлена в виде двух наборов атрибутов — (PII, ICP) и при этом PII-атрибуты, в свою очередь, в общем случае могут быть разделены на пять наборов атрибутов:

PII = (ID, pV, pR, pN, pF),

где ID — идентификаторы пациента. Следует различать: а) внутренние ID, присваиваемые самим оператором (например, номер медицинской карты), и б) внешние ID, которые присвоены пациенту другим оператором (третьим лицом), например, номер полиса ОМС или СНИЛС; как правило, один из внешних идентификаторов пациента принимается в качестве «стандартного», единого для всех организаций — источников данных о пациентах (далее — IDS; считается, что

такой идентификатор всегда существует); при обезличивании все идентификаторы либо удаляются, либо заменяются другими идентификаторами пациента:

— при анонимизации — на анонимный идентификатор пациента AI — некий чисто условный код, который не связан с PII какого-либо пациента;

— при псевдонимизации — на псевдоним пациента Ps (см. далее).

pV — допускающие (предусматривающие) замену на их обобщенное значение pG; например, вместо полного адреса указывается только название или код населенного пункта или района, вместо возраста — код возрастной группы (к pV-атрибутам относятся также конкретные даты: рождения, смерти, обращения в МО, госпитализации, выписки и т.п., которые должны либо заменяться на обобщенные периоды: номер недели, месяца, квартала и т.д., либо удаляться или заменяться «пустыми» значениями); далее замену pV-атрибутов на их обобщенные значения будем называть генерализацией и обозначать pV ^ pG;

pR — допускающие (предусматривающие) замену на вычисляемый атрибут pC, значение (величина) которого рассчитывается по определенному алгоритму; например, вместо даты рождения пациента вычисляется и указывается его возраст или код возрастной группы, вместо роста и веса — величина индекса массы тела (в данной работе рост, вес и другие антропометрические данные пациента будем относить к PII-атрибутам); далее замену pR-атрибутов на вычисляемые атрибуты будем обозначать pR ^ pC; преобразования pV ^ pG и pR ^ pC в [8, 9] обобщенно называются методом изменения семантики или состава данных;

pN — номинальные, не подлежащие генерализации или какому-либо иному преобразованию (Ф.И.О., контактные реквизиты, текстовые поля в «свободном формате», в которых могут содержаться персональные данные и др.); при обезличивании они удаляются из записи (не включаются в О-запись) либо заменяются «пустыми» значениями;

pF — идентифицирующие других физических лиц (не пациентов), которые в определенном контексте и/или в сочетании с другими атрибутами могут быть использованы для определения личности пациента (поэтому они отнесены к PII-атрибутам); при обезличивании они либо

удаляются из записи, либо при необходимости могут заменяться:

— при анонимизации — на анонимные идентификаторы этих физических лиц pA, не позволяющие определить их истинные, реальные реквизиты (Ф.И.О., адрес, СНИЛС и т.д .), что можно представить в виде преобразования pF ^ pA;

— при псевдонимизации — на соответствующие «секретные» персональные псевдонимы pP, которые присваиваются по определенным правилам, что позволяет осуществить обратную персонификацию pP ^ pF — сопоставление псевдонимов с реальными реквизитами указанных лиц.

Наличие в записях pF-атрибутов и их замена на pA и pP позволяют при обезличивании сохранить информацию о различных видах взаимосвязей (отношений) между субъектами персональных данных, представляемых с помощью указанных атрибутов. В [14, 15] это свойство названо структурированностью обезличенных данных.

В исходной И-записи pV-, pR- и pF-атрибуты могут отсутствовать.

Далее «обезличенные» идентификаторы субъектов персональных данных обобщенно будем обозначать pU = {А1, Ps} — для пациента и pX = {pA, pP} — для иных физических лиц.

Все PП-атрибуты при обезличивании могут также представляться в О-записи «пустыми» значениями.

Анонимизация данных реализуется путем удаления из записи, генерализации и/или замены PИ-атрибутов — выполнения следующих преобразований:

(ГО, pN, рХ pR, pF, ICP) ^ (А1, (рО, рС, рА, 1СР));

где (рО, рС, рА, 1СР) — обрабатываемые данные о пациенте (как видим, 1СР могут быть дополнены рО-, рС- и рА-атрибутами); А1 — анонимный идентификатор пациента, которым помечены обрабатываемые данные. Атрибуты с «пустыми» значениями здесь и далее не показаны.

Присвоение псевдонимов. Начальным этапом процесса псевдонимизации является присвоение пациенту псевдонима Ps, которое осуществляется специальной службой (сервисом) псевдонимизации. При этом для разных целей и задач могут использоваться разные псевдонимы одного и того же лица. Принципиально важно, что псевдоним:

— должен быть уникальным в системе идентификации и учета пациентов, для использования в которой он предназначен;

— не должен совпадать ни с одним из идентификаторов, сопоставленных с пациентом и используемых в других системах учета и идентификации физическим лиц или относящихся к ним документов, записей и т. д., например, с номером медицинской карты, полиса ОМС, серией и номером паспорта, СНИЛС и т.д.;

— никогда не указывается вместе с персональными данными пациента в медицинских документах;

— во всех случаях не известен ни врачу, ни пациенту;

— может быть сопоставлен с персональными данными пациента, раскрыт или передан кому-либо только в строго определенных специальных случаях, предусмотренных законодательством либо соглашением между пользователями ИС, в которой обрабатываются П-данные, по жестко контролируемым процедурам с обеспечением установленных требований по защите персональных данных и сохранению врачебной тайны.

При необходимости по аналогичным правилам псевдонимы могут присваиваться также иным физическим лицам, сведения о которых содержатся в исходных записях о пациенте. При этом также используется соответствующий «стандартный» идентификатор субъекта персональных данных. Из-за ограниченного объема статьи описание указанных процессов здесь не приводится.

В зависимости от метода формирования псевдонимы могут быть:

а) назначаемыми — с помощью «секретных» таблиц соответствия (PII: Ps); уникальный Ps при этом может формироваться на основе некоторого порядкового или составного номера, с помощью датчика случайных чисел либо с использованием хэш-функции, вычисляемой по значению определенной уникальной совокупности PII-атрибутов PIIp с PII или, чаще всего — «стандартного» IDS пациента, например, СНИЛС; важно, что во всех перечисленных случаях обратное вычисление PIIP на основе Ps невозможно;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

б) вычисляемыми — путем шифрования на «секретных» ключах службы псевдонимизации определенного набора атрибутов PIIP, обеспечивающего однозначность идентификации пациента и уникальность псевдонима; в этом случае

«секретная» таблица соответствия (PIIP : Ps) может не формироваться и не храниться — прямое PIIP ^ Ps и обратное Ps ^ PIIP криптопреобра-зование выполняются «на лету»; при этом могут применяться как симметричные, так и асимметричные методы шифрования.

Присвоение псевдонима пациенту и иным физическим лицам может выполняться как заблаговременно, так и непосредственно в процессе формирования псевдонимизированной О-за-писи о пациенте.

Псевдонимизация, как и анонимизация данных, может быть реализована путем выполнения следующих преобразований:

(ID, pN, pV, pR, pF, ICP) ^ ^ (IDS, (pG, pC, pF, ICP)) ^

^ (Ps, (pG, pC, pP, ICP)),

где используется таблица соответствия (IDS : Ps) либо псевдоним Ps вычисляется по идентификатору IDS пациента; (pG, pC, pP, ICP) — обрабатываемые данные о пациенте, помеченные его псевдонимом Ps; если PII включают данные о законных представителях и/или родственниках пациента pF, и они необходимы для дальнейшей обработки, то их также надо заменить их псевдонимами pP.

Указанные выше преобразования данных при обезличивании могут осуществляться в автоматическом режиме с помощью соответствующих программных средств, контролируемых сотрудниками службы псевдонимизации. При этом, как правило, они не имеют доступа к персонифицированным данным о пациентах, содержащим сведения, составляющие врачебную тайну.

Формирование обезличенной записи о пациенте может осуществляться с использованием заранее определенного шаблона (template) О-за-писи, в котором перечислены все атрибуты исходных И-записей, и при этом каждый атрибут имеет специальную пометку, обозначающую, какое действие с ним выполняется:

— удаление — для pN-, ID- и pF-атрибутов (не включаются в О-запись);

— замена на «пустое» значение pZ — для любых PII-атрибутов;

— замена на анонимный идентификатор — для pN, ID — на AI, для pF — на pA;

— замена на псевдоним — для pN, ID — на Ps, для pF — на pP;

— замена на обобщенное значение pG (генерализация) — для pV-атрибутов;

— замена на вычисляемый атрибут pC — для pR-атрибутов;

— включение в О-запись без изменений — для ICP-атрибутов.

При формировании О-записи операции по замене одного и того же PII-атрибута на «пустые», обобщенные или вычисляемые значения могут применяться одновременно.

Все PII-атрибуты, не помеченные в шаблоне как заменяемые, безусловно удаляются (не включаются в О-запись).

Очевидно, что все перечисленные выше операции удаления или замены атрибутов, кроме замены на вычисляемый псевдоним, необратимы — восстановить исходные значения атрибутов при обратной персонификации невозможно. В связи с этим при обезличивании возможна частичная потеря информации о пациенте в О-записи.

Должны быть приняты единые правила генерализации и расчета значений вычисляемых атрибутов.

В зависимости от того, как реализован процесс формирования обезличенной записи, следует различать:

а) цензурирование исходной И-записи:

(PII, ICP) ^ (pU, (pZ, ICP)),

где pU — анонимный идентификатор AI или псевдоним Ps пациента. При цензурировании всегда создается новый документ, в котором все PII-атрибуты заменены на «пустые» значения pZ; при этом, как правило, в О-запись включаются все ICP-атрибуты; общие требования и рекомендации по выполнению цензурирования документов приведены в [16];

б) сборку (компиляцию) О-записи из атрибутов одной или нескольких И-записей о пациенте:

{(ID, pN, pV, pR, pF, ICP) | j = 1,..., N} ^ ^ (pU, (pG, pC, pX, ICP)),

при этом О-запись может включать консолидированные наборы атрибутов данных, полученных в результате преобразований pV ^ pG, pR ^ pC и pF ^ pX, а также экстракции и/или объединения атрибутов из ICP-данных множества И-за-писей.

Сложность и техническая осуществимость процедур обезличивания зависят от уровня фор-

мализации контента в записи — состава атрибутов, формы и способов предоставления данных.

Деобезличивание. Персонификация П-дан-ных — восстановление их принадлежности определенному пациенту — осуществляется с помощью службы (сервисов) псевдонимизации по запросам авторизованных пользователей при наличии у них соответствующих полномочий. При этом, как уже было отмечено выше, возможна потеря части исходной информации о пациенте.

Идентификация, аутентификация, проверка полномочий пользователей и предоставление им по запросу, содержащему псевдоним Ps пациента, его стандартного идентификатора IDS осуществляются службой псевдонимизации. Через службу (сервисы) идентификации пациентов по запросу, содержащему IDS пациента, авторизованным пользователям может быть предоставлен определенный «стандартный» набор PIIS ç PII его персональных данных. Проверка полномочий, обработка запросов и предоставление пользователям указанных данных о пациентах обеими службами могут осуществляться в автоматическом режиме с помощью соответствующих программных средств (сервисов).

Организация процессов псевдонимизации и обратной персонификации. Возможности, процедуры и эффективность использования методов псевдонимизации при решении различных медицинских, управленческих, научных, учебных и иных задач во многом зависят от того, как организованы присвоение псевдонимов, де-пер-сонификация и обратная персонификация П-дан-ных — локально или централизованно.

В первом случае присвоение псевдонимов пациентам, де-персонификация и обратная персонификация данных осуществляются в самой МО собственной, локальной службой (сервисами) псевдонимизации LPS. Модель потоков данных о пациенте для этого случая в виде направленного линейного графа показана на рис. 1, где UM — множество пользователей — врачей, медсестер и т.д., непосредственно работающих с первичной

Мед. организация

(IDS, pG, pC, pF, ICPM) Л (ps, PG, PC, pP, ICPM)

I UM -J-PS ---U

4

(IDs, ICPe)

(IDs:PS) ' (PS, ICPE)

(ps. PgM,' PcMI PpMI icpM.)

(IDS, pGM, pCMi, pFM,, icpMJ

{(IDS, PIIS)} PIS (Ps, ICPdb)

(IDS, PIIS)

DB {(Ps, ICPdB)}

S' llJI DB'J

(PS, ICPDB)

(PS, ISS)

CPS {(IDs, Ps)}

(IDS, ICPDB)

(Um) I = 1.....N

(PS, ICPDB) UA

Рис. 1. Модель локальной псевдонимизации

Рис. 2. Модель доступа к данным через централизованную службу псевдонимизации

медицинской документацией (ЭМК) и персональными данными пациента, при этом Ps пациента им не известен; U — внешние пользовате-

' E

ли, например, сотрудники внешней клинической лаборатории, которые работают только с биоматериалами и псевдонимизированными электронными медицинскими П-документами; направленными стрелками обозначены соответствующие потоки данных (документов), в надписях указан состав данных в потоках: pG, pC, pP и 1СРМ — данные о пациенте, которые передаются внешним пользователям, ICPE — получаются от внешних пользователей. Атрибуты с «пустыми» значениями в О-запись, как правило, не включаются и здесь не показаны.

Очевидно, что область применения технологий локальной псевдонимизации весьма ограничена.

Во втором случае организуется единая централизованная служба (сервисы) псевдонимизации CPS, что позволяет: а) осуществлять сбор, хранение и обработку П-данных об одном и том же пациенте из множества различных источников — медицинских учреждений, СМО и др. и б) обеспечить доступ большого количества различных пользователей к массивам П-данных (документов).

Соответствующая этому варианту обобщенная модель доступа к центральной базе П-дан-ных DB, содержащей записи о пациентах вида (Ps, ICPDB), показана на рис. 2, где: {U^} — это, как и в предыдущем случае, множество пользователей, работающих с персонифицированными медицинскими данными (МО, СМО и др.); авторизованный доступ этих пользователей к базе данных DB по чтению и/или записи осуществля-

U

C

ется через службу (сервисы) псевдонимизации CPS; при этом они «видят» только реальные IDS и «свои» PII. пациента, Ps пациента им не известен; UA — пользователи, которые во всех случаях работают только с П-данными — при решении профессиональных задач им не нужны PII пациентов, для них эти данные являются анонимизи-рованными; PIS — служба идентификации пациентов, предоставляющая авторизованным пользователям определенный «стандартный» набор PIIS персональных данных конкретного пациента по запросу, содержащему его стандартный идентификатор IDS; UC — пользователи, которые в строго определенных случаях при решении своих прикладных задач имеют право по псевдониму пациента Ps получить через службу псевдо-нимизации CPS авторизованный доступ к его стандартному идентификатору IDS и затем обратиться в службу идентификации пациентов PIS для получения «стандартного» набора PIIS его персональных данных.

Формирование записей о пациентах в DB осуществляется на основе данных, поступающих от им-пользователей через службу (сервисы) псев-донимизации CPS. «Интегральная» запись о пациенте ICPDB получается в результате объединения П-записей, полученных в разное время от разных медицинских организаций.

Примером описанной централизованной модели, как уже было отмечено, может быть псев-донимизированная БД ИЭМК, с которой могут работать все три категории пользователей, показанные на рис. 2. Например, лечащий врач (UM) может запросить и получить из БД анамнестическую информацию, сигнальные данные и эпикриз по последнему случаю оказания медицинской помощи пациенту; врач-эксперт страховой компании (UC) — запросить и получить персональные данные пациента в случае необходимости проведения дополнительной экспертизы по первичной медицинской документации; ученые при выполнении обсервационного ретроспективного исследования имеют доступ только к П-данным (UA).

Возможна также смешанная модель псевдо-нимизации (multi-centric pseudonymisation [5]), когда псевдонимы присваиваются в МО, а централизованной службой осуществляется координация их присвоения (синхронизация псевдонимов, см. пп. 5.4, 5.6 в [3]). Смешанная модель

организационно и технологически заметно сложнее централизованной, и поэтому наименее предпочтительна и здесь не рассматривается.

Правила обезличивания, в том числе алгоритмы преобразования рУ- и рЯ-атрибутов, шаблоны для формирования О-записей, процедуры анони-мизации, присвоения псевдонимов и обратной персонификации данных должны быть утверждены соответствующими нормативными документами или определены соглашениями между участниками — пользователями ИС, в которой обрабатываются обезличенные данные.

Выше были описаны только самые общие принципы и способы обезличивания персональных данных о состоянии здоровья и примеры их применения в здравоохранении. Остались нерассмотренными многие важные вопросы, связанные, в частности, с оценкой рисков восстановления персональной принадлежности обезличенных данных, с обработкой биометрических данных, аномальными и особыми случаями идентификации и псевдонимизации данных о пациентах и многие другие.

В заключение хотелось бы еще раз подчеркнуть, что применение методов псевдонимизации при ведении медицинских регистров и иных по-лицевых баз данных обеспечивает качественно новые возможности сбора, обработки и использования содержащейся в них ценнейшей информации как при решении задач практического здравоохранения, так и для решения научных и образовательных задач.

ВЫВОДЫ

1. Псевдонимизация данных в территориаль-но-популяционных и иных медицинских регистрах и хранилищах данных позволит значительно сократить совокупные расходы на их создание и эксплуатацию, снизить затраты на сбор, обработку и предоставление доступа к информации, необходимой для контроля, планирования и принятия решений органами управления здравоохранением, проведения научных исследований, клинических испытаний и в учебных целях, что, в свою очередь, будет способствовать повышению их результативности и эффективности.

2. Представляется целесообразным на законодательном уровне определить понятие псевдони-мизации медицинских данных, определить статус псевдонимизированных данных как неконфиден-

циальных, сбор и обработка которых не требует получения специального согласия пациента.

3. Для практического использования методов анонимизации и псевдонимизации необходимо активизировать работу по созданию нормативно-технических и методических документов, регламентирующих процессы псевдонимизации и обратной персонификации медицинских данных, определить требования к соответствующим программным и техническим средствам, разработать типовые сценарии и регламенты формирования и использования обезличенных данных при решении различных практических задач в здравоохранении, медицинской науке и образовании.

ЛИТЕРАТУРА

1. Концепция создания единой государственной информационной системы в сфере здравоохранения. Приказ Минздравсоцразвития России от 28.04.2011 г. № 364. Доступно по: http://portal.egisz.rosminzdrav.ru/materials/99. Ссылка активна на 01.07.2017.

2. Приоритетный проект «Совершенствование процессов организации медицинской помощи на основе внедрения информационных технологий до 2025 г. («Электронное здравоохранение»)». Утвержден решением Совета по стратегическому развитию при Президенте РФ, протокол № 9 от 25.10.2016. Доступно по: https://www. rosminzdrav.ru/ministry/61/22/informatsionnye-materialy-po-napravleniyu-strategicheskogo-razvitiya-rossiyskoy-federatsii-zdravoohranenie. Ссылка активна на 01.07.2017.

3. ГОСТ Р 55036—2012 / ISO/TS 25237:2008 Информатизация здоровья. Псевдонимизация. Доступно по: http:// meganorm.ru/Index2/1/4293782/4293782142.htm. Ссылка активна на 01.07.2017.

4. General Data Protection Regulation (GDPR), Regulation (EU) 2016/679, 27 April 2016. Доступно по: http://eur-lex. europa.eu/legal-content/EN/TXT/?uri=CELEX:32016R0679. Ссылка активна на 01.07.2017.

5. Lo Iacono Luigi. Multi-centric Universal Pseudonymisa-tion for Secondary Use of the EHR, 2007. Доступно по: http://geneva2007.healthgrid.org/proceedings/proceedings/ pdf/25.pdf. Ссылка активна на 01.07.2017.

6. IMDRF/Registry WG/N33:2016 Principles of International System of Registries Linked to Other Data Sources and Tools, 30.09.2016. Доступно по: http://imdrf.org/docs/im-drf/final/technical/imdrf-tech-160930-principles-system-registries.pdf. Ссылка активна на 01.07.2017.

7. Столбов А.П., Кузнецов П.П. Современные модели организации использования персональных данных о состоянии здоровья. Проблемы стандартизации в здравоохранении. 2010; 1-2: 19—24.

8. Тавровский В.М. Структура, содержание и ведение интегральной электронной медицинской карты (ИЭМК), опубликовано 25.04.2015. Доступно по: http://gosbook.ru/ node/89840. Ссылка активна на 01.07.2017.

9. Зарубина Т.В., Швырев С.Л., Соловьев В.Г., Раузина С.Е., Родионов В.С., Пензин О.В., Сурин М.Ю. Интегрированная электронная медицинская карта: состояние дел и перспективы. Врач и информационные технологии. 2016; 2: 35—44.

10. HSCIC Data Pseudonymisation Review — Interim Report, 31-07-2014. Доступно по: http://content.digital.nhs.uk/ media/14828/HSCIC-Data-Pseudonymisation-Review-In-terim-Report/pdf/HSCIC_Data_Pseudonymisation_Review_ Interim_Report.pdf Ссылка активна на 01.07.2017.

11. Рябко С.Д. Об обезличивании персональных данных. Информационная безопасность. 2009; 5. Доступно по: www.itsec.ru/articles2/bypub/insec-5-2009. Ссылка активна на 01.07.2017.

12. Саксонов Е.А., Шередин РВ. Процедура обезличивания персональных данных. Наука и образование. 2011; 3. Доступно по: http://technomag.edu.ru/doc/173146.html. Ссылка активна на 01.07.2017.

13. Sweeney L. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002. — P. 557—570.

14. Требования и методы по обезличиванию персональных данных. Приказ Роскомнадзора от 05.09.2013 г. № 996. Доступно по: https://rkn.gov.ru/docs/docD_981.doc. Ссылка активна на 01.07.2017.

15. Методические рекомендации по применению приказа Роскомнадзора от 5 сентября 2013 г. № 996 «Об утверждении требований и методов по обезличиванию персональных данных». Утверждены руководителем Роскомнадзора 13.12.2013. Доступно по: https:// rkn.gov.ru/chamber-of-commerce/p717/p732/p502/. Ссылка активна на 01.07.2017.

16. ГОСТ Р ИСО / МЭК 27038-2016 / ISO/IEC 27038:2014 Информационные технологии. Методы обеспечения безопасности. Требования и методы электронного цензурирования. Доступно по: http://meganorm.ru/Index2/1/ 4293753/4293753917.htm. Ссылка активна на 01.07.2017.

Поступила 04.07.2017 Принята к опубликованию 05.07.2017

REFERENCES

1. The concept of a unified state information system in healthcare. The order of the health Ministry of Russia dated 28.04.2011, No. 364. Available at: http://portal.egisz. rosminzdrav.ru/materials/99. Accessed on 01.07.2017 (In Russ.).

2. Priority project «Improvement of medical care through the introduction of information technologies until 2025 («E-health»)». Approved by the decision of the Council for strategic development under the President of the Russian Federation, Protocol № 9 from 25.10.2016. Available at: https://www.rosminzdrav.ru/ministry/61/22/informatsion-nye-materialy-po-napravleniyu-strategicheskogo-razvitiya-rossiyskoy-federatsii-zdravoohranenie. Accessed on 01.07.2017 (in Russ.).

3. GOST R 55036—2012 / ISO/TS 25237:2008 Health informatics. Pseudonimization. Available at: http://meganorm.ru/

Index2/1/4293782/4293782142.htm. Accessed on 01.07.2017 (in Russ.).

4. General Data Protection Regulation (GDPR), Regulation (EU) 2016/679, 27 April 2016. Available at: http://eur-lex. europa.eu/legal-content/EN/TXT/?uri=CELEX:32016R0679. Accessed on 01.07.2017.

5. Lo Iacono Luigi. Multi-centric Universal Pseudonymisation for Secondary Use of the EHR, 2007. Available at: http:// geneva2007.healthgrid.org/proceedings/proceedings/pdf/ 25.pdf. Accessed on 01.07.2017.

6. IMDRF/Registry WG/N33:2016 Principles of International System of Registries Linked to Other Data Sources and Tools, 30.09.2016. Available at: http://imdrf.org/docs/im-drf/final/technical/imdrf-tech-160930-principles-system-reg-istries.pdf. Accessed on 01.07.2017.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Stolbov A.P., Kuznecov P.P. Modern models of organization of use of Personal data on health status. Health care Standartization problems. 2010; 1-2: 19—24 (in Russ.).

8. Tavrovsky V.M. Structure, content and maintenance of integrated electronic health record, 25.04.2015. Available at: http://gosbook.ru/node/89840. Accessed on 01.07.2017 (in Russ.).

9. Zarubina T.V., Shvyrev S.L. et al. Integrated electronic health record: Status and Prospects. Physicians and IT. 2016; 2: 35—44. (In Russ.).

10. HSCIC Data Pseudonymisation Review — Interim Report, 31-07-2014. Available at: http://content.digital.nhs.uk/me-dia/14828/HSCIC-Data-Pseudonymisation-Review-Inter-

im-Report/pdf/HSCIC_Data_Pseudonymisation_Review_ Interim_Report.pdf. Accessed on 01.07.2017.

11. Ryabko S.D. On de-identification of personal data. Available at: www.itsec.ru/articles2/bypub/insec-5-2009. Accessed on 01.07.2017 (in Russ.).

12. Saksonov E.A., Sheredin R.V. The procedure for de-identification of personal data. Available at: http://tech-nomag.edu.ru/doc/173146.html. Accessed on 01.07.2017 (in Russ.).

13. Sweeney L. K-anonymity: a model for protecting privacy. International Journal on Uncertainty. Fuzziness and Knowledge-based Systems. 2002; 10 (5): 557—570.

14. Requirements and methods for depersonalizing personal data. The Order of Roscomnadzor. On September 5, 2013; 996. Available at: https://rkn.gov.ru/docs/docD_981.doc. Accessed on 01.07.2017 (in Russ.).

15. Guidelines on the application of the Order of Roscomnadzor on September 5, 2013 № 996. Available at: https:// rkn.gov.ru/chamber-of-commerce/p717/p732/p502/. Accessed on 01.07.2017 (in Russ.).

16. GOST R ISO/IEC 27038—2016 / ISO/IEC 27038:2014 Information techniques. Security techniques. Specification for digital redaction. Available at: http://meganorm.ru/ Index2/1/4293753/4293753917.htm. Accessed on 01.07.2017 (in Russ.).

Received 04.07.2017 Accepted 05.07.2017

Сведения об авторе:

Столбов Андрей Павлович — д-р техн. наук, профессор Высшей школы управления здравоохранением Первого московского государственного медицинского университета им. И.М. Сеченова (Сеченовского университета). 109004, г. Москва, ул. Александра Солженицына, 28. Тел.: 8-495-724-70-46. E-mail: [email protected]

About the author:

Andrey Pavlovich Stolbov — doctor of tech. Sciences, Professor, Higher school of Health administration, First Moscow state medical University. I.M. Sechenov (Sechenov University). 109004, Moscow, Alexander Solzhenitsyn St., 28. Tel: 8-495-724-70-46. E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.