УДК 519.21
Р. А. Томакова, канд. техн. наук, доцент, С. А. Филист, д-р техн. наук, профессор, С. А. Горбатенко, канд. техн. наук, доцент, Н. А. Швецова, аспирант, Курский государственный технический университет
Анализ гистологических изображений посредством морфологических операторов, синтезированных на основе преобразования Фурье и нейросетевого моделирования
Ключевые слова: нейронные сети, изображение мазка крови, спектральный анализ, морфологический анализ изображений
В статье рассматривается способ формирования признакового пространства для нейронной сети, предназначенной для работы в системах поддержки принятия решений по диагностике онкологических и инфекционных заболеваний. Посредством сегментации гистологических структур выделяются морфологические объекты, параметры которых характеризуют исследуемое заболевание. Синтезируется признаковое пространство, используемое для построения го-меостатической модели.
Введение
Высокие показатели заболеваемости и смертности от онкологических и инфекционных заболеваний обусловлены несовершенством первичной и вторичной профилактики, а также несвоевременной диагностикой и лечением.
Эффективность лечения и предупреждение инфекционных и онкологических заболеваний во многом связаны не только с возможностью их надежного выявления на ранних стадиях, но и с возможностью регистрации активности их протекания в динамике. Это необходимо для получения прогноза дальнейшего течения заболевания и выбора оптимальной тактики лечения.
Существует большое количество методов для диагностики различных видов вирусных инфекций, в том числе и таких, как гепатит, ВИЧ и т. п. Наиболее распространенные методы — это метод полимеразной цепной реакции и иммуномикробио-логические методы. В диагностике и обнаружении некоторых видов инфекционных заболеваний эти методы являются весьма эффективными, однако
№ 3(9)/2010 |
имеют и ряд недостатков, таких как высокая вероятность получения ложноположительных и лож-ноотрицательных результатов, а также высокие стоимость проведения и длительность анализа.
Одним из методов диагностики онкологических и инфекционных заболеваний является визуальный анализ изображений мазков крови. Индикатором вирусных инфекций считается наличие в мазке крови лейкоцитов. Если развивается инфекционное заболевание, лейкоциты атакуют и уничтожают бактерии, вирусы или другие микроорганизмы. Лейкоциты больше по размерам, чем эритроциты, и их намного меньше по количеству, чем эритроцитов. При инфекции количество лейкоцитов может значительно возрастать.
Общеклиническое исследование крови до сих пор остается одним из важнейших диагностических методов. Этот анализ тонко отражает реакцию кроветворных органов на воздействие различных физиологических и патологических факторов [1]. Однако необходимость обнаружения и классификации в ручную большого числа клеток делает этот анализ длительным и трудоемким. Поэтому актуальной становится задача автоматизации проведения общеклинического анализа крови.
Автоматические гематологические анализаторы в состоянии одновременно определять от 5 до 24 параметров. В понятие «общеклиническое исследование крови» входят: определение концентрации гемоглобина, подсчет количества эритроцитов, цветового показателя лейкоцитов, скорости оседания эритроцитов (СОЭ) и процентного соотношения каждого из типов лейкоцитов (лейкоцитарной формулы). На первом этапе автоматического анализа изображения необходимо отделить на мазке крови эритроциты от лейкоцитов.
биотехносфера
Изображения препаратов крови, получаемые при проведении общеклинического обследования крови, представлены на рис. 1. На изображениях присутствуют различные форменные элементы крови — клетки крови. Лейкоциты выделяются по внешнему виду — это самые крупные клетки.
На практике при обнаружении форменных элементов крови сталкиваются с основным и типичным для медицинских приложений компьютерного зрения препятствием — большой вариабельностью изображений, с которыми приходится иметь дело. При исследовании мазка крови, окрашенного по Романовскому, стандартными цветами считаются следующие: эритроциты — розовато-бурые, ядра лейкоцитов — черно-фиолетовые или пурпурно-фиолетовые, цитоплазма лимфоцитов — голубая, цитоплазма моноцитов — голубая или сиренево-голубая. Цитоплазма нейтрофилов должна содержать ясно видимую нейтрофильную зернистость розоватого цвета, эозинофилы должны содержать гранулы оранжевого цвета. Доминирование различных фоновых значений в окраске мазков зависит от множества факторов: концентрации используемых растворов, продолжительности окрашивания, реакции воды для разведения красителя, показателя рН. Несмотря на подробное описание стандартной окраски мазка, сформулировать количественные критерии нелегко. Цветовые характеристики изменяются непрерывно, а восприятие цветов зависит от множества факторов — освещения, наследственности и возраста наблюдателя и т. д.
Проведенные нами исследования показали, что для повышения точности определения общеклинических параметров крови изображения мазка целесообразно представить в виде набора бинарных изображений, отражающих морфологические образования — сегменты. Так как морфологические образования одного и того же класса дислоцированы по всему изображению мазка и располагаются на участках с различной освещенностью и фоновой окраской, то при принятии решения о принадлежности анализируемо-
биотехносфера
го пикселя к данному классу морфологического образования необходимо учитывать цветовые характеристики близлежащих пикселей, т. е. фон.
Для реализации автоматического гематологического анализатора должны быть решены две задачи. Во-первых, на изображении мазка необходимо выделить области эритроцитов, лейкоцитов и межклеточного вещества (плазмы), т. е. изображение должно быть сегментировано. Во-вторых, необходимо получить пространство информативных признаков, посредством которого можно описать геометрическую структуру выделенных сегментов (форменных элементов крови).
Для решения этих задач воспользуемся нейросе-тевыми моделями, для построения которых используем программный пакет, разработанный в среде МАТЪАВ на кафедре биомедицинской инженерии Курского государственного технического университета [2]. Согласно концепции сегментации изображений, принятой в этой системе и основанной на анализе БОВ-кодов пикселей, получение модели нейронной сети, выделяющей пиксель, принадлежащий к искомому сегменту, осуществляется путем обучения нейронной сети заданной структуры на основе обучающих выборок (выборки), полученных посредством выделения скользящего окна на исследуемом изображении. При этом класс, к которому принадлежат пиксели, попавшие в скользящее окно, определяет эксперт. На рис. 2 представлено интерфейсное окно, поясняющее концепцию вышеописанного подхода к сегментации изображений.
Так как на изображениях мазков окраска искомых сегментов не постоянна, то на основе анализа БОВ-кодов пикселей выделить соответствующие классы не представляется возможным, поэтому нельзя получить модели нейронных сетей, осуществляющих приемлемое качество сегментации даже внутри одного изображения мазка. В связи с этим был предложен алгоритм синтеза модели нейронной сети, основанный на векторном квантовании. Согласно этому алгоритму входное пространство под-
| № 3(9)/2010
Автоматический анализ и распознавание изображений
Статистические характеристики скользящего окна
1Ы обработки изображений
базофнп_в_мазке.Ьтр
Скользящее окно
Фрагмент таблицы экспериментальных данных о пикселях, попавших в скользящее окно
(235.93) [193 142 85] (237, 94) [198 149 91]
(239.94) [192 146 84] (239,92) [207 156 99] (231,105) [195 150 83] (233,107) [192 140 82]
БСВ-гистограммы в скользящем окне
Рис. 2 Интерфейсное окно для получения обучающих выборок
разделяется на множество четких областей, для каждой из которых определяется вектор воспроизведения [3]. Когда устройству квантования представляется новый входной вектор, в первую очередь определяется область, к которой принадлежит данный вектор. Основная проблема построения такого квантователя связана с определением ячеек Вороного, которые представляют множество точек во входном пространстве, соответствующих подразделению этого пространства согласно правилу ближайшего соседа, основанному на евклидовой метрике. Если имеются три класса, то в пространстве информативных признаков выделяют три вектора Вороного. На рис. 3 показан пример нейронной решетки, в которой выделены три вектора Вороно-го:А1,А2,А3.
Для идентификации нейрона в решетке рис. 3, который лучше всего соответствует входному вектору А (ИОВ-коду пикселя), используется решающее правило, согласно которому номер нейрона / определяется как
Wц(n + 1) = Wц(n) + л(п)Нц> КА)(п)[Х - Wц(n)], (2)
где 1(п) — параметр скорости обучения; цд)(п) — функция окрестности с центром в победившем нейроне ¿(А).
В классическом варианте алгоритм 80М проходит пять этапов: инициализацию, подвыборку, поиск максимального подобия, коррекцию, продолжение. Алгоритм 80М обеспечивает приближенный метод вычисления векторов Вороного без учителя. Вычисление векторов Вороного значительно уско-
I(А) = аг£ тт IIА - W.
а
(1)
Здесь WJi — вектор синаптических весов ц-го нейрона (согласно рис. 3 это ИОВ-координаты ц-го нейрона в самоорганизующейся карте размерами 3x3x3); ц = 1,2, ..., т, где т — общее количество нейронов в самоорганизующейся карте (на рис. 3 — 27).
Синаптические веса WJi нейронов решетки определяются согласно алгоритму 80М, который предполагает коррекцию синаптических весов по рекуррентному соотношению
Рис. 3
ИСВ-пространство, отображающее исходное изображение в самоорганизующуюся карту признаков размерами 3x3x3
биотехносфера
Автоматический анализ и распознавание изображений
18 000 16 000 14 000 12 000 10 000 8 000 6 000 4 000 2 000 0
Пик лейкоцитов (3)
Пик плазмы (2)
50 100 150 200
250
300
300
50 100 150 200 250 300
Рис. 4
ЕСВ-гистограммы изображения для определения начальных координат векторов Вороного
ряется и упрощается, если в режиме инициализации векторы Вороного задаются на основе БОВ-гистограмм, полученных по всему изображению. Пример БОВ-гистограмм, которые получены для изображения, представленного на рис. 1, б, приведен на рис. 4. Векторы Вороного, показанные на рис. 3, построены согласно гистограммам, приведенным на этом рисунке.
а)
Два явно выраженных пика на гистограммах — пиксели, соответствующие эритроцитам и плазме. Менее выраженный пик (на В-гистограмме он отсутствует, а точнее, поглощается первым пиком) — пиксели, соответствующие лейкоциту. Поэтому алгоритм йОМ выполняется в три этапа. На первом этапе задаются начальные координаты векторов Вороного согласно статистическим характеристикам гистограмм (моды, математические ожидания), представленных на рис. 4.
На втором этапе уточняются координаты векторов согласно рекуррентной формуле (2), а на третьем этапе осуществляется переход на очередную рекурсию. Пример сегментации изображения мазка крови (рис. 1, б) представлен на рис. 5. Изображение разбито на три сегмента: эритроциты (рис. 5, а), плазму (рис. 5, б), лейкоциты (рис. 5, в).
Перейдем к решению второй задачи — морфологическому анализу выделенных сегментов. Постановка задачи морфологического описания сегмента состоит в следующем. Пусть мы имеем на кадре И2 бинарного изображения некоторое множество I замкнутых кривых:
{Р£х, у)} е И, I е I.
(3)
Предположим, что кривая ^¿(х, у) задана векторной функцией ? = 0 < я < ^, где переменная я — длина дуги кривой Тогда производная векторной функции
Лг1 ? I «\
= Т= (сое а> сое в)
(4)
представляет собой множество единичных векторов, направленных вдоль касательной к данной кривой (рис. 6). В формуле (4) а и Р — углы между касательной и положительными направлениями осей Ох и Оу соответственно.
Пусть функция ^¿(х, у) представлена в файле данных в виде последовательности координат пикселей
(хк, Ук), к е к1
(5)
Рис. 5| Пример сегментации изображения мазка крови: а — эритроциты; б — плазма; в — лейкоциты
| № 3(9)/2010
биотехносфера
rt(S = s)
Рис. 6
Фрагмент границы сегмента, описываемого векторной функцией
таким образом, что множество {(хyk)h является объединением двух непересекающихся подмножеств Pi и Qi, т. е.
{(xk,yk))i = Pi и Qi, (6)
где множество
Ц = {(^, ^ )}/, Vg е G> [ е Щ, inf(g) = arg хг (g), sup (g) = arg х2 (g)], (7)
в котором элементы упорядочены по возрастанию Xg, а множество
Q = {(щ, У1 )Ь, VI е L, [L е K, inf(l) = arg х2 (l), sup(l) = arg щ (l)], (8)
в котором элементы упорядочены по убыванию хг, при этом в паре
' У8 )Ь е Р^ и
{(^+(N-g)' yw+(iV-g) )Ь е Q yN+{N-g) - yg' (9) а в паре
{(% 'Ун )Ь е pi и
{(xN+{N-h)' yN+{N-h) )Ь е ^ % - xN+{N-h) • (10)
На рис. 7 приведен пример множества пикселей изображения, определяющих границу i-го сегмента, которое образовано двумя непересекающимися множествами Pi и Qi, удовлетворяющими условиям (9) и (10).
Так как не всякое множество Fi удовлетворяет условиям (9) и (10), то необходим способ, позволяющий нормализовать данные так, чтобы условия (9) и (10) выполнялись всегда.
Первым шагом в нормализации данных является масштабное преобразование, осуществляющее сдвиг изображения сегмента таким образом, чтобы
новые координаты границ сегмента удовлетворяли следующим условиям:
ОС ^^ j
У = У - Уг ■
(11)
Так как кривая, описываемая множествами Р и Q, замкнутая, следовательно, она является периодической и может быть представлена в виде дискретного преобразования Фурье. Отсчеты спектра Фурье полученной замкнутой кривой используются для ее параметрического представления.
В качестве отсчетов рассматриваем комплексные отсчеты, полученные на дискретной сетке с равномерным шагом по оси абсцисс, вычисленным как
Д = (х2 - x1)/N,
(12)
где N — число отсчетов, описываемых границы сегмента, причем полагаем, что число элементов в множествах Р и Q одинаково, что соответствует условию
xk = *ЛГ+(ЛГ-А)' V(XA ' уА ) е Р' V(XN+(N-k)' yN+{N-k) ) е Q-
(13)
В частном случае в качестве шага дискретизации выбирают один пиксель. При этом необходимо учитывать масштаб исходного изображения и приводить шаг дискретизации к масштабу (к реальному изображению).
Объединение множеств Р и Q рассматриваем как упорядоченное множество комплексных чисел
щ}, z = 1,2, ..., 2N -1. (14)
{ = х^ + .
Дискретное преобразование Фурье полученного упорядоченного множества определяется как
* К) = Т )ехР (- У ^ (15)
Яг
^N+(N-k)
^N+(N-h)
X. Хо X
k~~XN+(N-k) ^2
Рис. 7
Пример множества пикселей, разбивающих границу сегмента на два непересекающихся подмножества
биотехносфера
1
Рис. 8
Изображение мазка периферической крови с тремя классами эритроцитов
На рис. 8 представлено изображение мазка периферической крови больного анемией с хронической почечной недостаточностью. Характерной особенностью этого изображения является то, что на нем представлены три класса эритроцитов: нормо-циты, эхиноциты и эритроциты неправильной формы. На рисунке эти эритроциты обозначены соответственно цифрами 1, 2 и 3. Изображение включает два сегмента: эритроциты и плазму. После выделения эритроцитов можно продолжить сегментацию до выделения множества {^(х, у)} е В,,1 е I, где I — количество эритроцитов на изображении мазка. Для каждого элемента множества — замкнутой кривой — выполняется преобразование (15). Полученные преобразования для выделенных на рис. 7 классов для действительных составляющих спектров показаны на рис. 8.
Анализ представленных спектральных характеристик показывает, что в результате патологических отклонений происходит перераспределение энергии в спектре частот. Если рассматривать в качестве нормы распределение энергии по частотам у нормоцитов (рис. 9, а), то у эхиноцитов частотный спектр смещается в область высоких частот (рис. 9, б), а у нормоцитов неправильной формы возрастает энергия низкочастотных спектральных составляющих (рис. 9, в). Этим фактом можно воспользоваться при построении признакового пространства для нейронной сети, предназначенной для классификации патологий крови.
Основной подход при синтезе нейронной сети прямого распространения, предназначенной для систем поддержки принятия решений медицинского назначения, изложен в работе [4]. Принцип этого подхода заключается в том, что модели нейронной сети строятся на основе единой структуры путем изменения синаптических весов посредством настройки модели на конкретную патологию. Для обучения нейронной сети (получения модели) используются обучающие выборки соответствующих классов и стандартные алгоритмы обучения [3].
На основании статистического анализа спектров форм эритроцитов различных классов можем опре-
делить три информативных признака, характеризующих энергетическое содержание выделенных на рис. 8 трех классов. Так как энергия спектра может зависеть от условий получения и окрашивания изображения мазка, то в представленных ниже формулах введен нормирующий коэффициент:
Е И (»)|
Е И )
А =
А =
Е И )|
м=0
Е И )|
м=0
А =
Е И Н
щ=а5 а
Е И (»)|
м=0
(16)
где ю = 2я/Дх; а — граничная частота спектра формы эритроцита; а^, а2, аз, а^ а5 и ад — границы частотных диапазонов в низкочастотной, среднеча-стотной и высокочастотных областях.
При необходимости от признаков (16) можно перейти к средним признакам по множеству исследованных изображений мазков.
Структура автоматического классификатора крови показана на рис. 10.
Из представленной схемы видно, что процесс классификации патологий крови разбит на два этапа. На первом этапе посредством самоорганизу-
Рис. 9
Реальные составляющие спектров Фурье для эритроцитов трех классов
| № 3(9)/2010
биотехносфера
а
а
а
Рис. 10 | Структура автоматического классификатора крови
ющейся нейронной сети осуществляется сегментация изображения мазка крови. Изображение может сегментироваться на множество классов, а не только на три рассмотренных. Например, могут быть добавлены классы тромбоцитов, ядер и цитоплазмы лейкоцитов и т. д. На следующем этапе осуществляется анализ формы сегмента. На рис. 10 для конкретности показано, что ведется анализ формы эритроцита. На этом этапе необходимо выделить множество кривых {^¿(х, у)}, описывающих формы эритроцитов. Методика выделения кривых {^¿(х, у)} из бинарных изображений, аналогичных рис. 5, хорошо описана в работе [5].
Затем осуществляется морфологический анализ форм эритроцитов посредством спектрального анализатора, работающего в соответствии с уравнениями (15) и (16). Морфологический спектральный анализатор определяет информативные признаки, в результате анализа которых нейронная сеть прямого распространения определяет патологическую ситуацию, связанную с эритроцитами в мазке.
В зависимости от анализируемого сегмента выбирают модель нейронной сети. Это значит, что если ведется анализ формы лейкоцитов, то используется другая модель нейронной сети. При необходимости нейронные сети прямого распространения могут быть агрегированы, и класс патологии определится на основе спектрального морфологического анализа, например, эритроцитов, лейкоцитов и тромбоцитов.
Таким образом, предложена технология автоматической классификации отклонений в составе крови, основанной на двухэтапной обработке изображений мазков крови. На первом этапе осуществляется сегментация изображения мазка посредством
самоорганизующейся нейронной сети, а на втором этапе осуществляются анализ и классификация патологических изменений в сегментах, выделенных на первом этапе, на основе спектрального морфологического анализа и нейронной сети прямого распространения.
Статья подготовлена по результатам поисковой научно-исследовательской работы по направлению «Биомедицинские и ветеринарные технологии жизнеобеспечения и защиты человека и животных», выполняемой в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 — 2013 гг.
| Л и т е р а т у р а |
1. Автоматизация выделения лейкоцитов на изображениях препаратов крови / И. А. В о р о б ь е в, В. Г. Н и -китае в, А. Н. Проничев и др. // Науч. сессия МИФИ-2004. М., 2004. Т. 1. — С. 251-252.
2. Пихлап С. В., Томакова Р. А., Филист С. А. Интерактивная среда для обработки и анализа изображений глазного дна // Прикладная радиоэлектроника. Состояние и перспективы развития (МРФ-2008): сб. тр. 3-го Между-нар. радиоэлектрон. форума. Харьков, 2008. С. 75-78.
3. Хайкин Саймон. Нейронные сети: полный курс. М.: И. Д. Вильямс, 2006. 1104 с.
4. Нейросетевые модели сегментации ангиограмм глазного дна на основе анализа ИОВ-кодов пикселей / Р. А. Т о -макова, С. А. Филист, С. А. Борисовский и др. // Системный анализ и управление в биомедицинских системах. 2010. Т. 9, № 1. С. 72-76.
5. Гонсалес Р., Вудс Р., Эддинс С. Цифровая обработка изображений в среде МАТЬАВ. М.: Техносфера, 2006. 616 с.
биотехносфера