JOURNAL OF NEW MEDICAL TECHNOLOGIES - 2025 - Vol. 32, № 1 - P. 139-144
Раздел III
ФИЗИКО-ХИМИЧЕСКАЯ БИОЛОГИЯ
Section III
PHYSICAL AND CHEMICAL BIOLOGY
УДК: 004.93 DOI: 10.24412/1609-2163-2025-1-139-144 EDN DWNGNK ¡^Цщ
СОЗДАНИЕ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ ОБНАРУЖЕНИЯ И КЛАССИФИКАЦИИ ЛЕЙКОЦИТОВ
В ПЕРИФЕРИЧЕСКОЙ КРОВИ
Н.Д. КОЗУЛИН, А.А. МИГУЛИНА, А.Р. БИКТИМИРОВ ФГАОУ ВО «Дальневосточный федеральный университет», п. Аякс, д. 10, о. Русский, г. Владивосток, 690922, Россия
Аннотация. Золотым стандартом диагностики большого числа заболеваний является микроскопическое исследование периферической крови. Микроскопия основывается на ручной технике приготовления мазков крови и дальнейшем визуальном контроле специалистом, что приводит к субъективности и предвзятости наблюдателя, поскольку правильный результат зависит от опыта гематолога. Другая проблема - большая длительность процесса, что влияет на загруженность лаборатории и среднее время ожидания результата. Также существует вероятность человеческой ошибки. В условиях растущего объема медицинских данных и необходимости обработки большого количества анализов, внедрение технологий глубокого обучения становится необходимым для обеспечения качественного медицинского обслуживания. Цель исследования - разработка модели сверточной нейронной сети, детектирующая форменные элементы мазка крови. Материалы и методы исследования. Была реализована модель сверточной нейронной сети, состоящая из 25 слоев. Для обучения модели было использовано два набора данных. Первый предназначался для обучения и классификации 4 категорий лейкоцитов: нейтрофилов, эозинофилов, лимфоцитов и моноцитов. Во втором данных представлено 11 категорий лейкоцитов: бласты, промиелоциты, миелоциты, метамиелоциты, палочкоядерные нейтрофилы, сегментоядерные нейтрофилы, лимфоциты, моноциты, эозинофилы, базофи-лы и реактивные лимфоциты. Результаты и их обсуждение. Общая точность модели, обученной на первом наборе данных, составила 93 % в классификации 4 типов клеток. Показатели точности приближены к результатам других исследователей, что говорит перспективности использования свёрточных нейронных сетей. При обучении на втором наборе данных общая точность составила 68,6 % в классификации 6 типов клеток. Заключение. Разработанная на основе технологии глубокого обучения свёрточная модель продемонстрировала высокую точность в классификации 4 типов лейкоцитов периферической крови. Поскольку золотым стандартом диагностики большого числа заболеваний является микроскопическое исследование мазка периферической крови, то данный метод позволит устранить многие проблемы существующего ручного подхода.
Ключевые слова: клетки крови, компьютерное зрение, CNN, лейкоциты, глубокое обучение.
CREATION OF A CONVOLUTIONAL NEURAL NETWORK FOR DETECTION AND CLASSIFICATION OF
LEUKOCYTES IN PERIPHERAL BLOOD
N.D. KOZULIN, A.A. MIGULINA, A.R. BIKTIMIROV
Federal State Autonomous Educational Institution of Higher Education "Far Eastern Federal University (FEFU) ", Ajax Settlement, 10, Russky Island, Vladivostok, 690922, Russia
Abstract. The gold standard for diagnosing a large number of diseases is the microscopic examination of peripheral blood. Microscopy relies on the manual technique of preparing blood smears and subsequent visual inspection by a specialist, which leads to subjectivity and observer bias, as the correct result depends on the hematologist's experience. Another issue is the lengthy process, which affects laboratory workload and average result waiting times. Additionally, there is the possibility of human error. In the context of the growing volume of medical data and the need to process large amounts of analyses, the implementation of deep learning (DL) technologies becomes essential to ensure quality medical care. The purpose of the study is to develop a convolutional neural network model that detects formed elements of blood smears. Materials and Methods. A convolutional neural network model consisting of 25 layers was implemented. Two datasets were used to train the model. The first one was designed to train and classify 4 categories of leukocytes: neutrophils, eosinophils, lymphocytes, and monocytes. The second dataset included 11 categories of leukocytes: blasts, promyelocytes, myelocytes, metamyelocytes, band neutrophils, segmented neutrophils, lymphocytes, monocytes, eosinophils, basophils, and reactive lymphocytes. Results and Discussion. The overall accuracy of the model trained on the first dataset was 93% in classifying 4 cell types. The accuracy values are close to those of other researchers, indicating the promising use of convolutional neural networks. When trained on the second dataset, the overall accuracy was 68.6% in classifying 6 cell types. Conclusion. The convolution-
JOURNAL OF NEW MEDICAL TECHNOLOGIES - 2025 - Vol. 32, № 1 - P. 139-144
al model developed using deep learning technology demonstrated high accuracy in classifying 4 types of leukocytes in peripheral blood. Since microscopic examination of blood smears is the gold standard for diagnosing many diseases, this method will address many problems associated with the current manual approach.
Keywords: blood cells, computer vision, CNN, leukocytes, deep learning.
Введение. В медицинской практике золотым стандартом диагностики и контроля для большого числа заболеваний является микроскопическое исследование периферической крови. Увеличение или уменьшение количества лейкоцитов сопровождает патогенез многих заболеваний. Дифференциальный подсчет лейкоцитов и обнаружение их клинически значимых морфологических особенностей необходимо учитывать при анемии, лимфоме, лейкемии, полицитемии [5] и заболеваниях, связанных с иммунной системой (аллергия, аутоиммунные заболевания, иммунодефициты) [10]. Поэтому определение правильного типа и количества этих клеток очень важно для диагностики различных заболеваний.
Несмотря на то, что множество рутинных исследований в области клинической лабораторной диагностики на сегодняшний день автоматизированы, микроскопия основывается на ручной технике приготовления мазков крови и дальнейшем визуальном контроле специалистом. Это приводит к существенным недостаткам такого метода. В первую очередь это субъективность и предвзятость наблюдателя, поскольку правильный результат зависит от опыта гематолога [6]. Во-вторых, большая длительность процесса, так как просмотр мазков крови осуществляется вручную [16], что влияет на загруженность лаборатории и среднее время ожидания результата. В-третьих, вероятность человеческой ошибки из-за усталости или неопытности гематолога [10].
В последние годы все большее внимание уделяется применению методов машинного (Machine learning, LM) и глубокого обучения (Deep learning, DLL) для анализа медицинских изображений и данных. В частности, себя хорошо зарекомендовала свёрточная нейронная сеть (Convolutional neural network, CNN), позволяющая классифицировать изображения по различным характеристикам [14]. CNN успешно используются для сегментации снимков МРТ [3] и снимков КТ [13]. На сегодняшний день существует множество архитектур таких сетей и подходов предобработки изображений, позволяющих определять клетки по различным параметрам [1, 14, 17]. Уже сейчас автоматическое распознавание и классификация лейкоцитов с помощью нейросетей показывает многообещающие результаты в диагностике лейкемии [12, 4, 15]. В условиях растущего объема медицинских данных и необходимости обработки большого количества анализов, внедрение технологий DL становится необходимым для обеспечения качественного медицинского обслуживания.
Цель исследования - разработка модели свер-точной нейронной сети, детектирующая форменные
элементы мазка крови.
Материалы и методы исследования. Для реализации системы классификации лейкоцитов крови была разработана свёрточная нейронная сеть, использующая язык программирования Python и ряд специализированных библиотек для задач компьютерного зрения. Основные библиотеки, применяемые при разработке модели: TensorFlow, Keras и OpenCV. Разработанная модель состоит из 25 слоев, количество которых подбиралось эмпирическим путем:
- 9 свёрточных слоев (Conv2D),
- 9 слоев нормализации (BatchNormalization),
- 2 слоя дискретизации (MaxPool2D),
- 2 полносвязных слоя (Dense),
- 2 слоя регуляризации (Dropout)
- 1 выходной слой Softmax.
CNN имеет слоистую архитектуру. Первый слой — это вход, принимающий входные данные и считывающий пиксели изображения. Затем идёт свёр-точный слой, где происходит свёртка изображения для извлечения признаков. Его выходные данные представляют собой карту признаков (набор объектов). При этом CNN может содержать либо один свёрточный слой, либо последовательность слоев (свёрточный блок). После свёрточного слоя или блока обычно размещается слой объединения, чтобы уменьшить размеры карт признаков. Далее слои представляют собой чередование свёрточных и объединяющих слоев, где извлекаются более сложные признаки. Спустя несколько подобных итераций размещается набор полносвязных слоев для объединения собранных данных и дальнейшей классификации в виде значения вероятности [8].
Слои нормализации проводят процесс норма-лизаций выходных значений предыдущего слоя с целью ускорения обучения и повышения устойчивости модели. Слои дискретизации позволяют уменьшить размерность данных путем выбора максимальных значений. Использование в архитектуре слоев дискретизации было продиктовано вероятностью неправильного обучения из-за огромного количества выходных параметров.
Функция полносвязных слоев заключается в соединении каждого входного узла с каждым выходным узлом. Такая особенность позволяет модели обучаться сложным нелинейным зависимостям. Также стоит упомянуть про слои регуляризации, которые случайным образом отключают часть узлов во время обучения, что помогает предотвратить переобучение модели.
Для обучения модели было использовано два набора данных. Первый предназначался для обуче-
ния и классификации 4 категорий лейкоцитов: нейтрофилов, эозинофилов, лимфоцитов и моноцитов. Поскольку в первом наборе отсутствовали в достаточном количестве другие категории лейкоцитов, как, например, базофилы и палочкоядерные нейтрофилы, было решено использовать второй набор.
Первый набор содержит 12 500 аугментирован-ных изображений клеток крови в формате JPG с соответствующими метками типов клеток в формате CSV [9]. В наборе данных представлены пять типов клеток: эозинофилы, лимфоциты, базофилы, моноциты и нейтрофилы. Для получения изображений авторы использовали обычный цветовой микроскоп с использованием объектива со 100-кратным увеличением. Сами снимки выполнялись на аналоговую ПЗС-камеру, подключенную к микроскопу, которая выдавала изображение 640*480 пикселей.
Во втором данных представлено 14 700 аннотированных изображений, включающих 11 категорий лейкоцитов: бласты, промиелоциты, миелоциты, метамиелоциты, палочкоядерные нейтрофилы, сег-ментоядерные нейтрофилы, лимфоциты, моноциты, эозинофилы, базофилы и реактивные лимфоциты [19]. Классификация лейкоцитов на изображениях была проведена более чем тремя клиническими экспертами. Из этого набора данных были убраны 5 категорий (бласты, промиелоциты, метамиелоци-ты, миелоциты и реактивные лимфоциты), поскольку изображения с этим классом включали в себя лейкоцитов других типов. Изображения клеток имеют 732*574 пикселя и собирались при помощи автоматизированной системы для анализа изображений iCELL ME-150. Использовался объектив с увеличением 100х.
Перед обучением модели была проведена предобработка пикселей к диапазону от -1 до 1 с целью нормализации изображений лейкоцитов в мазке крови. Данная манипуляция позволяет ускорить процесс обучения. Затем нормализованный набор данных был случайном образом разделен на тренировочную (70 %), тестовую (10 %) и валидационную (20 %) выборки лейкоцитов с присвоенными метками классов. Такое разделение необходимо, поскольку наличие валидационной выборки позволяет провести оценку производительности модели и предотвращает «переобучение» (модель хорошо работает только на тренировочных данных). Тестовая выборка, в свою очередь, позволяет объективно оценить производительность модели уже после обучения.
Результаты и их обсуждение. При обучении на первом наборе данных [9] была получена точность обучения 94,19 %, в то время как потеря составила 14,88 %. Для валидационной выборки результаты немного хуже: точность - 92,54 %, потеря -20,17 %. Результаты показаны на рис. 1.
Рис. 1. Результаты обучения модели на первом наборе данных. «train» - тренировочная выборка, «val» - валидационная выборка
При проверке на тестовой выборке модель продемонстрировала довольно хорошие показатели в классификации 4 типов лейкоцитов. Общая точность составила 93 %. Результаты классификационного отчета продемонстрированы в табл. 1.
Таблица 1
Результаты классификационного отчета на первом наборе данных
Тип лейкоцита Precision Recall F1-Score
Эозинофил 0,86 0,91 0,88
Лимфоцит 0,97 0,99 0,98
Моноцит 1,00 0,99 1,00
Нейтрофил 0,9 0,82 0,86
Визуализация также показывает правильное нахождение и классификацию лейкоцита. Результат показан на рис. 2.
зультаты были значительно хуже. Точность обучения составила 72,10 %, в то время как потеря -70,26 %. На валидационной выборке также был получен плохой результат: точность - 70,71 %, потеря - 81,66 %. Результаты приведены на рис. 2.
Рис. 3. Результаты обучения модели на втором наборе данных. «train» - тренировочная выборка, «val» - валидационная выборка
На тестовой выборке модель продемонстрировала средние показатели в классификации 6 типов лейкоцитов. Общая точность составила 68,6 %. Результаты классификационного отчета продемонстрированы в табл. 2.
Таблица 2
Результаты классификационного отчета на втором наборе данных
Рис. 2. Определение лейкоцитов на тестовых снимках (обучение на первом наборе)
При обучении на втором наборе данных [19] ре-
Тип лейкоцита Precision Recall F1-Score
Палочкоядерный нейтрофил 0,59 0,27 0,37
Базофил 0,81 0,74 0,78
Эозинофил 0,72 0,73 0,72
Лимфоцит 0,67 0,93 0,78
Моноцит 0,73 0,84 0,78
Сегментоядерный нейтрофил 0,56 0,62 0,59
JOURNAL OF NEW MEDICAL TECHNOLOGIES - 2025 - Vol. 32, № 1 - P. 139-144
На основании полученных результатов можно сделать вывод, что применяемый для обучения набор данных может существенно повлиять на эффективность и точность свёрточной нейронной сети.
Как упоминали авторы [7] глубокие нейронные сети извлекают и используют для обучения огромное количество параметров, в результате чего возрастает вероятность проблемы переобучения. Это сходится с результатами, полученными в данном исследовании. При обучении одной и той же модели точность классификации была выше на первом наборе данных, чем на втором. Это связано с большим числом извлеченных признаков. В первом случае рассматривались только 4 типа лейкоцитов, которые морфологически значительно отличаются друг от друга. Во втором наборе данных типов было больше.
Наличие во втором наборе сегментоядерных и палочкоядерных нейтрофилов также повлияло на точность классификации, поскольку в таких клетках отличается только количество сегментов ядер. Следовательно, нужно дорабатывать алгоритм с учетом данных особенностей, а также расширять выборку.
Также свою роль в снижении точности свёрточ-ной нейронной сети сыграло качество изображений клеток. Камеры, с помощью которых были сделаны микрофотографии, так или иначе по-разному передают цвета. Во втором наборе данных цитоплазма некоторых эозинофилов по цвету в определенной степени была схожа с цитоплазмой нейтрофилов.
Полученные результаты согласуются с выводами других авторов [2] о том, что необходимо больше общедоступных и качественно собранных данных для обучения подобных моделей глубокого обучения.
Если отдельно рассматривать результаты классификации модели, обученной на первом наборе данных, то они являются многообещающими. Показатели точности приближены к результатам других исследователей [5, 11, 18]. Такая тенденция говорит о том, что технологии глубокого обучения, в частности свёрточных нейронных сетей, позволяют обрабатывать и классифицировать медицинские изображения. В перспективе, данная технология может использоваться в разработке различных медицинских программных обеспечений, что позволит повысить качество диагностики и дальнейшего лечения.
Однако о повсеместном внедрении подобных моделей CNN говорить рано, поскольку у данного подхода существует ряд проблем. Так как лейкоциты являются морфологически гетерогенной группой и даже опытному специалисту бывает трудно отличить один тип от другого, то извлечь параметры для анализа бывает трудно. Также не исключена возможность переобучения алгоритма из-за недостаточного разнообразия входных данных. Следовательно, существует необходимость в сборе больших наборов данных, которые позволят рассмотреть как
можно больше признаков и улучшить эффективность разрабатываемых моделей.
Заключение. Разработанная на основе технологии глубокого обучения сверточная модель продемонстрировала высокую точность в классификации 4 типов лейкоцитов периферической крови. Поскольку золотым стандартом диагностики большого числа заболеваний является микроскопическое исследование мазка периферической крови, то данный метод позволит устранить многие проблемы существующего ручного подхода.
Литература / References
1. Andrade A.R. Recent computational methods for white blood cell nuclei segmentation: A comparative study // Computer methods and programs in biomedicine. 2019. Vol. 173. P. 1-14 / Andrade AR. Recent computational methods for white blood cell nuclei segmentation: A comparative study. Computer methods and programs in biomedicine. 2019;173:1-14.
2. Asghar R. Classification of white blood cells (leucocytes) from blood smear imagery using machine and deep learning models: A global scoping review // PloS one. 2024. № 6. P. e0292026 / Asghar R. Classification of white blood cells (leucocytes) from blood smear imagery using machine and deep learning models: A global scoping review. PloS one. 2024;6:e0292026.
3. Avendi M.R., Kheradvar A., Jafarkhani H. A combined deep-learning and deformable-model approach to fully automatic segmentation of the left ventricle in cardiac MRI // Medical image analysis. 2016. Vol. 30. P. 108-119 / Avendi MR, Kheradvar A, Jafarkhani H. A combined deep-learning and deformable-model approach to fully automatic segmentation of the left ventricle in cardiac MRI. Medical image analysis. 2016;30:108-19.
4. Baghel N., Verma U., Nagwanshi K.K. WBCs-Net: type identification of white blood cells using convolutional neural network // Multimedia tools and applications. 2022. № 29. P. 42131-42147 / Baghel N, Verma U, Nagwanshi KK. WBCs-Net: type identification of white blood cells using convolutional neural network. Multimedia tools and applications. 2022;29:42131-47.
5. Bain B.J. Diagnosis from the blood smear // The New England journal of medicine. 2005. № 5. P. 498-507 / Bain BJ. Diagnosis from the blood smear. The New England journal of medicine. 2005;5:498-507.
6. Hegde R.B. Comparison of traditional image processing and deep learning approaches for classification of white blood cells in peripheral blood smear images // Biocybernetics and Biomedical Engineering. 2019. № 2. P. 382-392 / Hegde RB. Comparison of traditional image processing and deep learning approaches for classification of white blood cells in peripheral blood smear images. Biocybernetics and Biomedical Engineering. 2019;2:382-92.
7. Kouzehkanan Z.M. A large dataset of white blood cells containing cell locations and types, along with segmented nuclei and cytoplasm // Scientific reports. 2022. № 1. P. 1123 / Kouzehkanan ZM. A large dataset of white blood cells containing cell locations and types, along with segmented nuclei and cytoplasm. Scientific reports. 2022;1:1123.
8. Lecun Y. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. № 11. P. 2278-2324 / Lecun Y. Gradient-based learning applied to document recognition. Proceedings of the IEEE. 1998;11:2278-324.
9. Mohamed M., Far B., Guaily A. An efficient technique for white blood cells nuclei automatic segmentation IEEE, 2012. P. 220-225 / Mohamed M, Far B, Guaily A. An efficient technique for white blood cells nuclei automatic segmentation IEEE; 2012.
10. Putzu L., Caocci G., Di Ruberto C. Leucocyte classification for leukaemia detection using image processing techniques // Artificial intelligence in medicine. 2014. № 3. C. 179-191 / Putzu L, Caocci G, Di Ruberto C. Leucocyte classification for leukaemia detection using image processing techniques. Artificial intelligence in medicine. 2014;3:179-91.
11. Rehman A. Classification of acute lymphoblastic leukemia using deep learning // Microscopy research and technique. 2018. № 11. P. 1310-1317 / Rehman A. Classification of acute lymphoblastic leuke-
mia using deep learning. Microscopy research and technique. 2018;11:1310-7.
12. Saleem S. Leukemia segmentation and classification: A comprehensive survey // Computers in biology and medicine. 2022. Vol. 150. P. 106028 / Saleem S. Leukemia segmentation and classification: A comprehensive survey. Computers in biology and medicine. 2022;150:106028.
13. Schlemper J. Attention gated networks: Learning to leverage salient regions in medical images // Medical image analysis. 2019. Vol. 53. P. 197-207 / Schlemper J. Attention gated networks: Learning to leverage salient regions in medical images. Medical image analysis. 2019;53:197-207.
14. Shahin A.I. White blood cells identification system based on convolutional deep neural learning networks // Computer methods and programs in biomedicine. 2019. Vol. 168. P. 69-80 / Shahin AI. White blood cells identification system based on convolutional deep neural learning networks. Computer methods and programs in biomedicine. 2019;168:69-80.
15. Shahzad A. Categorizing white blood cells by utilizing deep features of proposed 4B-AdditionNet-based CNN network with ant colony optimization. Complex & Intelligent Systems. 2022. № 4. P. 31433159 / Shahzad A. Categorizing white blood cells by utilizing deep fea-
tures of proposed 4B-AdditionNet-based CNN network with ant colony optimization. Complex & Intelligent Systems. 2022;4:3143-59.
16. Sundara S.M., Aarthi R. Segmentation and Evaluation of White Blood Cells using Segmentation Algorithms IEEE, 2019. P. 11431146 / Sundara SM, Aarthi R. Segmentation and Evaluation of White Blood Cells using Segmentation Algorithms IEEE; 2019.
17. Tavakoli S. New segmentation and feature extraction algorithm for classification of white blood cells in peripheral smear images // Scientific reports. 2021. № 1. P. 19428 / Tavakoli S. New segmentation and feature extraction algorithm for classification of white blood cells in peripheral smear images. Scientific reports. 2021;1:19428.
18. Togacar M., Ergen B., Sertkaya M.E. Subclass Separation of White Blood Cell Images Using Convolutional Neural Network Models // Elektronika ir Elektrotechnika. 2019. № 5. P. 63-68 / Togacar M, Ergen B, Sertkaya M. E. Subclass Separation of White Blood Cell Images Using Convolutional Neural Network Models. Elektronika ir Elektro-technika. 2019;5:63-8.
19. Wang O. Deep learning approach to peripheral leukocyte recognition // PloS one. 2019. № 6. P. e0218808 / Wang O. Deep learning approach to peripheral leukocyte recognition. PloS one. 2019;6:e0218808.
Библиографическая ссылка:
Козулин Н.Д., Мигулина А.А., Биктимиров А.Р. Создание сверточной нейронной сети для обнаружения и классификации лейкоцитов в периферической крови // Вестник новых медицинских технологий. 2025. № 1. С. 139-144. DOI: 10.24412/1609-21632025-1-139-144. EDN DWNGNK.
Bibliographic reference:
Kozulin ND, Migulina AA, Biktimirov AR. Sozdanie svertochnoj nejronnoj seti dlya obnaruzheniya i klassifikacii lejkocitov v pe-rifericheskoj krovi [Creation of a convolutional neural network for detection and classification of leukocytes in peripheral blood]. Journal of New Medical Technologies. 2025;1:139-144. DOI: 10.24412/1609-2163-2025-1-139-144. EDN DWNGNK. Russian.