УДК 614.2

Цифровизация здравоохранения: big data в медицине

Стирманова Ольга Ивановна – магистрант Северного государственного медицинского университета

Аникина Наталья Юрьевна – кандидат биологических наук, доцент Северного государственного медицинского университета.

Аннотация: В настоящее время в здравоохранении идет активное развитие и внедрение современных инновационных технологий, предназначенных для автоматизации лечебно-диагностических процессов, быстрой обработки и анализа данных; что должно привести к улучшению качество оказания медицинской помощи. В данной статье раскрывается понятие большие данные в медицине – это непрерывно и быстро пополняемые электронные массивы качественно различающихся между собой медицинских и парамедицинских данных огромного объема, которыми невозможно управлять посредством традиционных инструментов и методов программного и/или аппаратного обеспечения [1]. Применение больших данных в настоящее время является перспективным направлением в сфере IT-технологий и в медицине в целом, что должно собирать, хранить и анализировать большие данные в более короткие сроки, но данные должны быть достоверными и изменчивыми.

Ключевые слова: большие данные, здравоохранение, медицина, аналитика, анализ.

На сегодняшний день большинство медицинских организаций во всем мире с целью улучшения качества оказания медицинской помощи переходят на различные информационные модели здравоохранения. Любая из этих моделей - прогностическая, персонализированная, профилактическая или партисипативная в своей основе использует электронные медицинские карты и огромный объем сложных биомедицинских данных [34].

С внедрением современных инновационных технологий в медицину и здравоохранение стремительно стало увеличиваться количество информационных данных. Представленные в разнородных форматах данные из электронных карт, результаты диагностики и различного рода медицинских визуализаций. Технологии геномики и постгеномики открывают все новые данные о сложных биохимических и регуляторных процессах в живых организмах [31]. Данные внесенные в систему могут быть структурированными или неструктурированными, дискретными или непрерывными. Все это привело к внедрению «больших данных» и их аналитике в систему здравоохранения.

В медицине к большим данным относят большие и сложные массивы данных, неподдающиеся традиционным методам анализа и обработки. Аналитика больших данных включает в себя интеграцию разноформатных данных, контроль качества поступающих данных, их анализ, интерпретацию и моделирование [33]. При помощи аналитики больших данных появляется возможность взглянуть на проблему исследования в иной плоскости, под другим углом, что приводит к получению новых знаний.

Анализ больших данных в медицине и здравоохранении позволяет обрабатывать большие массивы данных от тысяч пациентов, выявлять кластеры и корреляции между наборами данных, а также разрабатывать прогностические модели с использованием технологий искусственного интеллекта (ИИ). В медицине и здравоохранении аналитика больших данных это новое научное направление, включающее в себя такие области знаний как биоинформатика, медицинская визуализация, медицинская информатика. 

Активное развитие инновационных технологий и их стремительное внедрение в медицину и здравоохранение привело к чрезвычайному росту генерируемых данных. Клинические заметки, личные данные пациентов, диагнозы, лабораторные тесты, административные данные, таблицы, диаграммы, рецепты, процедуры, медицинские изображения, данные магнитно-резонансной томографии (МРТ), компьютерной томографии (КТ) и ультразвука – все это медицинские данные хранящиеся в гетерогенных форматах, причем часть из них получена с датчиков медицинской аппаратуры с различным набором частот, что делает эти данные сложными по свойствам и большими по размеру [21].

На сегодняшний день в системе здравоохранения, а также в различных медицинских областях существует острая необходимость сбора, очищения, хранения, преобразования, передачи, визуализации и представления в понятном для специалистов виде постоянно растущих в объеме данных [18]. Обработка этих данных может быть ускорена с помощью мощных многоядерных центральных процессоров при использовании облачных вычислений, а также применением графических процессоров и программируемых на местах вентильных матрицах с параллельными методами обработки.

Сам термин «большие данные» включает в себя ряд характеристик. В различных научно-исследовательских областях выделяют от 5 до 7 основных параметров, обозначаемых 5V, 6V или 7V [6, 10, 16,]. В области медицины и здравоохранения, как правило, отмечают 7 характеристик (7V). Это обще принятые: значение, скорость, объем, разнообразие, достоверность, изменчивость и седьмая характеристика свойственная большим данным в медицине – ценность [10].

Согласно расчетам, в ближайшие годы объем данных в области медицины и здравоохранении будет расти в геометрической прогрессии, обычно измеряемый в терабайтах начнет исчисляться йоттабайтами [16]. Поэтому главной характеристикой больших данных является огромный объем данных. Такая характеристика как скорость подразумевает под собой «движение» данных, постоянный прирост, увеличение частоты создания, обработки и их анализа. Разнообразие больших данных достигается путем сбора информации из различного рода источников, в результате чего поступающие данные разноформатные, сложные и неоднородные. Достоверность – это характеристика качества данных, их надежности и прогностической ценности. Изменчивость больших данных подразумевает согласованность данных с течением времени. Последняя характеристика – ценность, заключается в получении новых знаний, нацеленных как на улучшение качества оказания персонализированной медицинской помощи, так и на улучшении системы здравоохранения в целом.

Определяющим фактором использования больших данных в любых научных исследованиях является их достоверность, качество и полнота. Помимо общих технических проблем сбора данных, таких как различия в методах сбора данных [14], неполнота информации [17], ограничение сенсорных устройств [25], различие частотного диапазона и т.д. – получение данных в медицине и здравоохранении сталкивается с рядом этических и правовых препятствий. Перед мировым медицинским сообществом остро встает вопрос об этических соображениях сбора данных о пациентах [13], а также об управлении частными и государственными медицинскими базами данных с целью соблюдения конфиденциальности полученной информации [12, 22].

Большинство медицинских исследований на сегодняшний день используют оцифрованные данные. Информация, как правило, хранится на локальных серверах, передается облачными ссылками или съемными носителями, что вызывает определенные сложности в определении протоколов для обеспечения конфиденциальности и безопасности информации. Альтернативное решение этих проблем предлагают облачные вычисления и приложения для онлайн опросов. Информационные технологии в системе здравоохранения прежде всего должны обеспечивать конфиденциальность и безопасность данных о пациентах, поэтому при применении на начальном этапе сбора информации надлежащих протоколов, лучшим вариантом может быть использование облачных технологий. К примеру, некоторые сервисы облачных вычислений для исследований в области науки о больших данных, такие как Microsoft Azure (https://azure.microsoft.com/), Amazon AWS (https://aws.amazon.com/) и Google Cloud (https://cloud.google.com) позволяют настраивать модели на удаленных серверах. Другие онлайн -ресурсы-это методы опроса, которые могут быть использованы для реализации решений в области информатики здравоохранения, таких как SurveyMonkey (https://www.surveymonkey.com), REDCap (https://www.project-redcap.org/), Survey Sparrow (https://surveysparrow.com), Google Forms (https://www.google.com/forms/about/) и LimeSurvey (https://www.limesurvey.org) [10].

В настоящее время перспективным направлением в сфере IT-технологий является разработка и внедрение медицинских приложений способных искать, хранить, собирать и анализировать большие данные. Наиболее распространенной являются платформы Apache Hadoop и MapReduce, основанные на ресурсоемких вычислениях и ряде методов моделирования.

Широкое распространение анализа больших данных в системе здравоохранения, несомненно, приведет к улучшению качество оказания медицинской помощи. При помощи аналитики больших данных существует возможность выявления развития эпидемии на ранних этапах, контроля качества медицинских услуг, разработки и применения инновационных методов лечения [2, 15, 30].

Аналитика или анализ больших данных это стремительно развивающаяся новая отрасль знаний, основанная на разработке и применении различного рода алгоритмов машинного обучения. Обладая выше перечисленными характеристиками 7V большие данные не поддаются явным или традиционным методам обработки. Множество неявных методов, в которых шаги необходимые для поиска решения получаются из самих данных, и называются алгоритмами машинного обучения. Наиболее часто в системе здравоохранения применяют контролируемые методы обучения, подразделяемые на статистическую классификацию [3] и регрессионный анализ [11].

Статистическая классификация применяется для определения категории объекта, который наблюдается или измеряется с целью получения данных. Наиболее распространенными алгоритмами для решения этой задачи являются алгоритм k-ближайших соседей (KNN) и метод опорных векторов (SVM).

Данные методы машинного обучения могут применяться при анализе медицинских карт с целью получения информации относящуюся к населению. В сочетании с другими алгоритмами данные методы могут помочь в постановке клинического диагноза или обнаружить новые корреляции между клиническими переменными. Так, используя совместно SVM и Apache cTAKES ряд исследователей создали алгоритм определяющий степень развития ревматоидного артрита на основании интерпретации лабораторных данных и клинических записей Electronic Medical Record (EMR) [19, 29]. Кроме этого метод опорных векторов часто применяется при оценке риска возникновения различного рода заболеваний. Алгоритм, как правило, использует информацию о заболевании в качестве входных переменных. Таким образом с использованием SVM при анализе общегенномных данных была создана прогнозируемая модель риска развития болезни Паркинсона и диабета первого типа [25, 9].

Методы регрессионного анализа используются для выявления связей между зависимой переменной и одной или несколькими независимыми переменными. Как правило, данные методы машинного обучения используются с целью прогнозирования. Прогноз может быть построен как в виде дальнейшей динамики развития заболевания, так и в виде прогноза выявления новых значений или тенденций. Наиболее распространенными методами регрессии являются математические методы, позаимствованные из линейной алгебры. Это простая линейная регрессия, множественная линейная регрессия и логическая регрессия. Совместная реализация контролируемого машинного обучения и логической регрессии позволила выявить новые эпистатические факторы риска для ревматоидного артрита [7].

Помимо контролируемого обучения в медицине и системе здравоохранения активно внедряются и так называемые неконтролируемые методы обучения, ищущие неопределенные шаблоны в данных без помощи помеченных входных значений. Наиболее популярными методами в данной категории являются кластеризация и алгоритмы нейронных сетей.

Метод кластеризации подразумевает под собой группировку данных объединенных общими качественными характеристиками. В медицине и здравоохранении данный метод позволяет клиницистам выявлять новые «связи» между пациентами одной группы, позволяющие выявить новые интерпретации анализируемых данных и более точно определить диагноз [27]. Подобные группы называются кластерами, а методы их определения – алгоритмы кластеризации. Четкого определения, что такое кластер на сегодняшний день нет, в связи с чем существует проблема выбора наиболее подходящего метода кластеризации. В большинстве случаев данные группируются в кластеры экспериментальным путем, поэтому алгоритм кластеризации как правило разрабатывается для определенного набора данных. Интеллектуальный анализ клинической информации с помощью алгоритмов кластеризации позволяет находить группы пациентов с аналогичными характеристиками, из которой может быть получена информация для будущей диагностики.

Искусственные нейронные сети – это спроектированные аналогично биологическим нейронным сетям вычислительные системы, решающие проблему, обучаясь в процессе работы с конкретным набором данных без необходимости внешнего программирования. Наиболее часто данные методы используются при анализе медицинских изображений и визуализаций. Также, для обучения нейронных сетей могут использоваться данные содержащиеся в медицинских записях. Авторы DeepCare использовали искусственные нейронные сети и EMR для прогнозирования следующих стадий заболевания с целью внедрения коррекционно-профилактических мероприятий [26].

Одним из востребованных направлений в области медицины и здравоохранении на сегодняшний день является персонализированная медицина. Наиболее популярным методом машинного обучения, применяемым в данной области, является так называемый метод обучения с подкреплением («вознаграждением»). В данном методе используются программные агенты, изучающие среду и пытающиеся найти способы действия, максимизирующие итоговое «вознаграждение». Тип «вознаграждения зависит от набора данных и соответственно алгоритмов, используемых в обучении с подкреплением [28].

В ряде работ авторы используют метод машинного обучения с подкреплением для предоставления персонализированных рекомендаций по здоровью. Данный метод применяется для решения проблемы разреженности данных и нелинейности соотношений между данными используемыми в информатике здравоохранения. Предложенная персонализированная система здравоохранения предоставляет полный спектр рекомендаций по медицинскому обслуживанию, начиная от списка необходимых пациенту лекарственных препаратов, консультаций специалистов и заканчивая рекомендациями по введению продуктов питания в рацион пациента и необходимого для него комплекса физических упражнений [24].

Другие исследователи сосредоточены на применении данного метода в клинической практике. На сегодняшний день разработаны ряд программных продуктов на основании метода машинного обучения с подкреплением имитирующие когнитивный процесс клиницистов во время диагностических процедур [20].

Еще одним из способов изучения популяций с целью выявления медицинских проблем является метод сетевого анализа и последующее моделирование данных. Классический сетевой анализ изучает графические представления отношений между объектами используя так называемую теорию сетей [8,32]. Какие данные из изучаемого набора являются элементами сети определяется типом установленной модели. При этом важно оценить, какие из переменных обладают определяющим модель свойством. Например, при оценке развития определенного заболевания в популяции часто за определяющее свойство выбирают принадлежность к полу или к определенной возрастной категории.

Заключение

Новые знания, полученные при помощи анализа больших данных, несомненно, окажут положительное влияние на развитии системы здравоохранения и будут весьма полезны, как пациентам, так и клиницистам. 

Наибольшее распространение в странах Европы получает новая модель здравоохранения -4П, так называемая медицина будущего, основанная на четырех основополагающих принципах: персонализация, предикция, превентивность и партисипативность. Однако переход на новый уровень развития вместе с новыми знаниями, возможностями открывает и новые перспективы выявления ранее неизученных проблем.

Список литературы

  1. Цветкова Л.А., Черченко О.В. Технология больших данных в медицине и здравоохранении России и мира // Врач и информационные технологии. № 3. С. 60-73.
  2. Agarwal M, Adhil M, Talukder AK. Multi-omics multi-scale big data analytics for cancer genomics. In: International Conference on Big Data Analytics // Cham, Switzerland: Springer International Publishing. 2015. P. 228–243.
  3. Alpaydin E. Introduction to machine learning //MIT Press. 2010. P.5-20.
  4. Andreu-Perez J, Poon CC, Merrifield RD, Wong ST, Yang GZ. Big data for health // IEEE J Biomed Health Inform.2015.P.1193–1208.
  5. Archenaa J, Anita EM. A survey of big data analytics in healthcare and government // Procedia Comput Sci: 2015:408–413.
  6. Borne K. Top 10 big data challenges – a serious look at 10 big data V’s // MAPR. 2014.№4. P. 80-94.
  7. Briggs FBS, Ramsay PP, Madden E, Norris JM, Holers VM, Mikuls TR, Sokka T, Seldin MF, Gregersen PK, Criswell LA, Barcellos LF. Supervised machine learning and logistic regression identifies novel epistatic risk factors with PTPN22 for rheumatoid arthritis // Genes Immun.2010. P.199–208.
  8. Cherven K. Network graph analysis and visualization with Gephi: visualize and analyze your data swiftly using dynamic network graphs built with Gephi.2013. P.118.
  9. de Oliveira FC, Borges CC, Almeida FN, e Silva FF, da Silva Verneque R, da Silva MV, Arbex W. SNPs selection using support vector regression and genetic algorithms in GWAS. BMC Genomics. 2014. P.15.
  10. David Soriano-Valdez, Ingris Pelaez-Ballestas, Amaranta Manrique de Lara, Alfonso Gastelum-Strozzi // The basics of data, big data, and machine learning in clinical practice. Clinical Rheumatology Received. 2019.№5. P.11-23.
  11. Fox J. Applied regression analysis, linear models, and related methods // Sage Publications, Thousand Oaks.1997.
  12. Glandon GL, Smaltz DH, Slovensky DJ. Information systems for healthcare management.2013.
  13. Goodman KW. Ethics, information technology, and public health: new challenges for the clinician-patient relationship // J Law Med Ethics.2010.№38. P.58–63.
  14. Gregory KE, Radovinsky L. Research strategies that result in optimal data collection from the patient medical record // Appl Nurs Res.2012.№25. P.108–116.
  15. He KY, Ge D, He MM. Big data analytics for genomic medicine // Int J Mol Sci.2017.№18. P.412-430.
  16. Hermon R, Williams PA // Big data in healthcare: what is it used for? Australian Ehealth Informatics and Security Conference. 2014.№40:39-49.
  17. Kongsved SM, Basnov M, Holm-Christensen K, Hjollund NH. Response rate and completeness of questionnaires: a randomized study of internet versus paper-and-pencil versions // J Med Internet Res 9.2007. P.1-11.
  18. Lillo-Castellano JM, Mora-Jimenez I, Santiago-Mozos R, Chavarria-Asso F, Cano-González A, García-Alberola A, et al // Symmetrical compression distance for arrhythmia discrimination in cloud-based big-data services // IEEE J Biomed Health Inform. 2015.№19. P.1253–1263.
  19. Lin C, Karlson EW, Canhao H, Miller TA, Dligach D, Chen PJ, Perez RNG, Shen Y, Weinblatt ME, Shadick NA, Plenge RM, Savova GK. Automatic prediction of rheumatoid arthritis disease activity from the electronic medical records // PLoS One 8.2013. P.1-10.
  20. Ling Y, Hasan SA, Datla V, et al. Learning to diagnose: assimilating clinical narratives using deep reinforcement learning.2017. P.895-905.
  21. Luo J, Wu M, Gopukumar D, Zhao Y. Big data application in biomedical research and health care: a literature review // Biomed Inform Insights 2016.№8. P.1-10.
  22. Manrique de Lara A, Peláez-Ballestas I. Big data and data processing in rheumatology: bioethical perspectives // Clin Rheumatol.№39.2020. P.1007–1014.
  23. Mittag F, Büchel F, Saad M, Jahn A, Schulte C, Bochdanovits Z, Simón-Sánchez J, Nalls MA, Keller M, Hernandez DG, Gibbs JR, Lesage S, Brice A, Heutink P, Martinez M, Wood NW, Hardy J, Singleton AB, Zell A, Gasser T, Sharma M, International Parkinson’s Disease Genomics Consortium. Use of support vector machines for disease risk prediction in genome-wide association studies: concerns and opportunities // Hum Mutat.№33.2012. P.1708– 1718.
  24. Mulani J, Heda S, Tumdi K et al. Deep reinforcement learning based personalized health recommendations // Springer, Cham. 2017:231–255.
  25. Northrop RB. Introduction to instrumentation and measurements //CRC Pr I Llc. 2017.952.
  26. Pham T, Tran T, Phung D, Venkatesh S. Predicting healthcare trajectories from medical records: a deep learning approach // J Biomed Inform.2017. P.218–229.
  27. Rao CR, Miller JP, Rao DC. Epidemiology and medical statistics // Elsevier.2008.852.
  28. Richard S. Sutton AGB. Reinforced learning: an introduction.2008:352.
  29. Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, KipperSchuler KC, Chute CG. Mayo clinical Text Analysis and Knowledge Extraction System: architecture, component evaluation and applications // J Am Med Inform Assoc. №17. P.507–513.
  30. Tan SL, Gao G, Koch S. Big data and analytics in healthcare // Methods Inf Med. 2015. P.546–547
  31. Viceconti M, Hunter P, Hose R. Big data, big knowledge: big data for personalized healthcare // IEEE J Biomed Health Inform: 2015. №19. P.1209– 1215.
  32. Wasserman, S., & Robins, G. Social network research: The foundation of network science. // American Psychological Association.2021. P.451–469.
  33. Wu PY, Cheng CW, Kaddi CD, Venugopalan J, Hoffman R, Wang MD. Omic and Electronic Health Record Big Data Analytics for Precision Medicine // IEEE Trans Biomed Eng. 2017.№64. P.263–273.
  34. Yang C, Li C, Wang Q, Chung D, Zhao H. Implications of pleiotropy: challenges and opportunities for mining big data in biomedicine // Front Genet 2015.№6. P.229-235.