УДК 004

Подход к автоматическому формированию баз знаний на основе онтологий

Переволоцкий Владимир Святославович – аспирант Дальневосточного федерального университета.

Грибова Валерия Викторовна – доктор технических наук, член-корреспондент РАН, заместитель директора по научной работе Федерального государственного бюджетного учреждения науки Институт автоматики и процессов управления Дальневосточного отделения Российской академии наук.

Аннотация: В работе проанализированы методы и техники обработки текста на естественном языке. Описана структура базы знаний медикаментозного лечения заболеваний, которая основана на онтологии и внедрена в интеллектуальную медицинскую систему поддержки принятия решений. Также описаны методы автоматического наполнения базы знаний с помощью языковой модели ChatGPT. В работе приведен пример применения этих методов.

Ключевые слова: база знаний, онтология, обработка естественного языка, языковая модель.

Введение

Системы с базами знаний получили широкое распространение. Они используются для решения широкого спектра интеллектуальных задач в различных предметных областях – медицине, юриспруденции, экономике, технической диагностике и многих других. Самым трудоемким и ответственным этапом их разработки является создание баз знаний. Как правило, они создаются экспертами предметной области, возможно с инженерами знаний и когнитологами (зависит от модели знаний и инструментальной поддержки разработки). В любом случае – это длительный и достаточно трудоемкий процесс. В настоящее время используется, как правило, онтологический подход к их созданию. Онтологии стали жизненно важным инструментом для представления и управления знаниями в различных областях. Они обеспечивают общий язык для представления знаний и обмена, что позволяет обеспечить более эффективную и точную обработку знаний.

К настоящему времени человечество накопило огромные массивы знаний, которые представлены в различных руководствах, статьях, нормативных документах, учебниках. Однако, знания, представленные в таких литературных источниках, представлены текстами, информация часто не структурирована, поэтому извлечение соответствующих знаний может быть сложной и трудоемкой задачей.

Понимая важность экспертного формирования баз знаний, необходимо отметить, что автоматическое формирование баз знаний из текстов на естественном языке с последующей (возможной) их верификацией экспертами, поможет значительно повысить скорость разработки онтологических баз знаний и снизить трудоемкость этого процесса.

В данной статье авторами рассматривается подход автоматического формирования онтологических баз знаний на основе анализа текстов на естественном языке.

Обзор методов анализа текста на естественном языке

Многие доказанные техники из устоявшихся областей, таких как информационный поиск, машинное обучение, data mining, обработка естественного языка, а также представление знаний и логический вывод, все внесли свой вклад в прогресс в области онтологического обучения и формирования баз знаний на основе онтологий за последнее десятилетие. Информационный поиск предоставляет различные алгоритмы для анализа ассоциаций между концепциями в текстах с использованием векторов, матриц [Fortuna et al. 2005] и вероятностных теорем [Yang and Calmet 2005].

 Обработка естественного языка предоставляет инструменты для анализа текста на естественном языке на различных языковых уровнях (например, морфология, синтаксис, семантика) с целью выявления представлений концепций и связей через языковые признаки. Техники, используемые различными системами, могут варьироваться в зависимости от задач, которые нужно решить. Обычно техники можно классифицировать как основанные на статистике, лингвистике, логике или гибридные.

Техники, основанные на статистике. Различные техники, основанные на статистике, для выполнения задач в онтологическом обучении и создании баз знаний, в основном используют методы машинного обучения и data mining. Отсутствие учета семантики и отношений между составляющими текста делает техники, основанные на статистике, более распространенными в ранних этапах онтологического обучения, таких как выделение терминов и построение иерархии. Некоторые из общих техник включают кластеризацию [Wong et al. 2007], латентный семантический анализ [Turney 2001], анализ совместной встречаемости [Budanitsky 1999], включение терминов [Fotzo and Gallinari 2004], контрастивный анализ [Velardi et al. 2005] и добыча правил ассоциаций [Srikant and Agrawal 1997].

Основная идея заключается в том, что (совместное) появление лексических единиц в выборках часто дает надежную оценку об их семантической идентичности, что позволяет создавать сущности высших уровней.

Техники и ресурсы на основе лингвистики. Техники на основе лингвистики применимы к почти всем задачам в онтологическом обучении и создании баз знаний и в основном зависят от инструментов естественного языкового процессинга. Некоторые из техник включают разметку частей речи, разбор предложения, анализ синтаксической структуры и анализ зависимостей. Другие техники основываются на использовании семантического лексикона, лексико-синтаксических шаблонов, семантических шаблонов, фреймов подкатегоризации и начальных слов.

Техники и ресурсы на основе логики. Техники, основанные на логике, являются наименее распространенными в онтологическом обучении и основным образом используются для более сложных задач, связанных со взаимоотношениями и аксиомами. Техники, основанные на логике, связаны с прогрессом в представлении и объяснении знаний и в машинном обучении. Две основные техники, используемые в этом направлении, это индуктивная логика программирования [Lavrac and Dzeroski 1994; Zelle and Mooney 1993] и логический вывод [Shamsfard and Barforoush 2004].

Методология разработки системы автоматического наполнения базы знаний медикаментозного лечения заболеваний

В работе [Грибова, Окунь 2020] предложена реализация системы назначения медикаментозного лечения, в которой база знаний о лечении формируется на основе онтологии. Онтология знаний о лечении заболеваний позволяет формировать знания о лечении конкретной болезни или группы болезней, которые имеют общие патогенетические принципы, этиологическую часть или важные клинические симптомы. В онтологии предусмотрены следующие ключевые элементы:

Заболевание – раздел онтологии, который определяет название патологического процесса и объединяет все элементы знаний о его лечении. В структуре раздела присутствуют вершины: Коды МКБ – определяют шифр согласно МКБ-10 (Международному Классификатору Болезней); Модель терапии – логически завершенные представления о принципах и объемах терапии данного патологического процесса включающие следующие элементы: Вид терапии, Цель терапии, Признаки определяющие цель терапии, Схема терапии.

Ключевым элементом онтологии является сложноструктурированный блок условий, сопровождающий каждый раздел онтологии и позволяющий описать в формальном представлении необходимые клинические критерии, которые определяют условия его применения в лечении данного заболевания. Помимо этого онтология содержит следующие элементы: Группа альтернативно используемых лекарственных средств (ЛС), Комплексно используемые ЛС.Группа альтернативно используемых ЛС содержит следующие вершины: Действующее вещество и Совместно используемые ЛС.

Действующее вещество – перечень ЛС, из которого выбирается одно ЛС с наилучшими характеристиками для конкретного клинического случая. Совместно используемые ЛС – группа лекарственных средств, которая для достижения клинического результата должна использоваться совместно. Вариант назначения включает элементы: Дозировка, Форма выпуска, Способ применения, Кратность применения, Продолжительность применения. Помимо этого, для каждого ЛС указываются: Контрольные точки оценки эффективности терапии, Контроль ожидаемых побочный действий, Условие на действующее вещества и Торговые названия действующего вещества.

В рамках данной работы предлагается система автоматического заполнения базы знаний медикаментозного лечения заболеваний на основе онтологии с использованием ChatGPT. ChatGPT (Chat Generative Pre-trained Transformer) – это предварительно обученная модель генерации текста для создания бесед в чатах. Она использует архитектуру трансформера для обучения на больших датасетах диалогов, что позволяет ей выдавать более высокое качество ответов.

Применение этой модели позволяет сократить время и усилия, необходимые для создания и обновления баз данных. Также ChatGPT может сгенерировать более точные и достоверные данные, чем человеческий ввод, так как он основан на искусственном интеллекте и машинном обучении. В целом, использование ChatGPT для заполнения медицинских баз знаний может существенно улучшить качество и доступность медицинской информации.

Кроме того, ChatGPT может использоваться для генерации медицинской документации, такой как медицинские отчеты, заключения и диагностические рекомендации. Это может существенно ускорить и облегчить процесс записи и обмена медицинской информацией между медицинскими работниками. В целом, использование ChatGPT для медицинских целей может дать существенные преимущества в терминах эффективности, точности и доступности медицинской информации. Это может сделать медицинскую помощь более доступной и качественной для всех [2].

ChatGPT предлагается использовать для формирования базы знаний по лечению заболеваний на основе соответствующей онтологии для классификации и извлечения информации из текстов клинических рекомендаций.

В настоящий момент данная модель уже используется для извлечения из медицинского текста таких сущностей как: заболевание, код МКБ, модель терапии, вид терапии, схема терапии, действующее вещество, форма выпуска, способ применения, условия на способ применения. Общение с ChatGPT реализовано по API, на вход поступает медицинский текст и основные термины онтологии, которые необходимо идентифицировать. На выходе API возвращает значения для сущностей базы знаний, после чего соответствующие значения записываются в базу знаний. Алгоритм работы системы построен следующим образом:

  1. На первом этапе извлекаются имена сущностей базы знаний (заболевания, симптомы и т.д.) с использованием методов NER (Named Entities Recognition)
  2. Далее извлекается информация о причинах, симптомах и лечении конкретного заболевания. Для этого используются запросы в виде вопросов с ключевыми словами, связанными с заболеванием.
  3. Следующий этап включает аннотирование сущностей: идентифицированные сущности аннотируются и привязываются к соответствующим классам в онтологии назначения лечения.
  4. Подтверждение информации: на этом этапе ChatGPT используется для проверки полученной информации на корректность и добавления ее в базу знаний заболеваний и синдромов.

Результаты

В результате на текущий момент в процессе формализации базы знаний на основе медицинского текста с использованием ChatGPT получены следующие результаты: реализован функционал извлечения информации, ChatGPT автоматически извлекает информацию о заболеваниях, лекарствах, медицинских процедурах и других элементах медицинской онтологии из медицинского текста.

В качестве примера был разобран текст из Приложения А, представляющий собой клиническую рекомендацию по лечению Аллергического ринита. В результате были определены следующие структурные единицы онтологической базы знаний:

  • Основное заболевание: аллергический ринит
  • Код МКБ : J30.9
  • Действующее вещество: дезлоратадин
  • Условия для действующего вещества: однократное прием в сутки
  • Формы выпуска: таблетки, сироп
  • Условия для формы выпуска: таблетки 5 мг для взрослых и подростков с 12 лет; сироп 1,25 мг/сут для детей до 1 года, 1-5 лет – 1,25 мг/сут, 5-11 лет – 2,5 мг/сут
  • Способ применения: внутрь
  • Условия для способа применения: после еды
  • Показания к применению: лечение аллергического ринита
  • Ограничения на применение: беременность.

Вывод

Определение структурных единиц онтологии из текста медицинской статьи с помощью ChatGPT может дать высокоточные результаты в построении базы знаний. Модель может идентифицировать ключевые термины и определять их связи, что позволяет строить точные формализованные базы знаний для дальнейшей обработки. С использованием ChatGPT можно автоматизировать процесс построения базы знаний.

Список литературы

  1. Грибова, В.В. Онтология медицинской диагностики для интеллектуальных систем поддержки принятия решений / Петряева М.В., Окунь Д.Б., Шалфеева Е.А. // Онтология проектирования – 2018. – том 8, №1(27). – С. 58-73
  2. Орлов, Г.М. Развитие электронного взаимодействия клиники и пациента: опыт создания и тестирования чат-бота в медицинском центре / Калинин П.С., Орлов Г.М. // International Journal of Open Information Technologies. – 2022. – Т. 10. – №. 11. – С. 105-112.
  3. BREWSTER, C., CIRAVEGNA, F., AND WILKS, Y. 2002. User-centred ontology learning for knowledge management. In Proceedings of the 6th International Conference on Applications of Natural Language to Information Systems.
  4. BUDANITSKY, A. 1999. Lexical semantic relatedness and its application in natural language processing. Tech. rep. CSRG-390, Computer Systems Research Group, University of Toronto.
  5. FORTUNA, B., MLADENIC, D., AND GROBELNIK, M. 2005. Semi-automatic construction of topic ontology. In Proceedings of the Conference on Data Mining and Data Warehouses (SiKDD).
  6. FOTZO, H. AND GALLINARI, P. Learning generalizationspecialization relations between concepts – application for automatically building thematic document hierarchies. In Proceedings of the 7th International Conference on Computer-Assisted Information Retrieval (RIAO) – 2004.
  7. LAVRAC, N. AND DZEROSKI, S. 1994. Inductive Logic Programming: Techniques and Applications. Ellis Horwood, New York, NY.
  8. LIU, W., WEICHSELBRAUN, A., SCHARL, A., AND CHANG, E. 2005. Semi-automatic ontology extension using spread- ing activation. Univ. Knowl. Manage. 0, 1, 50–58.
  9. OpenAI is an AI research and deployment company. https://openai.com/
  10. SHAMSFARD, M. AND BARFOROUSH, A. 2004. Learning ontologies from natural language texts. J. Human Comput. Stud. 60, 1, 17–63.
  11. SRIKANT, R. AND AGRAWAL, R. 1997. Mining generalized association rules. Future Gen. Comput. 13, 2-3, 161–180.
  12. TURNEY, P. 2001. Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. In Proceedings of the 12th European Conference on Machine Learning (ECML).
  13. VELARDI, P., FABRIANI, P., AND MISSIKOFF, M. 2001. Using text processing techniques to automatically enrich a domain ontology. In Proceedings of the International Conference on Formal Ontology in Information Systems (FOIS).
  14. WONG, W., LIU, W., AND BENNAMOUN, M. 2007. Tree-traversing ant algorithm for term clustering based on featureless similarities. Data Mining Knowl. Discov. 15, 3, 349-
  15. WILSON WONG / Ontology Learning from Text: A Look Back and into the Future // WONG, W.. LIU, W., BENNAMOUN, M. - 2012, ACM Comput. Surv. 44, 4, Article 20
  16. YANG, Y. AND CALMET, J. 2005. OntoBayes: An ontology-driven uncertainty model. In Proceedings of the International Conference on Intelligent Agents, Web Technologies and Internet Commerce (IAWTIC).
  17. ZELLE, J. AND MOONEY, R. 1993. Learning semantic grammars with constructive inductive logic programming. In Proceedings of the 11th National Conference of the American Association for Artificial Intelligence (AAAI).

Приложение А

Какой антигистаминный препарат выбрать для лечения аллергического ринита?

Интересная статья? Поделись ей с другими: