УДК 004

Методы извлечения знаний из слабоструктурированных данных

Чалов Никита Александрович – магистрант Курского государственного университета.

Аннотация: В статье анализируются методы извлечения знаний из слабоструктурированных данных. Рассматриваются сущность и специфика слабоструктурированных данных, отмечается их роль в процессе принятия управленческих решений. Приводится схема сбора и обработки слабоструктурированных данных из гетерогенных пространственно-распределённых источников. Рассматриваются некоторые подходы и методы извлечения знаний из слабоструктурированных данных в рамках интеллектуального анализа данных.

Ключевые слова: слабоструктурированные данные, интеллектуальный анализ данных, извлечение знаний, методы анализа, принятие управленческих решений.

Успех функционирования социально-экономических систем зависит от грамотного управления ими и принятия управленческих решений [1]. Технологическое развитие актуализирует внедрение интеллектуального анализа данных, позволяющего качественно повысить эффективность принятия решений при разрешении конкретной управленческой ситуации. При принятии решений могут использоваться не только стандартные и структурированные данные, но и неструктурированные и слабоструктурированные, анализ которых представляет собой нетривиальную задачу. Сложность обработки и потенциальная значимость слабоструктурированных данных для принятия управленческих решений актуализирует исследование методов извлечения знаний из них.

Целью работы является изучение методов извлечения знаний из слабоструктурированных данных. Для её достижения были использованы аналитический, синтетический, индуктивный и дедуктивный методы обработки тематических исследований, научных публикаций и релевантных литературных источников.

Под слабоструктурированными данными понимаются все промежуточные формы данных между строгой структурой и её полным отсутствием [2]. Их использование даёт возможность улучшить качество аналитических моделей, однако требует предварительной обработки таких данных. При проведении анализа слабоструктурированных данных важно уделять внимание параметрам их обработки, поскольку от выбора параметров очистки, трансформации и векторизации зависит итоговый результат исследования данных. Проблема автоматизированной обработки слабоструктурированных данных заключается в зависимости особенностей структуры представления информации в них от источника получения. Более того, даже в одном источнике информация может быть структурирована различным образом, если вводится разными людьми. Поэтому при работе с такими данными требуется настройка конвейера их обработки, что может занять до 70 % трудозатрат всего проекта. В большинстве случаев ручная обработка слабоструктурированных данных неоптимальна вследствие высоких трудозатрат и высокой скорости накопления новых данных, поэтому для работы с ними необходимо создание автоматизированной системы интеллектуального анализа.

В основе систем информационной поддержки принятия решений и управления должны лежать средства ситуационной осведомлённости, представляющей собой процесс восприятия, осознания и интерпретации имеющейся информации о ситуации, дополненный оценками и прогнозированием вероятных сценариев развитий и исходов [3]. В данном процессе на разных его стадиях используются разнообразные модели, методы, математические подходы и инструменты.

В зависимости от качества исходных данных и сложности описания ситуаций могут использоваться различные подходы к проектированию средств ситуационной осведомлённости:

  • формально‐логические подходы;
  • пространственно‐темпоральные подходы;
  • теория ситуаций;
  • онтологии ситуаций;
  • нечётко‐логические подходы;
  • подходы теории очевидностей;
  • подходы теории приближенных множеств;
  • байесовские подходы;
  • информационно‐энтропийные подходы;
  • подходы к извлечению паттернов;
  • подходы теории контекстно‐свободных грамматик.

Для сбора и обработки слабоструктурированных данных из гетерогенных пространственно-распределённых источников может использоваться следующая схема [4]:

  1. Сбор сведений для формирования хранилища данных об инцидентах и ситуациях.
  2. Формирование онтологий предметных областей на базе смысловых взаимосвязей.
  3. Формирование коллективной онтологии.
  4. Объединение и извлечение значимых признаков инцидентов и ситуаций.
  5. Классификация инцидентов и ситуаций.
  6. Рассуждения о распознавании новых инцидентов и ситуаций.
  7. Измерение ситуационной осведомлённости.

Для формирования онтологий может использоваться метод на основе интерактивной информационной грануляции, состоящий из двух этапов: определение набора интерактивных вычислений в информационно-функциональном формате с применением облачных вычислений, интернета вещей и смарт-пространства; применение математического аппарата приближённых вычислений, позволяющего классифицировать примеры, использующие противоречивую или неполную информацию.

Для интеллектуального анализа данных могут применяться следующие методы:

  1. Метод агрегирования и извлечения знаний для классификации ситуаций. Его спецификой является использование методов теории приближённых множеств в сочетании с аппаратной технологией ускорения предварительных расчётов агрегирования атрибутов контекста ситуаций.
  2. Метод представления слабоструктурированных данных для коллективного формирования единой онтологии из распределённых репозиториев знаний о ситуациях. Его суть состоит в измерении сходства онтологий посредством меры контекстно-зависимой семантической схожести онтологий.
  3. Метод представления знаний на базе распределённой динамической дескрипционной логики.
  4. Метод интеллектуального анализа ситуаций с использованием распределённых рассуждений. Его суть заключается в формировании запроса к распределённой ситуационной базе знаний, которая обрабатывается сервисом планирования переключения контекста.

Одним из подходов к извлечению знаний из слабоструктурированных данных является распознавание именованных сущностей [5]. Этот подход включает две группы методов: методы на основе правил, требующие создания множества правил, состоящих из паттерна и действия, и статистические подходы к обучению, решающие задачу распознавания именованных сущностей как задачу маркировки последовательностей.

Другим походом к интеллектуальному анализу данных из слабоструктурированных источников является когнитивный подход, ориентированный на структуризацию знаний о слабоструктурированной системе для понимания основных процессов, протекающих в ней [6]. В рамках когнитивного подхода экспертные знания об исследуемой системе и происходящих в ней процессах описываются когнитивной моделью, допускающей формальное представление в виде когнитивной карты – причинно-следственной сети, отражающей субъективное представление исследователя о системе в виде множеств семантических категорий и причинно-следственных связей между ними.

Важным направлением в работе со слабоструктурированными данными является обработка естественного языка, представляющая собой область искусственного интеллекта, позволяющая машинам извлекать смыслы из человеческих языков [7]. Начальным этапом для обработки естественного языка является предварительная обработка данных, включающая следующие этапы:

  1. Токенизация. Представляет собой сегментацию текста на лексемы – предложения и слова, и исключение определённых символов.
  2. Удаление «стоп-слов». Предполагает избавление от общеязыковых формулировок, местоимений и предлогов, которые не представляют ценности для анализа.
  3. Стемминг и лематизация. Под стеммингом понимается удаление конца или начала слов для избавления от аффиксов с целью нахождения основ исходных слов, под лемматизацией – приведение слов к их базовой форме и группировка разных форм одного слова.

Для повышения качества извлекаемой информации из слабоструктурированных источников могут использоваться семантические сети, в которых сведения извлекаются при помощи смысловых единиц из лингвистической онтологии [8]. В общем виде семантическая сеть состоит из множества смысловых понятий или концептов, взаимосвязанных семантическими отношениями или связями [9]. Концепты и связи могут иметь характеризующие их свойства или атрибуты. Концепты, связи и атрибуты формируют структурный каркас семантической сети и могут иметь экземпляры, которые образуют информационный компонент семантической сети.

В настоящее время качество автоматической оценки семантической и тональной составляющей текстов на естественном языке является недостаточно высоким, вследствие чего процесс обработки подобных данных требует привлечения эксперта, и задача внедрения методов извлечения знаний сводится к сокращению его трудозатрат [10]. Частичная автоматизация процесса, а также использование результатов, полученных на предыдущих итерациях, может дать дополнительный прирост скорости при подготовке информации для принятия последующих решений.

Таким образом, интеллектуальный анализ данных позволяет ускорить процесс принятия решений в динамических организационных системах. Применение слабоструктурированных данных в моделях анализа может улучшить их качество, которое будет зависеть от способов их обработки. Для извлечения знаний из слабоструктурированных данных могут использоваться различные подходы и методы, для повышения эффективности которых требуется проведение предварительной обработки таких данных. Для дальнейшего повышения эффективности использования слабоструктурированных данных требуется разработка способов их улучшения, таких как автоматическое извлечение комплексных признаков, устранение неоднозначностей и прочих.

Список литературы

  1. Методы принятия управленческих решений: метод. рекомендации / сост. И.А. Кацко, Н.Б. Паклин, Е.В. Кремянская. – Краснодар: КубГАУ, 2021. – 62 с.
  2. Макарова Е.А. Обработка слабоструктурированных текстовых данных для использования в моделях анализа // Информационные и математические технологии в науке и управлении. – 2023. – № 1 (29). – С. 178-189. – DOI: 10.38028/Е81.2023.29.1.015
  3. Карташов О.О. Средства представления знаний и извлечения данных для интеллектуального анализа ситуаций / О.О. Карташов, М.А. Бутакова, А.В. Чернов, А.В. Костюков, Ю.И. Жарков // Инженерный вестник Дона. – 2018. – № 4 (51). – С. 164-200.
  4. Карташов О.О. Методы представления слабоструктурированных данных и извлечения знаний для интеллектуального анализа ситуаций: автореф. дис. … канд. техн. наук: 05.13.17 / Олег Олегович Карташов; Южный федер. ун-т. – Ростов-на-Дону, 2019. – 21 с.
  5. Молокович О.А. Подходы к извлечению информации из слабоструктурированных данных // Молодёжный Вестник УГАТУ. – 2021. – № 2 (25). – С. 64-66.
  6. Захарова А.А., Подвесовский А.Г., Исаев Р.А. Нечеткие когнитивные модели в управлении слабоструктурированными социально-экономическими системами // Информационные и математические технологии в науке и управлении. – 2020. – № 4 (20). – С. 5-23. – DOI: 10.38028/ESI.2020.20.4.001
  7. Косарева Е.В., Буйницкая Е.В. Применение методов интеллектуального анализа слабоструктурированных данных для поиска онлайн-курсов // Научные междисциплинарные исследования: сборник статей III Международной научно-практической конференции. – Саратов, 2020. – С. 26-30.
  8. Ночевной Д.С. Извлечение данных из текстов на естественном языке с помощью специального языка запросов и лингвистической онтологии // Цифровая экономика. – 2023. – № 2 (23). – С. 48-54.
  9. Клименков С.В. Применение семантической сети для хранения слабоструктурированных данных / С.В. Клименков, В.В. Николаев, А.Е. Харитонова, А.В. Гаврилов, А.Е. Письмак, А.В. Покид // Инженерный вестник Дона. – 2020. – № 2 (62). – С. 27-47.
  10. Макарова Е.А., Лагерев Д.Г. Модель обработки слабоструктурированных текстовых данных на русском языке для интеллектуальной поддержки информационного управления в динамических организационных системах // Модели, системы, сети в экономике, технике, природе и обществе. – 2022. – № 3. – С. 104-125. – DOI: 10.21685/2227-8486-2022-3-7