УДК 004

Особенности применения методов валидации данных при интеграции программных систем

Бельды Анастасия Викторовна – магистрант Балтийского государственного технического университета «Военмех» им. Д. Ф. Устинова.

Аннотация: В статье рассматривается вопрос особенностей применения методов валидации данных при интеграции программных систем. Интеграция программных и информационных систем применяется в различных областях, и для корректной работы систем после интеграции необходимо обеспечивать согласованность данных. Существует множество государственных стандартов по интеграции систем, однако, они являются слишком общими или относятся к бизнес-процессам, а не к данным. Для корректного выбора используемых методов валидации данных необходимо учитывать метод их получения. В статье были выделены основные методы валидации, основные методы получения данных, и для каждого из указанных методов были определены особенности применения методов валидации.

Ключевые слова: интеграция программных систем, методы получения данных, методы валидации данных, алгоритмы компьютерного зрения, рекомендации по использованию методов валидации, импорт данных.

В современном мире тяжело представить себе сферу деятельности, которую не затронули бы информационные технологии. Количество информационных и программных систем, обеспечивающих обработку и хранение данных, постоянно увеличивается, как и количество интеграций между ними. Интеграция всевозможных систем, создание «супер» сервисов и приложений стали трендом последних лет. Однако при их объединении возникает необходимость обеспечить согласованность данных, так как от этого порой зависит не только пользовательский опыт использования системы, но и её работоспособность. Для обеспечения согласованности используются различные методы валидации данных, которые будут рассмотрены в данной статье. Для более комплексного рассмотрения процесса валидации необходимо также рассмотреть методы получения данных, так как от этого может сильно зависеть результат валидации.

Существует множество стандартов, так или иначе связанных с интеграцией систем, но по результатам их анализа было выявлено, что они либо слишком «общие», либо относятся к специфичной предметной области, либо описывают интеграцию бизнес-процессов, а не программных систем с точки зрения разработчика.

Были выделены 7 основных методов валидации, такие как:

  1. Валидация типов данных, которая отвечает за проверку, что отдельное данное удовлетворяет требованиям его типа.
  2. Валидация ограничений, которая отвечает за проверку соответствия данных наложенным ограничениям бизнес-процессов.
  3. Валидация согласованности данных, которая отвечает за непротиворечивость данных в рамках одного набора данных.
  4. Валидация данных по словарю, которая отвечает за соответствие данного какому-либо значению из словаря.
  5. Структурная валидация документов, которая отвечает, что характерные свойства для того или иного документа были найдены.
  6. Валидация орфографии и грамматики.
  7. Валидация подлинности и целостности документов, которая отвечает не сколько за содержимое документов, сколько за степень доверия к ним.

Для корректного анализа методов валидации необходимо учитывать тип источника данных, так как разные методы их получения имеют свои особенности.

Первый рассмотренный метод – это ввод данных оператором. В силу человеческого фактора, основные проблемы связаны с намеренными и ненамеренными ошибками. К примеру, опечатками, использованием недопустимых сокращений и аббревиатур, а также с незнанием пользователя или отсутствием инструкций «как заполнить документ». Стоит отметить, валидация согласованности данных возможна только в том случае, когда одно данное может «помочь» провалидировать другое. Например, если указано данное «Отчество», по окончанию можно провалидировать данное «Пол». Валидация по словарю, как и валидация орфографии и грамматики должна использоваться только в том случае, когда это не противоречит бизнес-логике (например, использование аббревиатур или сокращений).

Второй метод – распознавание рукописного и машинного текста. Несмотря на разные типы текста, имеют общие проблемы, связанные с качеством исходного изображения, необходимостью выделения характерных признаков на документах и сильной зависимости от программной реализации. Также в данном методе важно учитывать, «откуда появился документ», и если он заполнялся оператором, то необходимо учитывать проблемы первого метода. В данном методе нужно учитывать программную реализацию алгоритмов распознавания, а валидацию целостности желательно проводить в тех случаях, когда результат распознавания может быть использован в корыстных целях. Важно отметить, что структурная валидация проводится визуально (при помощи программных средств).

Третий метод – извлечение данных из электронных документов, под которым понимается извлечение в необработанном виде, например, из PDF файла, используя знание внутреннего строения формата PDF. В данном методе, помимо необходимости учета «откуда появился документ», нужно также проводить проверку наличия характерных признаков для того или иного формата. В данном методе особенности во многом совпадают с предыдущими методом, за исключением методов структурной валидации, которая выполняется на основании внутреннего представления документа.

Четвертый метод: извлечение обработанных данных из электронных документов, который подразумевает импорт данных из, например, таблиц или файлов-выгрузок. В данном случае проблемы могут возникнуть как с источником табличных данных, так и с внутренним форматом документа. В данном методе особое внимание нужно обращать на кодировку файлов, а также на используемые разделители.

Пятый метод: импорт данных из информационной системы по своей сути очень похож на предыдущий, за исключением того, что как правило данный процесс автоматизирован. Потенциальная проблема в данном методе заключается в определении алгоритма выбора более «правильных» данных, в случае если часть получаемых данных уже есть в системе. При импорте данных из информационной системы необходимо определить степень доверия к источнику по каждому из данных, и в зависимости от этого принимать или отвергать такие данные. В контексте данного метода под валидацией целостности понимается гарантия целостности доставки данных.

Таким образом, при интеграции программных систем необходимо учитывать не только бизнес-логику и цели интеграции, но и вид данных и источник этого данного. Этого можно достичь при интеграции полностью подконтрольных систем. В противном случае, когда архитектура одной из систем неизвестна, рекомендуется использовать максимальное число методов валидации для достижения лучшего результата интеграции.

Список литературы

  1. Проектирование информационных систем : учебник и практикум для вузов / под общей редакцией Д. В. Чистова. – Москва : Издательство Юрайт, 2022. – 258 с.
  2. ГОСТ 34.003-90. Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения. [Электронный ресурс] – URL: https://docs.cntd.ru/document/1200006979 (дата обращения 10.12.2022).
  3. ISO 7498: 1996, Information processing systems – Open Systems Interconnection – Basic Reference Mode. [Электронный ресурс] - URL: https://www.ecma-international.org/wp-content/uploads/s020269e.pdf (дата обращения 20.12.2022).
  4. Синхронизация систем: Планирование и процедуры. [Электронный ресурс] – URL: https://www.ibm.com/docs/ru/i/7.1?topic=system-synchronization-planning-procedures (дата обращения: 25.12.2022).
  5. Третьяк, Л. Н. Основы теории и практики обработки экспериментальных данных : учебное пособие для вузов / Л. Н. Третьяк, А. Л. Воробьев ; под общей редакцией Л. Н. Третьяк. – 2-е изд., испр. и доп. – Москва : Издательство Юрайт, 2022. – 237 с.

Интересная статья? Поделись ей с другими: