УДК 006

Проблематика представления сущностей в универсальных классификаторах и технических словарях

Теремов Иван Алексеевич – аспирант Российского технологического университета МИРЭА.

Проказин Михаил Русланович – аспирант Российского технологического университета МИРЭА.

Аннотация. В статье рассматривается класс систем универсальной классификации сущностей и технических словарей в области разработки машиночитаемых стандартов в сфере промышленности и информационных технологий. Поднимаются проблематика существующих ограничений в системах подобного класса, а также их возможные последствия в будущем.

Ключевые слова: машиночитаемый стандарт, классификация, открытый технический словарь.

Введение

Данная статья посвящена существующим проблемам в известных реализациях классификаторов терминов и сущностей в нормативной и проектной документации в области промышленности и информационных технологий. Под нормативной документацией подразумевается свод федеральных законов, государственных стандартов (ГОСТ), принятых регуляционных правовых актов, а также прочих документов, которые направлены на регулирование соответствующей сферы деятельности.

В настоящий момент отрасль информационных технологий регулируется большим количеством нормативной и стандартизирующей документации, причем зачастую в данной документации продолжают существовать множественные противоречия, переопределения, неоднозначности, что вызывает существенное количество спорных ситуаций при изготовлении различных промышленных и/или интеллектуальных продуктов, трудности с определением набора стандартов, которым данные продукты должны соответствовать [1]. Вышеуказанные проблемы во многом возникают из-за флуктуаций тенденций и государственной политики, направленной на данную сферу – за последние два десятилетия политика государства изменилась на противоположную – от повсеместного внедрения решений и практик, распространенных по всему миру, до полной автономности и самостоятельности. Подобный ортогональный разворот приводит к снижению логической связности в нормативном поле, зачастую также ухудшая динамику производственного цикла продукции, снижая ее качественные характеристики, что в свою очередь ведет к несостоятельности всей отрасли и ее существенного отставания от соответствующих отраслей в других государствах.

Помимо этого, также часто фигурирует утилитарная проблема классификации и каталогизации сущностей и наработок, элементной базы, на основе которой функционирует та или иная отрасль рассматриваемой индустрии. Для решения данной проблемы производятся попытки разработки и внедрения классификаторов, которые призваны упорядочить существующие наработки, терминологию, описание процессов, разработанные под отрасль стандарты и элементную базу [2].

Некоторые существующие решения для классификации

На данный момент существует достаточное количество систем различного класса, направленных на иерархическое представление и упорядочивание сущностей [1][3]. В данном случае под сущностями подразумевается некий атомарный концепт, операция, свойство из реального мира.

ECCMAeOTD – реализация открытого технического словаря (Open Technical Dictionary) по стандарту ISO 22745 от ассоциации ECCMA. Представляет собой реестр различных концептов, которые описывают различные составные части механизмов, изделий, операций. Каждая отдельная сущность обладает уникальным сквозным идентификатором, общим названием на английском языке, кратким описанием на одном из нескольких поддерживаемых языках (английский, русский, французский, немецкий и др.).

NCS (NATO Codification System) – единая система кодификации и каталогизации разнообразных изделий и компонент, которая предназначена для вооруженных сил стран блока НАТО. Система предназначена для обширнейшего пласта компаний подрядчиков и субподрядчиков – производителей и поставщиков готовой продукции. По различным оценкам, на разработку системы на сегодняшний момент вложено более 5000 человеко-лет разработки, что говорит о ее колоссальной практической сложности [4].

Ограничения в существующих классификаторах

При детальном рассмотрении вышеуказанных классификаторов были выявлены некоторые характерные для подобных систем ограничения, которые скорее всего возникли из-за отсутствия технологической зрелости подобных продуктов.

Детализация составных сущностей и процессов

В первую очередь, при анализе функционала обнаруживается несовершенство представления агрегированных сущностей, которые подразумевают композицию из более простых, атомарных сущностей и концептов. Например, концепт подшипника качения как правило подразумевает сборку из нескольких отдельных деталей – двух и более несущих колец, тел качения – шарики или ролики – в зависимости от конструкции, сепаратора. Несмотря на то, что, как правило, применение подшипников подразумевается в качестве неразъемной детали, при описании детализированных производственных процессов полного цикла, наличие описания зависимостей/связей между компонентами изделия может быть необходимо. Дополнительно, можно выделить необходимость подобных связей, например, в CAE-системах – наличие подобных композирующих связей позволит выполнять полноценное моделирование всей сложной системы с максимальной детализацией, что впоследствии может позволить выделить ранее не видимые скрытые критические точки системы.

Более детально раскрывая проблему иерархических и композиционных связей, можно также упомянуть о необходимости классификации качества связи – проблема формализации интерфейса. В качестве примера можно рассмотреть пластиковую бутыль, которая состоит из самой емкости и пробки. В данном случае, качество связи может быть описано соответствующим стандартом винтовой резьбы, либо иного типа разъемного соединения. Тоже актуально, например, для изделий микроэлектроники – те или иные взаимодействия между различными функциональными блоками обычно происходят через интерфейсные соединения, шинами, протоколами. Наличие подобных качественных соединений позволит описывать сложные концепты, не теряя знаний о функциональности и качестве связей между их составными сущностями, в дальнейшем также обеспечивая пользователя классификатора возможностью оценить универсализацию того или иного концепта относительно категории стандартов.

Проблема дублирования сущностей и качеств

За счет колоссального перечня оперируемых сущностей, а также несовершенства поисковых механизмов, несовершенства либо отсутствия механизмов дедубликации сущностей или качеств, характеризующих одну физическую единицу или имеющий одинаковый смысл, возникает проблема множественных синонимичных сущностей. Применение данных, дублирующих друг друга сущностей, потенциально может приводить к запутыванию и неоднозначности опирающихся на данные элементы производных концептов.

Проблема межотраслевой интероперабельности сущностей

В процессе изучения системы eOTD было обнаружено несколько схожих по смыслу категорий сущностей, в общем случае определяющих один и тот же физический концепт, но используемых в различных отраслях. В качестве примера можно привести описания полировочных компаундов (см. рис 1).

t 1

Рисунок 1. Пример синонимичных концептов

Как видно из рисунка, обе записи описывают один и тот же класс веществ, но первая относится к области медицины, а вторая претендует на универсальность. В данном случае, обе сущности имеют право на существование, однако, можно привести дополнительный пример – нитратные соли – в области агротехники они скорее всего будут фигурировать как удобрения, а в области пищевой промышленности – как пищевые добавки, де-факто отличаясь между собой только степенями очистки и/или формой выпуска.

Проблема владельца классификатора

Одной из неочевидных, но критически важных проблем в существующих классификаторах является проблема единственного владельца системы. В зависимости от интересов владельца, единственный владелец обладает возможностями по лоббированию своих наработок, изделий, концептов. Также это потенциально может влиять на скорость и объективность модерации при добавлении новый либо изменении существующих концептов в реестрах. Решение подобных проблем скорее всего заключается в смене протокола взаимодействия между пользователями с централизованного на децентрализованный.

Сложность наполнения классификатора

Как было отмечено ранее на примере NCS, системы, ставящие перед собой задачу поддерживать «теорию всего» даже в одной отрасли деятельности, будут обладать чудовищной сложностью. В особенности ресурсоемким является заполнение подобных систем исходными данными. В данном случае, необходимо реализовывать достаточно сложные механизмы автоматизации данного процесса. Самым очевидным решением на сегодняшний день является применение языковых мультимодальных языковых моделей, способных воспринимать нормативную документацию и понятные человеку принципы, и упорядочивать их в машиночитаемое представление в классификаторе. На данный момент практических реализаций таких вспомогательных систем обнаружить не удалось.

Отсутствие интеграции с существующими узкоспециализированными классификаторами

На сегодняшний день, существует множество узкоспециализированных классификаторов, относящихся к одной предметной области. Например, для химических соединений реализовано множество детализированных реестров, со значительным заполнением, таких как CAS, РubChem или EINECS. Данные реестры качественно решают свою узкую задачу, и могут быть использованы в качестве дополнительных ссылочных справочников в универсальных классификаторах. Подобная интеграция позволит в некоторых переиспользовать уже функционирующие базы знаний в узких предметных областях, исключая необходимость аккумулировать уже каталогизированные знания в единый композит.

Отсутствие характера актуализации

В меру того, что с течением многие технологические решения и концепты теряют свою актуальность, заменяются более современными и совершенными аналогами, в классификаторах и технических словарях имеет смысл дополнять сущности статусом индустриальной актуальности. С другой стороны, некоторые свежие решения, обладающие значимыми преимуществами по сравнению с наработками с многолетним опытом эксплуатации, могут скрывать в себе различные неизученные опасности, связанные с недостаточным опытом обкатки в реальных проектах и системах. Реализация подобных атрибутов позволит эксплуатирующим классификатор пользователям или системам ориентироваться в уровнях жизненного цикла, избегая небезопасных либо устаревших концептах или решениях.

Выводы

Рассмотренные в данной статье аспекты, связанные с некоторой ограниченностью существующих решений, могут оказать влияние на развитие и становление цифровой трансформации. Разработчикам стандартов классификации и реализующих их систем следует исследовать производимые продукты на наличие в них концептуальных ограничений и принимать меры к их устранению. Несовершенство продуктов подобного класса в будущем может привести к существенному замедлению распространения цифровой трансформации и интеграции отрасли промышленности и информационных технологий.

Список литературы

  1. Андриченко, А. Кросс-отраслевая кооперация промышленных предприятий на основе методологии открытых технических словарей, интегрированных с системами класса MDM / А. Андриченко // САПР и графика. – 2022. – № 3(305). – С. 24-29. – EDN GBJSTN.
  2. Головин, С. А. Организация работ в области международной и межгосударственной стандартизации в сфере информационных технологий / С. А. Головин // Вестник Московского государственного технического университета им. Н.Э. Баумана. Серия Приборостроение. – 2011. – № S. – С. 11-17. – EDN OJFICL.
  3. Колмыков, Е. А. Предложения по структуре построения и идентификации содержания при переходе к smart-стандартам / Е. А. Колмыков, Ю. В. Воронцова, А. Н. Воронцова // Стандарты и качество. – 2022. – № 6. – С. 42-45. – EDN HUDWPG.
  4. The NATO Codification System: Improving Data Quality through ISO Standards 22745 and 8000 // MIT URL: https://www.proceedings.com/content/013/013571webtoc.pdf (дата обращения: 16.12.2023).

Интересная статья? Поделись ей с другими: