УДК 004

Подход к синтезу формальных предикатов из естественного языка на основе моделей с архитектурой трансформер

Проказин Михаил Русланович – аспирант Российского технологического университета МИРЭА.

Теремов Иван Алексеевич – аспирант Российского технологического университета МИРЭА.

Аннотация: Внедрение умных (SMART) стандартов не может быть выполнено без учета багажа существующих стандартов и нормативных документов, которые написаны на естественном языке и не являются умными. Прогресс в области машинного обучения открывает новые возможности для решения этой проблемы. Модели на основе архитектуры трансформер могут быть использованы для обработки естественных текстов. В статье рассмотрена возможность применения таких моделей для синтеза формальных предикатов, которые можно будет использовать для сопровождения интеграции умных стандартов с существующей нормативной базой. Обнаружены некоторые проблемы такого подхода.

Ключевые слова: SMART – стандарты, машинное обучение, цифровая трансформация, обработка естественных языков.

Утверждённый в 2023 году стандарт ПНСТ 864-2023 определяет SMART-стандарты следующим образом: “совокупность данных, содержащихся в документе по стандартизации, которая позволяет сделать его машинопонимаемым, то есть наряду с возможностью чтения человеком предоставляет возможность обработки и использования информационными и киберфизическими системами, минуя человека.” [1].

Умные стандарты и построенные на их базе сервисы позволяют эффективнее упорядочивать и каталогизировать информацию, а также автоматизировать применение нормативных требований. Внедрение SMART- стандартов сделает возможным превратить документ по стандартизации в рабочий цифровой инструмент, существенно повышающий производительность труда и снижающий количество ошибок [2].

Однако существует большой массив существующих нормативных документов, которые необходимо учитывать при разработке и внедрении умных стандартов. Единовременно заменить все существующие стандарты, спецификации, правовые акты и другие нормативные документы умными стандартами не представляется возможным [3]. Это поднимает вопрос о согласовании разрабатываемых и внедряемых SMART-стандартов с существующей нормативной базой.

Развитие больших языковых моделей на архитектуре трансформеров в последние годы происходит в очень высоком темпе. Будучи изначально задуманной как подход к преобразованию естественных языков (text-to-text), такая архитектура уже показала свою эффективность в множестве других задач машинного обучения и обработки данных в целом. В том числе, подобные модели всё более эффективно выполняют задачу синтеза формальных текстов на основе запроса на естественном языке (text-to-code).

Это позволяет предположить большие языковые модели на основе архитектуры трансформер в качестве базового инструмента для анализа согласованности умных стандартов с нормативными документами, написанными на естественном языке. Для этого необходимо разработать подход к обучению моделей синтезу формальных предикатов на основе естественного текста, чему и посвящена данная работа.

Эффективность архитектуры трансформер

Архитектура “трансформер” изначально предполагалась для задачи машинного перевода [4], за счёт отказа от рекуррентных и свёрточных слоев в сетях с энкодером и декодером, которые было принято применять в сетях с подобной архитектурой. Как видно из диаграммы на рисунке 1, и энкодер и декодер состоят из множества механизмов внимания связанных обычными полносвязными слоями [4].

Рисунок1

Рисунок 1. Иллюстрация архитектура модели трансформер [4]

Такая архитектура сети оказалась чрезвычайно эффективной не только для машинного перевода, но и для множества других проблем, таких как анализ согласованности текстов [5], классификация поисковых запросов [6], машинное зрение и многие другие.

Синтез формальных текстов программ в популярных моделях на основе архитектуры трансформер

Как показано во множестве публикаций, трансформеры эффективно выполняют синтез формальных текстов программ на основе запросов на естественном языке [7]. В большинстве работ анализируется возможность модели выполнить реализацию некоторого прикладного алгоритма, описанного текстом, а проверка выполняется с помощью выполнения тестов итогового кода. Один из самых популярных наборов данных для обучения моделей APPS [8] построен на основе задач для программистов на разных тренировочных платформах (CodeWars, LeetCode, и др.). Обычно разработчиками таких моделей используется следующая метрика – корректность работы сгенерированного моделью алгоритма на тестовых данных [8], т.е. при данном наборе входных параметров алгоритм должен вернуть данный результат.

Синтез формальных предикатов

Под формальным предикатом понимается последовательность на некотором формальном языке. Эта последовательность, в паре с последовательностью, описывающей некоторую сущностью, может быть передана на вход такому интерпретатору, который должен в результате считывания перейти в одно из двух состояний (истина или ложь). Тексты стандартов, кроме прочего, состоят из отображений формальных предикатов на естественный язык. Задача синтеза формальных предикатов по естественному тексту – в обратном отображении.

Процесс синтеза формальных предикатов можно рассмотреть на примере ГОСТ Р 7.0.97-2016. В данном стандарте содержится следующий пункт [9]: «3.4 Абзацный отступ текста документа – 1,25 см».

Этому пункту соответствует следующий формальный предикат: 

Screenshot 1

где x – абзацный отступ.

Нетрудно заметить, что задача синтеза формальных предикатов отличается от задачи генерации кода алгоритма. От модели, генерирующей код по запросу, требуется интерпретация сущности задачи, в то время как природа синтеза предикатов скорее похожа на задачу перевода из естественного языка в формальный.

Структура формальных предикатов

В контексте стоящей задачи сопровождения внедрения умных стандартов наиболее эффективным было бы использование такого формата предикатов, который совпадал бы или был близок к формату правил в умных стандартах. Однако в настоящий момент работа над этим форматом ещё ведётся [3]. 

Вместо этого можно использовать некоторый общий для подобных систем подход. Например, формальные предикаты встречаются в онтологических моделях [10], в базах знаний, системах программирования [11][12] и многих других системах. 

Метрика для обучения синтезу предикатов

В отличие от синтеза кода программ, выполнить проверку синтезированного предиката невозможно, так как в данный момент не существует достаточно большого набора данных, который сопоставлял бы естественный текст правил с наборами пар входов и выходов. 

Такой набор данных можно создать, например, опираясь на открытые исходные коды программ, использующих сопоставление с шаблоном, которое встречается повсеместно в современных языках программирования.

Идентификация сущностей синтезированных предикатов

Многообразие сущностей, описываемых различными существующими стандартами и нормативными документами, очень велика. Для работы умных стандартов необходимо иметь механизм сопоставления сущностей, которые описываются разными стандартами. Рабочие группы занимаются этой проблемой на разных уровнях: разработкой универсальных классификаторов и систем глобальной идентификации [3][13].

Для применения системы глобальной идентификации в модели, занимающейся синтезом формальных предикатов, необходимо чтобы существовал достаточно большой набор данных, который можно было бы использовать при обучении. Сформировать такой набор данных можно только на основании имеющихся SMART-стандартов. В условиях отсутствия набора данных, сопоставление сущностей-параметров синтезированного предиката с сущностями описанными другими стандартами может выполнить только человек.

Вывод

Возможность использования систем машинного обучения на основе архитектуры трансформеров для синтеза формальных предикатов, в разрезе внедрения и эксплуатации умных контрактов зависит от решения ряда проблем:

  • отсутствие стандарта, описывающего формальную структуру предикатов;
  • сложность построения эффективной метрики;
  • сложность идентификации и сопоставления сущностей синтезированных предикатов с описываемыми умными стандартами.

Решение этих проблем возможно с использованием современных средств, благодаря последним исследованиям в области технологий машинного обучения. Следует понимать, что решение всех означенных проблем не сделает синтез формальных предикатов на основе естественного языка заменой умных стандартов, и может рассматриваться только как один из инструментов поддержки внедрения умных стандартов.

Синтез формальных предикатов на основе естественного текста, с целью прикладного использования долгое был затруднен, но последние открытия, в особенности архитектуры трансформеров, а также практический опыт, наработанный в этой области, позволяет снова обратиться к данной задаче.

Список литературы

  1. ПРЕДВАРИТЕЛЬНЫЙ НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ "УМНЫЕ (SMART) СТАНДАРТЫ. Общие положения" от 01.02.2024 № 864-2023 // Росстандарт. – 2023.
  2. Денисова, О. А. Стандарт на SMART-стандарт: документ в деталях / О. А. Денисова, С. Ю. Дмитриева // Стандарты и качество. – 2023. – № 10. – С. 44-48. – EDN AREAND.
  3. Дмитриева, С. Ю. Основные принципы разработки умных (SMART) стандартов / С. Ю. Дмитриева // Стандарты и качество. – 2021. – № 12. – С. 22-25. – EDN ZCETUT.
  4. Attention Is All You Need [Текст]: Сборник материалов конференции Neural Information Processing Systems, Long Beach CA, 4- 9 декабря 2017, Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin - с. 5998-6008.
  5. Салып, Б. Ю. Анализ модели BERT как инструмента определения меры смысловой близости предложений естественного языка / Б. Ю. Салып, А. А. Смирнов // StudNet. – 2022. – Т. 5, № 5. – С. 33. – EDN TDRZZC.
  6. Краснов, Ф. В. Использование языковых моделей на основании архитектуры трансформеров для понимания поисковых запросов на электронных торговых площадках / Ф. В. Краснов // International Journal of Open Information Technologies. – 2023. – Т. 11, № 9. – С. 33-40. – EDN YJMLDT.
  7. Arutyunov, G. A. Big Transformers for Code Generation / G. A. Arutyunov, S. M. Avdoshin // Proceedings of the Institute for System Programming of the RAS. – 2022. – Vol. 34, No. 4. – P. 79-88. – DOI 10.15514/ISPRAS-2022-34(4)-6. – EDN SKLCPR.
  8. Measuring Coding Challenge Competence With APPS / Hendrycks, D., Basart, S., Kadavath, S., Mazeika, M., Arora, A., Guo, E., Burns, C., Puranik, S., He, H., Song, D.X., Steinhardt, J. // ArXiv. – 2021. – Vol. abs/2105.09938.
  9. ГОСТ Р 7.0.97-2016. Система стандартов по информации, библиотечному и издательскому делу. Организационно-распорядительная документация. Требования к оформлению документов : дата введения 2011–01–01 // СПС «КонсультантПлюс» (дата обращения: 08.12.2016).
  10. OWL Web Ontology Language Semantics and Abstract Syntax // W3C URL: https://www.w3.org/TR/owl-semantics/ (дата обращения: 12.12.2023).
  11. Ed-Dbali, A.; Deransart, Pierre; Cervoni, L. (1996). Prolog: the standard: reference manual. Berlin: Springer. ISBN 978-3-540-59304-1.
  12. Pattern matching // Microsoft URL: https://learn.microsoft.com/en-us/dotnet/csharp/language-reference/operators/patterns (дата обращения: 10.12.2023).
  13. Vyas Y., Ballesteros M. Linking Entities to Unseen Knowledge Bases with Arbitrary Schemas / Vyas Y., Ballesteros M. // ArXiv. – 2020. – Vol. abs/2010.11333.