УДК.004.89

Большие языковые модели и их особенности

Колосова Елизавета Николаевна – студент магистратуры факультета «Естественнонаучный» Балтийского государственного технического университета «Военмех» им. Д.Ф. Устинова

Аннотация: В статье представлен обзор актуальных возможностей самых популярных больших языковых моделей (LLM), в том числе особенностям механизма их работы, стадий процесса, метода обучения, прикладного использования, а также имеющегося технического потенциала для их усовершенствования посредством сторонних инструментов. Особое внимание в статье уделяется возможностям улучшить степень обработки естественного языка при помощи GPT-плагинов. Приводится небольшой обзор на самые современные плагины для Chat-GPT, а также подчеркивается необходимость большей интеграции лингвистических дисциплин таких как стилистика, дискурс-анализ, синтактика и др. с целью достижения наилучшего пользовательского опыта.

Ключевые слова: большие языковые модели, виртуальный собеседник, GPT-плагины, GPT-чат, чат-боты с элементами искусственного интеллекта.

Определить большие языковые данные (далее – LLM) можно как тип искусственного интеллекта, который имитирует работу интеллекта человека. В основе процесса их работы лежит использование передовых статистических моделей и методов глубокого обучения с целью обработки и понимания огромных объемов текстовых данных [1]. LLM изучают сложные закономерности и взаимосвязи, присутствующие в данных, что позволяет им генерировать новый контент с имитацией стилистических особенности языковой личности автора или заданного жанра [2]. В настоящее время этот вариант искусственного интеллекта лежит в основе чат-ботов, которые набирают беспрецедентную популярность в различных сферах, как в развлекательной индустрии, так и в медицине, образовании, финансовой аналитике. Такая успешная интеграция искусственного интеллекта в нашу повседневную жизнь обусловлена не только частными причинами, но и более широким, философским взглядом современной науки на предмет, который заключается в тесном взаимодействии двух научных дисциплин – программирования и лингвистики. Благодаря этому мы получили такую форму искусственного интеллекта, которая способна улавливать статистические закономерности и лингвистические нюансы, присутствующие в обучающих данных.

Основной принцип работы больших языковых моделей, как правило, можно разделить на пять этапов. В начале, на этапе предварительного обучения, языковая модель изучает солидный объем текстов из различных источников, и, поскольку обучение проходит по типу «без учителя», она учится предсказывать следующее слово в предложении основываясь на контексте предыдущих слов. Благодаря этому удается развить у модели понимание грамматики, синтаксиса и семантических отношений [3]. Как правило, информационные источники, которые задействованы в начале процесса предварительного обучения, для понимания делят на две категории: общие данные и специализированные данные. После сбора огромного количества текстовых данных проводится их предварительная обработка, чтобы затем создать предтренировочный корпус путем удаления некачественного, избыточного или потенциально опасного материала. На втором этапе идет фильтрация с последующим удалением некачественных и нежелательных данных из тренировочного корпуса при помощи языковой или статистической фильтрации, а также фильтрации по ключевым словам [4]. Согласно современным исследованиям, дупликаты в корпусе уменьшает разнообразие языковой модели, что дестабилизирует процесс обучения и, следовательно, влияет на производительность модели. Чтобы этого избежать, производится исключение избыточных данных. Далее необходимо решить вопросы, связанные с использованием веб-данных для предварительного обучения языковых моделей, поскольку такие данные часто включают пользовательский контент, содержащий конфиденциальную или личную информацию, что влечет за собой потенциальное нарушение конфиденциальности [5]. Завершается процесс обработки данных разделением (токенизацией) необработанного текста на последовательности отдельных сегментов, которые затем передаются в LLM.

После предварительного обучения модель обучается конкретной задаче или работе в специфической области. На этом этапе модели предоставляют размеченные примеры для последующей генерации ею более точных и контекстуально верных ответов на задачу-адресата [3]. Точная настройка позволяет модели использоваться в приложениях, осуществляющих перевод с иностранных языков, чаты «вопрос-ответ» или генерацию текста.

Таким образом, именно за счет обработки и анализа больших объемов текста языковые модели учатся понимать язык на более сложных уровнях, генерируя логически связные ответы для конкретной когнитивной задачи. На этапе вывода при взаимодействии с LLM пользователь вводит промт или запрос. Модель обрабатывает входные данные и генерирует ответ на основе полученных знаний и имеющегося контекста. Следовательно, необходимо осознавать лингвистические критерии формулировки запроса или промта, поскольку от этого будет зависеть и ответ языковой модели.

Несомненно, благодаря своему потенциалу развития ChatGPT является самой популярной во всем мире языковой моделью. При условии развития его искусственного интеллекта, станет возможным его активное внедрение в работу здравоохранения. На данный момент уже существуют подобные примеры: языковая модель XrayGPT, которая умеет анализировать вопросы открытого типа, заданные пациентом о результатах своей рентгенограммы, а также давать на них ответы [6].

Расширить возможности понимания искусственным интеллектом естественного языка могут GPT-плагины – это новейший способ взаимодействия с ChatGPT, значительно расширяющий его функционал, а именно позволяющий разработчикам создавать собственные приложения, открывающие для пользователей новые функции, с возможностью их интеграции в ChatGPT. Подобные плагины можно применять тогда, когда необходимо получить доступ к внешним источникам данных, автоматизировать задачи, а также для улучшения пользовательского опыта [7].

В эру активного использования ChatGPT и появления различных плагинов стоит особенно выделить плагины OpenAI, с внедрением которых ChatGPT смог взаимодействовать со сторонними источниками данных и базами знаний. На момент написания статьи OpenAI еще не предоставил всем разработчикам доступ к разработке плагинов, однако уже известно несколько случаев использования, например, Expedia, FiscalNote, Instacart, KAYAK, Klarna, Milo, OpenTable, и т.д. Плагины полностью реализовали потенциал ChatGPT в рамках составления и выполнения таких непростых задач, как анализ эмоциональной окраски высказываний для любых источников в Интернете. Кроме того, работа с данными плагинами позволяет получить ответы на запросы на базе обновленной информации из Интернета, которая прежде могла отсутствовать в наборе данных для его обучения, таким образом, повышая достоверность ответов.

Широкие возможности и огромное пространство для маневров разработчиков являются примечательной характеристикой работы с плагинами, поэтому возрастает внимание к их разработке. Помимо вышеупомянутых ранних разработчиков, OpenAI уже предоставила три плагина: web-browser плагин, Code Interpreter и плагин поиска с подключением к базе знаний. Первый открывает ChatGPT доступ к Интернету для сбора информации, которую он может использовать для ответа на запрос, поданный ему пользователем. Этот плагин позволяет ChatGPT обойти ограничение по времени из-за недостаточности своих данных для обучения, и использовать самую актуальную информацию в Интернете через Bing Search API и текстовый веб-браузер.

Code Interpreter, в свою очередь, позволяет запускать код Python прямо в интерфейсе чат-бота, с возможностью его использования для выполнения логических вычислений, а также для написания кода. Интерпретатор умеет понимать языковую модель описания проблемы на человеческих языках и в дальнейшем использовать его в качестве входных данных для разработки кода Python для решения задачи.

Третий плагин поиска с подключением к базе знаний также имеет открытый исходный код, что позволяет ChatGPT получить доступ к данным, а затем выполнять сбор из этих данных необходимой, актуальной информации, при этом запросы подаются на простом человеческом языке. Технологически, данный плагин может работать со встроенными элементами OpenAI, а также с набором баз данных для индексирования или поиска в документах.

Наконец, существует возможность использования сторонних плагинов. Представленный в Таблице 1 список на данный момент не является исчерпывающим, поскольку число сторонних плагинов уверенно растет, ведь каждый разработчик заинтересован в выполнения задач, специфичных для своей конкретной работы.

Таблица 1. Самые используемые GPT-плагины.

Название	Функционал
Language Translation	Перевод языков
Sentiment Analysis	Анализ эмоциональной окраски высказываний
Spell Checker	Проверка правописания и исправление ошибок
Speech Recognition	Понимание и расшифровка речи из звукового материала
Emotion Detection	Распознавание эмоций в текстовом или звуковом материале
Question-Answering	Генерация ответов на запросы пользователей
Knowledge Graph	Предоставление информации из баз данных

В настоящее время интерес представляют новые техники управления поведением больших языковых моделей с целью получения желаемого пользователем результата без обновления самих моделей – так называемый «промт инжиниринг».

Несмотря на то, что формальное определение пока не было сформулировано, данное направление перспективно занимается разработкой и стилевой формулировкой промтов, предоставляемых большим языковым моделям, с целью получения пользователем желаемого ответа. Основным критерием повышения эффективности от работы с большими языковыми моделями является корректная формулировка запроса – промта.

Существуют также и некоторые формальные методы, такие как явные инструкции (предоставление LLM четкого указания что-либо сделать), специфичная системе инструкция (задание вопроса от LLM для ответа), форматирование с примером (предоставление образца вопроса и ответа на него и задание LLM для предоставления ответа таким же образом), управляющие маркеры (использование специальных ключевых слов в промте с тем, чтобы помочь LLM предоставить ответ с учетом предоставленных критериев).

Промт-инженеры изучают и разрабатывают различные лингвистические паттерны (модели) взаимодействия человека и искусственного интеллекта, которые помогают пользователям эффективнее пользоваться чат-ботом. В данном процессе важно осознавать роль лингвистики, в особенности синтаксиса, стилистики и лексикологии. Стилистика, наряду с понимаем экстралингвистических проблем, задействуется на начальном этапе, когда необходимо определить роль, сделав первый запрос. Правильно сформулированный запрос, например, «выступи в роли опытного адвоката» заставит языковую модель выполнять задачи как это сделал бы человек, владеющий соответствующими компетенциями. О стилистических особенностях необходимо помнить также в случае так называемых «объясняющих» промтов, например, запросы такого рода: «объясни принципы теории вероятности так, будто мне семь лет».

Поскольку сфера применения больших языковых моделей только расширяется, в дальнейшем необходимо сосредоточить научные исследования на повышении точности и производительности данных моделей, работе с их ограничениями и изучении потенциальных способов их применения.

Список литературы

Dergaa, K. Chamari, P. Zmijewski, and H. B. Saad, “From human writing to artificial intelligence generated text: examining the prospects and potential threats of chatgpt in academic writing,” Biology of Sport, vol. 40, no. 2, pp. 615–622, 2023. 69
Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. d. L. Casas, L. A. Hendricks, J. Welbl, A. Clark, et al., “Training compute-optimal large language models,” arXiv preprint arXiv:2203.15556, 2022.
S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher, “Ctrl: A conditional transformer language model for controllable generation,” arXiv preprint arXiv:1909.05858, 2019.
W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young, et al., “Scaling language models: Methods, analysis & insights from training gopher,” arXiv preprint arXiv:2112.11446, 2021.
Carlini, D. Ippolito, M. Jagielski, K. Lee, F. Tramer, and C. Zhang, “Quantifying memorization across neural language models,” arXiv preprint arXiv:2202.07646, 2022.
Thawkar, A. Shaker, S. Mullappilly, et al., “XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models” URL: https://doi.org/10.48550/arXiv.2306.07971 (дата обращения 31.10.2023)
Xu, Y. Xu, S. Wang, Y. Liu, C. Zhu, and J. McAuley, “Small models are valuable plug-ins for large language models,” arXiv preprint arXiv:2305.08848, 2023.

Интересная статья? Поделись ей с другими: