УДК.004.89
Большие языковые модели и их особенности
Колосова Елизавета Николаевна – студент магистратуры факультета «Естественнонаучный» Балтийского государственного технического университета «Военмех» им. Д.Ф. Устинова
Аннотация: В статье представлен обзор актуальных возможностей самых популярных больших языковых моделей (LLM), в том числе особенностям механизма их работы, стадий процесса, метода обучения, прикладного использования, а также имеющегося технического потенциала для их усовершенствования посредством сторонних инструментов. Особое внимание в статье уделяется возможностям улучшить степень обработки естественного языка при помощи GPT-плагинов. Приводится небольшой обзор на самые современные плагины для Chat-GPT, а также подчеркивается необходимость большей интеграции лингвистических дисциплин таких как стилистика, дискурс-анализ, синтактика и др. с целью достижения наилучшего пользовательского опыта.
Ключевые слова: большие языковые модели, виртуальный собеседник, GPT-плагины, GPT-чат, чат-боты с элементами искусственного интеллекта.
Определить большие языковые данные (далее – LLM) можно как тип искусственного интеллекта, который имитирует работу интеллекта человека. В основе процесса их работы лежит использование передовых статистических моделей и методов глубокого обучения с целью обработки и понимания огромных объемов текстовых данных [1]. LLM изучают сложные закономерности и взаимосвязи, присутствующие в данных, что позволяет им генерировать новый контент с имитацией стилистических особенности языковой личности автора или заданного жанра [2]. В настоящее время этот вариант искусственного интеллекта лежит в основе чат-ботов, которые набирают беспрецедентную популярность в различных сферах, как в развлекательной индустрии, так и в медицине, образовании, финансовой аналитике. Такая успешная интеграция искусственного интеллекта в нашу повседневную жизнь обусловлена не только частными причинами, но и более широким, философским взглядом современной науки на предмет, который заключается в тесном взаимодействии двух научных дисциплин – программирования и лингвистики. Благодаря этому мы получили такую форму искусственного интеллекта, которая способна улавливать статистические закономерности и лингвистические нюансы, присутствующие в обучающих данных.
Основной принцип работы больших языковых моделей, как правило, можно разделить на пять этапов. В начале, на этапе предварительного обучения, языковая модель изучает солидный объем текстов из различных источников, и, поскольку обучение проходит по типу «без учителя», она учится предсказывать следующее слово в предложении основываясь на контексте предыдущих слов. Благодаря этому удается развить у модели понимание грамматики, синтаксиса и семантических отношений [3]. Как правило, информационные источники, которые задействованы в начале процесса предварительного обучения, для понимания делят на две категории: общие данные и специализированные данные. После сбора огромного количества текстовых данных проводится их предварительная обработка, чтобы затем создать предтренировочный корпус путем удаления некачественного, избыточного или потенциально опасного материала. На втором этапе идет фильтрация с последующим удалением некачественных и нежелательных данных из тренировочного корпуса при помощи языковой или статистической фильтрации, а также фильтрации по ключевым словам [4]. Согласно современным исследованиям, дупликаты в корпусе уменьшает разнообразие языковой модели, что дестабилизирует процесс обучения и, следовательно, влияет на производительность модели. Чтобы этого избежать, производится исключение избыточных данных. Далее необходимо решить вопросы, связанные с использованием веб-данных для предварительного обучения языковых моделей, поскольку такие данные часто включают пользовательский контент, содержащий конфиденциальную или личную информацию, что влечет за собой потенциальное нарушение конфиденциальности [5]. Завершается процесс обработки данных разделением (токенизацией) необработанного текста на последовательности отдельных сегментов, которые затем передаются в LLM.
После предварительного обучения модель обучается конкретной задаче или работе в специфической области. На этом этапе модели предоставляют размеченные примеры для последующей генерации ею более точных и контекстуально верных ответов на задачу-адресата [3]. Точная настройка позволяет модели использоваться в приложениях, осуществляющих перевод с иностранных языков, чаты «вопрос-ответ» или генерацию текста.
Таким образом, именно за счет обработки и анализа больших объемов текста языковые модели учатся понимать язык на более сложных уровнях, генерируя логически связные ответы для конкретной когнитивной задачи. На этапе вывода при взаимодействии с LLM пользователь вводит промт или запрос. Модель обрабатывает входные данные и генерирует ответ на основе полученных знаний и имеющегося контекста. Следовательно, необходимо осознавать лингвистические критерии формулировки запроса или промта, поскольку от этого будет зависеть и ответ языковой модели.
Несомненно, благодаря своему потенциалу развития ChatGPT является самой популярной во всем мире языковой моделью. При условии развития его искусственного интеллекта, станет возможным его активное внедрение в работу здравоохранения. На данный момент уже существуют подобные примеры: языковая модель XrayGPT, которая умеет анализировать вопросы открытого типа, заданные пациентом о результатах своей рентгенограммы, а также давать на них ответы [6].
Расширить возможности понимания искусственным интеллектом естественного языка могут GPT-плагины – это новейший способ взаимодействия с ChatGPT, значительно расширяющий его функционал, а именно позволяющий разработчикам создавать собственные приложения, открывающие для пользователей новые функции, с возможностью их интеграции в ChatGPT. Подобные плагины можно применять тогда, когда необходимо получить доступ к внешним источникам данных, автоматизировать задачи, а также для улучшения пользовательского опыта [7].
В эру активного использования ChatGPT и появления различных плагинов стоит особенно выделить плагины OpenAI, с внедрением которых ChatGPT смог взаимодействовать со сторонними источниками данных и базами знаний. На момент написания статьи OpenAI еще не предоставил всем разработчикам доступ к разработке плагинов, однако уже известно несколько случаев использования, например, Expedia, FiscalNote, Instacart, KAYAK, Klarna, Milo, OpenTable, и т.д. Плагины полностью реализовали потенциал ChatGPT в рамках составления и выполнения таких непростых задач, как анализ эмоциональной окраски высказываний для любых источников в Интернете. Кроме того, работа с данными плагинами позволяет получить ответы на запросы на базе обновленной информации из Интернета, которая прежде могла отсутствовать в наборе данных для его обучения, таким образом, повышая достоверность ответов.
Широкие возможности и огромное пространство для маневров разработчиков являются примечательной характеристикой работы с плагинами, поэтому возрастает внимание к их разработке. Помимо вышеупомянутых ранних разработчиков, OpenAI уже предоставила три плагина: web-browser плагин, Code Interpreter и плагин поиска с подключением к базе знаний. Первый открывает ChatGPT доступ к Интернету для сбора информации, которую он может использовать для ответа на запрос, поданный ему пользователем. Этот плагин позволяет ChatGPT обойти ограничение по времени из-за недостаточности своих данных для обучения, и использовать самую актуальную информацию в Интернете через Bing Search API и текстовый веб-браузер.
Code Interpreter, в свою очередь, позволяет запускать код Python прямо в интерфейсе чат-бота, с возможностью его использования для выполнения логических вычислений, а также для написания кода. Интерпретатор умеет понимать языковую модель описания проблемы на человеческих языках и в дальнейшем использовать его в качестве входных данных для разработки кода Python для решения задачи.
Третий плагин поиска с подключением к базе знаний также имеет открытый исходный код, что позволяет ChatGPT получить доступ к данным, а затем выполнять сбор из этих данных необходимой, актуальной информации, при этом запросы подаются на простом человеческом языке. Технологически, данный плагин может работать со встроенными элементами OpenAI, а также с набором баз данных для индексирования или поиска в документах.
Наконец, существует возможность использования сторонних плагинов. Представленный в Таблице 1 список на данный момент не является исчерпывающим, поскольку число сторонних плагинов уверенно растет, ведь каждый разработчик заинтересован в выполнения задач, специфичных для своей конкретной работы.
Таблица 1. Самые используемые GPT-плагины.
Название |
Функционал |
Language Translation |
Перевод языков |
Sentiment Analysis |
Анализ эмоциональной окраски высказываний |
Spell Checker |
Проверка правописания и исправление ошибок |
Speech Recognition |
Понимание и расшифровка речи из звукового материала |
Emotion Detection |
Распознавание эмоций в текстовом или звуковом материале |
Question-Answering |
Генерация ответов на запросы пользователей |
Knowledge Graph |
Предоставление информации из баз данных |
В настоящее время интерес представляют новые техники управления поведением больших языковых моделей с целью получения желаемого пользователем результата без обновления самих моделей – так называемый «промт инжиниринг».
Несмотря на то, что формальное определение пока не было сформулировано, данное направление перспективно занимается разработкой и стилевой формулировкой промтов, предоставляемых большим языковым моделям, с целью получения пользователем желаемого ответа. Основным критерием повышения эффективности от работы с большими языковыми моделями является корректная формулировка запроса – промта.
Существуют также и некоторые формальные методы, такие как явные инструкции (предоставление LLM четкого указания что-либо сделать), специфичная системе инструкция (задание вопроса от LLM для ответа), форматирование с примером (предоставление образца вопроса и ответа на него и задание LLM для предоставления ответа таким же образом), управляющие маркеры (использование специальных ключевых слов в промте с тем, чтобы помочь LLM предоставить ответ с учетом предоставленных критериев).
Промт-инженеры изучают и разрабатывают различные лингвистические паттерны (модели) взаимодействия человека и искусственного интеллекта, которые помогают пользователям эффективнее пользоваться чат-ботом. В данном процессе важно осознавать роль лингвистики, в особенности синтаксиса, стилистики и лексикологии. Стилистика, наряду с понимаем экстралингвистических проблем, задействуется на начальном этапе, когда необходимо определить роль, сделав первый запрос. Правильно сформулированный запрос, например, «выступи в роли опытного адвоката» заставит языковую модель выполнять задачи как это сделал бы человек, владеющий соответствующими компетенциями. О стилистических особенностях необходимо помнить также в случае так называемых «объясняющих» промтов, например, запросы такого рода: «объясни принципы теории вероятности так, будто мне семь лет».
Поскольку сфера применения больших языковых моделей только расширяется, в дальнейшем необходимо сосредоточить научные исследования на повышении точности и производительности данных моделей, работе с их ограничениями и изучении потенциальных способов их применения.
Список литературы
- Dergaa, K. Chamari, P. Zmijewski, and H. B. Saad, “From human writing to artificial intelligence generated text: examining the prospects and potential threats of chatgpt in academic writing,” Biology of Sport, vol. 40, no. 2, pp. 615–622, 2023. 69
- Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. d. L. Casas, L. A. Hendricks, J. Welbl, A. Clark, et al., “Training compute-optimal large language models,” arXiv preprint arXiv:2203.15556, 2022.
- S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher, “Ctrl: A conditional transformer language model for controllable generation,” arXiv preprint arXiv:1909.05858, 2019.
- W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young, et al., “Scaling language models: Methods, analysis & insights from training gopher,” arXiv preprint arXiv:2112.11446, 2021.
- Carlini, D. Ippolito, M. Jagielski, K. Lee, F. Tramer, and C. Zhang, “Quantifying memorization across neural language models,” arXiv preprint arXiv:2202.07646, 2022.
- Thawkar, A. Shaker, S. Mullappilly, et al., “XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models” URL: https://doi.org/10.48550/arXiv.2306.07971 (дата обращения 31.10.2023)
- Xu, Y. Xu, S. Wang, Y. Liu, C. Zhu, and J. McAuley, “Small models are valuable plug-ins for large language models,” arXiv preprint arXiv:2305.08848, 2023.