УДК 004

Расширение мультиязычных возможностей БЯМ с помощью систем автоматического перевода

Барков Дмитрий Анатольевич – сотрудник Научно-исследовательской лаборатории искусственного интеллекта Поволжского государственного университета телекоммуникаций и информатики

Аннотация: Большие языковые модели (БЯМ), изначально разрабатываемые как инструмент для обработки естественного языка, заняли место лидирующей технологии в сфере искусственного интеллекта, что было обусловлено способностями таких моделей к решению различного рода задач, включающих в себя обобщение информации, генерацию текстов, понимание и воспроизведение логики. Однако эта технология все еще не получила должного распространения из-за ряда проблем и ограничений. Одной из таких проблем является неоднородность в понимании различных языков. Эффективность работы модели напрямую зависит от наличия в обучающих данных информации на языке, соответствующем языку запроса. Передовые модели адаптированы прежде всего под английский язык. Улучшить мультиязычные возможности БЯМ можно с помощью подготовки специальных данных и дополнительного обучения, однако это требует значительных вычислительных ресурсов. В данной работе рассматривается подход к расширению способностей БЯМ к пониманию большего количества языков за счет автоматического перевода текста запросов. В качестве основы для эксперимента используются современные модели LLAMA 2 и Saiga, а для реализации автоматического перевода применяется модель NLLB. Оценка результатов производится путем анализа качества генерируемого контента.

Ключевые слова: большие языковые модели (БЯМ), перевод, обработка.

Введение

Большие языковые модели (БЯМ) представляют собой одно из наиболее значительных достижений в области искусственного интеллекта и машинного обучения за последние годы. Эти модели представляют собой специально обученные нейронные сети со сложной архитектурой Transformer [1], которая была предложена в 2017 году. В отличии от предыдущих подходов (сверточные и рекуррентные нейронные сети), эта архитектура позволяет хорошо улавливать контекст на больших расстояниях в тексте за счет механизмов внимания, которые позволяют модели сосредоточиться на определенных словах обрабатываемого предложения, которые важны для понимания контекста или для выполнения задачи, например, перевода. Применяя такие механизмы, модель вычисляет веса для каждого слова, определяя, насколько важно каждое из них в данном контексте.

Возможности БЯМ крайне обширны и выходят за пределы обработки естественного языка. Они могут не просто генерировать тексты, но также извлекать и обобщать информацию, переводить тексты с одного языка на другой, отвечать на вопросы и вести диалоги на уровне, сопоставимом с человеческим. Эти способности делают БЯМ мощным инструментом в руках исследователей и разработчиков, открывая новые горизонты для автоматизации и улучшения качества взаимодействия человека и компьютера в целом.

Тем не менее, БЯМ имеют ряд ограничений. Одним из них является способность к обработке данных на разных языках. Наиболее распространенные модели лучше всего оптимизированы для работы с английским языком, так как он представлен в обучающих данных в наибольшем объеме. Это приводит к тому, что эффективность работы моделей на других языках может существенно снижаться из-за недостатка или неравномерности данных.

Эта проблема может быть решена за счет обучения новых или дообучения существующих моделей, что потребует специальных наборов данных, а также больших вычислительных мощностей. Подготовка качественных текстов является довольно сложной и затратной задачей, так как необходимый обьем текста в некоторых случаях может составлять сотни гигабайт. Вопрос стоимости оборудования для осуществления самого обучения модели является еще более затратным, поскольку обработка данных для самых современных моделей может длиться неделями и месяцами, при этом используется оборудование, стоимость которого исчисляется десятками тысяч долларов США.

В данной статье рассматривается вариант расширения мультиязычных способностей БЯМ с минимальными затратами без необходимости дообучения моделей. Это достигается за счет интеграции систем автоматического перевода текста, что позволяет продвинуться вперед в вопросе преодоления языковых барьеров и создания действительно универсальных и доступных языковых моделей.

LLAMA 2

LLAMA 2 (Large Language Model Meta AI) [2] представляет собой одну из последних разработок в области больших языковых моделей, превосходя своих предшественников по множеству параметров. Модель основана на архитектуре Transformer, при этом внося ряд улучшений, наиболее важным из которых является модификация механизма внимания, являющегося главным элементом всех больших языковых моделей.

В классическом трансформере механизм внимания работает путём вычисления весов между всеми словами во входной последовательности. Это вычисление осуществляется на основе трех компонентов: запросов (queries), ключей (keys) и значений (values). Каждое слово в последовательности преобразуется в эти три компонента через обучаемые матрицы весов. Затем, для каждого слова (запроса) вычисляются веса внимания по отношению к каждому другому слову (ключу), что позволяет агрегировать информацию (значения) из всего текста.

В LLAMA 2 реализованы механизмы адаптивного внимания, которые позволяют модели более точно определять, какие части входной последовательности наиболее важны в данном контексте, то есть имеют наибольшее значение для понимания смысла переданного текста. Это достигается за счет использования более сложных функций активации и нормализации. При этом в качестве частей входной последовательности рассматриваются не только слова, но и целые фразы. В результате модель лучше различает одинаковые слова в разных контекстах, что увеличивает точность и глубину понимания текста, а также способна интерпретировать сложные языковые структуры и связанные с ними нюансы.

Кроме того, механизм внимания так же оказывает положительное влияние и на вопрос оптимизации использования вычислительных ресурсов. Поскольку традиционные трансформеры вычисляют веса между всеми словами во входной последовательности, наблюдается квадратичный рост необходимого количества вычислений относительно длины этой последовательности. В LLAMA 2 элементы взаимодействуют только с небольшим подмножеством других элементов, которые были определены как наиболее важные, что приводит к уменьшению общего количества вычислений без потерь в производительности и качестве обработки текста.

Так же для уменьшения вычислительной нагрузки в LLAMA 2 используется факторизация матриц, при которой большие матрицы весов, используемые в механизмах внимания, раскладываются на произведение нескольких более мелких матриц. Они называются факторами или компонентами и представляют собой более простую и компактную форму исходной матрицы. Таким образом количество параметров, которые модель должна выучить фактически сокращается, но оставшиеся параметры по-прежнему содержат наиболее важные отношения и зависимости между различными частями текста. В этом контексте речь идет о сохранении информации в более компактной форме.

LLAMA 2 является одной из наиболее распространенных на сегодняшний день моделей, выделяясь как качеством генерируемого текста, так и своей доступностью за счет применения технологии квантования весов GPTQ, которая позволяет запускать облегченные версии модели на широком спектре устройств, доступных широкому кругу исследователей.

Дообучение моделей

LLAMA 2, как и другие модели искусственного интеллекта, может быть дообучена для адаптации к конкретным задачам или областям. Дообучение представляет собой процесс, в ходе которого модель, уже обученная на большом объеме данных, дополнительно обучается на более узком и специализированном наборе данных. Во время дообучения происходит подстройка весов в нейронной сети, поэтому речь идет не о обучении с нуля, а скорее об адаптации уже усвоенных моделью знаний и навыков к новому контексту. Используемые наборы данных могут включать специфическую терминологию, стилистические особенности или типичные для домена структуры текста в целом.

Дообучение может быть направлено на улучшение способности модели работать с определенным языком, жанром, стилем или даже особенностями конкретного приложения. Например, модель можно дообучить для работы с медицинскими текстами, юридическими документами или для создания более убедительных художественных текстов, тем самым повысив ее "компетентность" в этих вопросах.

Проект Baize [3] демонстрирует применение этих принципов, создавая дообученную модель. Авторы решают проблему сбора данных для обучения путем генерации диалогов с помощью ChatGPT, дав ему задачу вести диалоги с самим собой, что позволило сгенерировать большой объем (около 100 тысяч) длинных диалогов без значительных затрат. Авторы отмечают, что полученная модель лучше ведет сложные диалоги, а так-же наглядно демонстрируют успешную адаптацию модели в рамках заданных тем, в частности ограничивая способность модели выдавать нежелательную или опасную информацию.

На основе этого проекта была разработана модель Saiga [4]. Целью проекта была адаптация модели для работы на русском языке. В этом случае ChatGPT был использован для генерации диалогов на русском языке. Полученная модель демонстрирует относительно более высокие результаты в некоторых классических тестах с заданиями на русском языке по сравнению с оригинальной LLAMA 2.

Saiga является одним из немногих вариантов открытых моделей, способной генерировать тексты на русском языке в неплохом качестве.

Автоматический перевод текста

Модель NLLB (No Language Left Behind) [5] так же относится к области обработки естественного языка и так же использует архитектуру Transformer, но решает задачу обеспечение качественного машинного перевода между множеством языков, многие из которых ранее не поддерживались существующими системами перевода.

Как и в случае с LLAMA 2, архитектура была определенным образом доработана. Модификация заключалась в увеличении количества слоев как в кодировщике, так и в декодировщике. Эти слои имеют прямое отношение к процессу обработки информации и имеют определенную иерархию. Каждый слой строит своё понимание текста на основе информации, полученной от предыдущих слоёв. Нижние слои обычно извлекают более простые признаки, такие как основные лексические характеристики слов (части речи, значения слов, морфологические особенности) и их непосредственное окружение. По мере продвижения вверх слои улавливают более сложные и абстрактные аспекты, такие как смысловые отношения между фразами и общую структуру текста. Таким образом увеличение количества слоев помогает модели лучше понимать как лексические, так и семантические аспекты языка.

Поскольку этот процесс независим от конкретного языка, модель способна обобщать знания о языковых структурах одного языка на другие. Это в свою очередь позволяет осуществлять перевод даже на некоторые малораспространенные и малоизученные языки, количество обучающих данных для которых ограничено. Это делает NLLB уникальной в своем роде.

Эксперимент

Для проверки предлагаемого подхода был проведен эксперимент, в ходе которого различные конфигурации БЯМ получали задания из специального набора. Полученные результаты подвергались ручной оценке, после чего сравнивались между собой.

Набор заданий был составлен вручную, при этом каждая из задач была описана на двух языках, русском и английском. Задания выбирались с учетом двух главных критериев:

Показательность задач: задачи должны быть умеренно сложными и проверять способности БЯМ к пониманию здравого смысла, обработке информации (извлечение, обобщение, изменение);
Легкая переводимость текста задачи и ожидаемого ответа: текст должен содержать минимум специальных символов, математических выражений или программного кода;

Использовались следующие конфигурации БЯМ:

Модель LLAMA2 13B, получающая задания, описанные на английском языке;
Модель LLAMA2 13B, получающая задания, описанные на русском языке;
Модель Saiga2 13B, получающая задания, описанные на русском языке;
Модель LLAMA2 13B, получающая задания, описанные на русском языке и переводимые на английский автоматически с помощью модели NLLB-200 Distilled 13B;

Далее на рисунках 1, 2 и 3 приведены три примера задач с результатами их выполнения, демонстрирующие разницу в качестве генерируемых текстов между конфигурациями.

Рисунок 1. Задача про рецепт чая.

Рисунок 2. Задача про предметы на столе.

Рисунок 3. Задача про варианты мест для обеда.

Оценка результатов, представленная в таблице 1, демонстрирует, что вариант с автоматическим переводом текста является вполне работоспособным. Текст, генерируемый моделью LLAMA 2 на русском языке без дополнительных преобразований, содержит большое количество грамматических ошибок и часто имеет серьезные проблемы с точки зрения правильности и смысла. Saiga лидирует по уровню грамматики текста на русском языке, но дает недостаточно полные и подробные ответы, к тому же в некоторых случаях ощутимо уступает оригинальной модели в правильности. Конфигурация с автоматическим переводом по уровню грамматики хоть и уступает модели Saiga, но значительно отличается от генерируемого оригинальной моделью на русском, при этом сохраняя хороший уровень полноты и достоверности.

Таблица 1. Оценка результатов выполнения задач.

	llama_en	llama_ru	saiga	llama_ru_en
Релевантность	10	8	7	8
Полнота	9	5	4	7
Достоверность	9	3	6	8
Грамматика	10	3	9	6

Однако необходимо отметить и проблемы, свойственные этому подходу. Первой является существенная разница в скорости генерации текста: дополнительные вычисления, необходимые для перевода текста на лету увеличивают время ответа системы в среднем в 3 раза. Безусловно, скорость генерации может быть увеличена за счет оптимизации алгоритмов, однако даже с учетом этого затрачиваемое на вычисления время всегда будет выше относительно прямой обработки текста моделями.

Второй проблемой являются ограничения, связанные с форматом текста. Системы автоматического перевода не способны обеспечить хороший перевод текста, содержащего специальные символы, математические выражения или код, что сильно сужает спектр решаемых задач. Эта проблема может быть решена за счет реализации дополнительных алгоритмов, выделяющих из текста те части, которые не подлежат переводу.

Заключение

В данной работе была исследована возможность использования автоматического перевода для улучшения мультиязычных возможностей больших языковых моделей (БЯМ). Результаты экспериментов, использующих модели LLAMA 2, Saiga и NLLB продемонстрировали возможность применения автоматического перевода текста при работе с моделью LLAMA 2. Модель Saiga показала лучшее владение грамматикой, тогда как вариант с автоматическим переводом предложил сбалансированное сочетание грамматической корректности, полноты и достоверности генерируемого текста, более близкое к показателям текста, получаемого при работе с оригинальной моделью на “родном” для нее английском языке.

Несмотря на то, что процесс перевода вносит дополнительную сложность и требует дальнейшей оптимизации, можно заключить, что использование систем автоматического перевода позволяет расширить функциональность БЯМ для работы с неанглоязычными запросами. При этом спектр поддерживаемых языков будет определяться исключительно этими системами, самые современные из которых поддерживают огромное количество языков, что видно на примере NLLB. Таким образом представленный подход может помочь сделать большие языковые модели более доступными для пользователей, не владеющих английским языком.

Список литературы

Ashish Vaswani, et al. (2017) “Attention Is All You Need” URL: https://doi.org/10.48550/arXiv.1706.03762
Hugo Touvron, et al. (2023) “Llama 2: Open Foundation and Fine-Tuned Chat Models” URL: https://doi.org/10.48550/arXiv.2307.09288
Canwen Xu, et al. (2023) “Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data” URL: https://doi.org/10.48550/arXiv.2304.01196
IlyaGusev/rulm: Language modeling and instruction tuning for Russian. URL: https://github.com/IlyaGusev/rulm
Marta R. Costa-jussà, et al. (2022) “No Language Left Behind: Scaling Human-Centered Machine Translation” URL: https://doi.org/10.48550/arXiv.2207.04672.

Интересная статья? Поделись ей с другими: