УДК 81

Корпус параллельных текстов: сочетаемость лексических единиц входного и выходного языка

Дубинина Екатерина Юрьевна – кандидат филологических наук, доцент Санкт-Петербургского государственного университета аэрокосмического приборостроения.

Аннотация: Работа посвящена проблеме установления лексических соответствий между языками в процессе перевода. На примере англо-русского / русско-английского параллельного корпуса, входящего в состав Национального корпуса русского языка, анализируется перевод лексических единиц, имеющих неявно выраженную сочетаемость. С помощью данных, полученных на основе анализа корпуса параллельных текстов, было выявлено, что усилительные наречия (в частности наречие «чрезвычайно»), переводятся достаточно часто с помощью квазисинонимов. Информация, полученная на основе анализа корпуса параллельных текстов, позволяет уточнить данные о выборе определенного переводного эквивалента, что, в свою очередь, расширяет представление о сочетаемости определенных лексических единиц в разных языках.

Ключевые слова: выравнивание текста, корпус параллельных текстов, корпусная лингвистика, Национальный корпус русского языка, усилительные наречия.

В ходе развития цифровых технологий можно наблюдать значительные изменения, происходящие в сфере современной лингвистики. По мнению В.А. Плунгяна, как наука лингвистика значительно изменилась после возникновения корпусов текстов [6]. У специалистов в настоящее время возникла возможность, используя большие массивы языковых данных, находить в языке закономерности, которые ранее точно не могли быть обоснованы, или о наличии которых ранее было почти неизвестно. Анализ данных, представленных в текстовых корпусах, дает возможность получать новую информацию о языковых объектах что, в свою очередь, позволяет существенно расширить знания о языках.

В работе В.В. Мамонтовой определены следующие задачи, которые могут быть решены посредством обращения к корпусной лингвистике:

исследование возможностей применения различных видов корпусов текстов;
формирование различных корпусов текстов для учебных и исследовательских задач;
разработка методов и способов применения лингвистических ресурсов в различных сферах языкознания [4].

Корпусная лингвистика, представляя, как известно, раздел компьютерной лингвистики, связана с созданием, использованием и переработкой больших массивов языковых материалов с использованием достижений в области компьютерных технологий. В настоящее время существуют различные критерии классификации корпусов. По мнению В.П. Захарова, разнообразие корпусов «определяется многообразием исследовательских и прикладных задач, для решения которых они создаются» [2, с. 10]. Ниже рассмотрены основные критерии, по которым можно классифицировать корпусы.

По критерию «тип языковых данных» корпусы текстов подразделяются на устные, письменные и смешанные корпусы. В зависимости от языка представления текстов корпусы разделяют на одноязычные, двуязычные и многоязычные. Отметим, что к одноязычным относятся корпусы, в которых представлены варианты языка или диалекты. В свою очередь, под двуязычными и многоязычными понимаются корпусы текстов, содержащие исходные тексты (тексты-оригиналы) и тексты перевода. Подобные корпусы текстов известны как параллельные.

По цели создания корпусы подразделяются на специальные и общие. Специальные корпусы текстов предназначены для решения определенных, узкоспециальных проблем; такие корпусы, как правило, невелики по своему объему и состоят обычно из текстов одного жанра и одной предметной области. Общие корпусы, в свою очередь, сформированы из текстов разных жанров. Подобные корпусы известны как национальные. Как отмечает В.А. Плунгян, термин «национальный корпус» стал использоваться в начале 1990х годов, когда был сформирован Британский национальный корпус [6].

Отметим, что к специальным корпусам текстов относятся также параллельные корпусы, которые и будут рассмотрены в данной работе. Параллельные корпусы текстов представляют собой, как отмечалось выше, двуязычные и многоязычные корпусы, которые составлены из текстов-оригиналов и им соответствующих текстов-переводов. Подобные корпусы обладают значительным прикладным потенциалом. В частности, они активно используются для сравнительного анализа входного и выходного текста, при обучении методике перевода, при обучении иностранным языкам, в системах автоматического перевода. Данные, приведенные в параллельных корпусах, позволяют специалистам проводить исследования относительно лексических и синтаксических соответствий между языками, а также анализировать принципы какой-либо переводческой стратегии.

Кроме того, использование параллельных корпусов дает возможность существенно снизить временные затраты переводчиков (особенно начинающих), поскольку у них появляется возможность обращаться к многочисленным образцам профессионального перевода [7]. В частности, данные параллельного корпуса текстов, позволяют выявить профессиональный перевод терминов, географических названий, имен собственных и т.п. Следует упомянуть также и «псевдопараллельные» корпусы, под которым понимают коллекции текстов, относящиеся к одной тематике. Примером таких «псевдопараллельных» корпусов являются тексты материалов конференций при условии, что конференции проводятся по одинаковой тематике, на разных языках и в разных странах [3, с. 10].

Анализ текстов в параллельных корпусах позволяет решать разнообразные прикладные задачи. Особый интерес представляют двуязычные корпусы текстов, поскольку они дают возможность значительно ускорить процесс перевода, создавать внушительные базы переводческой памяти, а также проводить анализ адекватности перевода [3, с. 9].

Следует отметить, что при формировании любого корпуса параллельных текстов важной является задача выравнивания текстов, которые включены в корпус. При этом под термином «выравнивание» понимают процедуру выявления формального соответствия исходного текста и текста перевода. В процессе выравнивания используется специальная программа, которая формирует синтезированный текст, в котором каждое предложение исходного текста сопровождается предложением текста перевода [2]. Задача выравнивания осложняется тем, что в тексте перевода в некоторых случаях не выдерживается авторское членение текста на предложения, абзацы, главы и т.п. После проведения процесса выравнивания, которое может быть проведено в автоматическом или полуавтоматическом режиме, в параллельном корпусе текстов можно осуществлять автоматической поиск.

На примере англо-русского / русско-английского параллельного корпуса текстов в составе Национального корпуса русского языка (НКРЯ) в статье было рассмотрено использование корпусных данных при анализе перевода лексических единиц, имеющих плохо прогнозируемую сочетаемость. В частности, рассматривались усилительные наречия (наречия степени), которые являются «самым богатым и стилистически ярким классом наречий, так как они подвержены неограниченной сочетаемостью в тексте, в речи и наиболее эмоционально передают отношения человека к тому или иному явлению, предмету, действию» [1, с. 100]. В данной работе на основе данных, полученных в результате анализа текстов, входящих в параллельный корпус НКРЯ, были проанализированы возможные варианты перевода наречия «чрезвычайно».

На первом этапе исследования были рассмотрены случаи перевода анализируемого наречия с русского языка на английский (язык оригинала – русский). По результатам анализа данных параллельного русско-английского корпуса НКРЯ было выявлено 149 текстов и 29881пример встречаемости данного наречия [5]. В результате анализа текстов было обнаружено, что в качестве переводного эквивалента чаще всего используется наречие «extremely». Отметим, что здесь и далее примеры взяты из Национального корпуса русского языка:

(1)… я смотрел на кусок бетона, но он казался лежащим в глубине воронки; чем-то единственно отчетливым в расплывшемся мире, но чрезвычайно далеким, обнаруженным на дне памяти.

… I looked at the piece of concrete but it seemed to be at the bottom of the vortex; the only clear thing in a blurry world, but extremely far away, discovered at the bottom of memory.

(2)… глядя на минералы церия или скандия, ты умом понимал, что в них, как примесь, есть эти самые металлы, стоящие чрезвычайно дорого, но их стоимость была сугубо умозрительной.

… when you look at the minerals cerium or scandium, you understand that they have an admixture of metals that are extremely expensive, but their value is profoundly conceptual.

На втором этапе анализировалось, в каких случаях используется наречие «чрезвычайно» в процессе перевода английского текста на русский язык (то есть язык оригинала – английский). В результате анализа данных НКРЯ было выявлено 168 текстов и 22730 примеров встречаемости данного наречия [5].

Как показал анализ, данное наречие используется, в основном, только в тексте перевода; в исходном же тексте, то есть тексте-оригинале, наречие «чрезвычайно» либо отсутствует, либо присутствует в виде квазисинонима. Ниже приведены примеры подобных переводов.

(3) He has a remarkably expressive voice, the result of a habit of giving vent to his feelings without reserve.

У него чрезвычайно выразительный голос – следствие привычки давать полную волю чувствам.

(4) I think he is one of the most resolute men I ever saw, and yet the most calm.

Мне кажется, это чрезвычайно решительный человек с необыкновенным самообладанием.

(5) I am going to tell you something that will rather surprise you, and that perhaps will make you think me not quite as shrewd as you usually do think me.

Я тебе сейчас скажу нечто такое, что тебя чрезвычайно удивит, может быть, ты даже подумаешь, что я далеко не так рассудителен, как казалось.

Следует отметить, что в русско-английских словарях для перевода наречия «чрезвычайно» приведены следующие эквиваленты: extremely, extraordinary, exceedingly, enormously, immensely, utterly и т.п. В данной работе было обнаружено, что в качестве переводных эквивалентов в англо-русском параллельном корпусе НКРЯ помимо основных вариантов перевода наречия «чрезвычайно» (приведенных в словарях), в качестве наиболее употребительных эквивалентов используются квазисинонимы.

Итак, с помощью параллельного корпуса текстов у переводчика появляется возможность уточнить данные относительно выбора определенного переводного эквивалента, что, в свою очередь, позволяет расширить представление о сочетаемости некоторых лексических единиц в разных языках.

Список литературы

Безрукова В. В. Интенсификация и интенсификаторы в языке и речи (на материале английского языка) : дис. ... канд. филол. наук. Воронеж, 2004. 222 с.
Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб.: Изд-во С. Петерб. ун-та, 2020. 234 с.
Камшилова О. Н. Учебный корпус текстов: потенциал, состав, структура. СПб. : ООО «Книжный дом», 2012. 58 с.
Мамонтова В. В. Корпусная лингвистика и лингвистические корпусы // Язык. Текст. Дискурс: Научный альманах Ставропольского отделения РАЛК / Под ред. проф. Г. Н. Манаенко. Вып. 5. Ставрополь, 2007. С. 275-283.
Национальный корпус русского языка [Электронный ресурс]. URL: http://ruscorpora.ru (дата обращения: 17.10.2023).
Плунгян В. А. Зачем нужен Национальный корпус русского языка? Неформальное введение // Национальный корпус русского языка: 2003-2005. М. : Индрик, 2005. С. 6-20.
Соснина Е. П. Корпусная лингвистика и корпусный подход в обучении иностранному языку [Электронный ресурс].URL: http://ling.ulstu.ru/linguistics/resourses/literature/articles/corpus_linguistics_language_teaching (дата обращения: 17.10.2023).

Интересная статья? Поделись ей с другими: