УДК 81

Частотность и употребление слов в русском языке

Ал-Таий Камель М. Дионк – Доцент кафедры русского языка Филологического факультета Самарраского университета (Ирак, Самарра).

Аннотация: Частотность как лексикографический параметр имеет большую прагматическую и научную значимость в синхронном и диахронном языковом описании. Употребительность слов учитывается при составлении словарей-минимумов, используемых при обучении иностранцев русскому языку. Частотность как регистр исторической лексикографии позволяет судить о динамике русской лексики, формировании узуальной нормативности в прошлом и о глубинных истоках современного словарного состава.

В данной статье мы исследуем частотность и употребление слов в русском языке. Анализируются различные аспекты, связанные с частотностью слов, такие как наиболее часто употребляемые слова, количественные и качественные характеристики употребления слов, а также особенности употребления слов в различных контекстах.

Ключевые слова: частотность, употребление слов, русский язык, анализ, наиболее употребляемые слова, контекст.

Развитие вычислительной техники и статистики во второй половине ХХ века оказало значительное влияние на различные научные дисциплины, включая и языкознание.

Одним из ключевых достижений в этом направлении стало распространение компьютеров, которые стали незаменимым инструментом для хранения и обработки больших объемов данных. Языкознавцы начали активно использовать компьютеры в своей работе для анализа текстов, создания корпусов и структурирования лингвистических данных. Это позволило им значительно расширить возможности исследования языка и подтвердить или опровергнуть различные лингвистические гипотезы.

С развитием статистических методов и алгоритмов обработки данных также возникла новая область в языкознании - компьютерная лингвистика. Эта дисциплина объединила в себе знания из области лингвистики, информатики и статистики, чтобы исследовать и обрабатывать естественные языки с помощью компьютеров. Компьютерные лингвисты разрабатывают методы и алгоритмы для автоматического анализа текстов, машинного перевода, распознавания речи и других языковых задач.[3]

Во второй половине ХХ века также появились компьютерные программы для статистического анализа языковых данных, которые существенно помогли лингвистам в их исследованиях. Статистические методы позволяют выявить закономерности и структуру в тексте, а также проводить количественные исследования различных аспектов языка. Таким образом, развитие вычислительной техники и статистики оказало положительное влияние на языкознание, позволив лингвистам расширить свои возможности в анализе и обработке текстовых данных. Это в свою очередь привело к развитию новых подходов и методов исследования языка, делая языкознание еще более интересным и практичным.

Лексика является наиболее динамичной частью языка, постоянно изменяющейся под воздействием лингвистических и экстралингвистических факторов. Даже существует понятие "хронологического шага", которое отражает временные периоды, в течение которых происходят заметные изменения в лексиконе. Эти шаги включают ускоренный (10–20 лет), умеренный с плавными сдвигами (30–40 лет) и замедленный (50 лет и более). С начала XXI века наблюдается явное ускорение изменений в различных областях социума. Эти изменения естественным образом сказываются на лексическом составе языка, в том числе на лексике, характерной для разных языковых стилей. Разнообразные сферы жизни общества, такие как технологии, культура, и социальные тенденции, становятся мощными катализаторами для эволюции лексического богатства языка. Этот динамичный процесс приводит к более частым и интенсивным изменениям в лексиконе, требуя от лингвистов исследования и адаптации к новым лингвистическим реалиям [1].

Типология статистической обработки языка обычно ориентирована на учет частоты использования языковых единиц, увеличивая или уменьшая важность в зависимости от их распространенности. В данном контексте, хотя ориентация на частотность не является строго установленной, она становится ключевым параметром для выбора материала для толкования в "Большом словаре крылатых слов и выражений русского языка" от В. П. Беркова, В. М. Мокиенко и С. Г. Шулежковой. Этот метод подразумевает, что чем чаще слова или выражения употребляются в языке, тем более значимыми они считаются при статистической обработке. В "Большом словаре крылатых слов и выражений русского языка" авторы, вероятно, используют статистический анализ, учитывая частоту употребления выражений для определения их важности и включения в словарь. Такой подход позволяет отражать реальное употребление языка и акцентировать внимание на тех языковых единицах, которые являются наиболее распространенными и значимыми в современном общении.

Словарь представляет собой одно из самых полных собраний русских крылатых единиц, широко употребляющихся современными носителями русского языка ярких, образных слов и выражений, авторы или источники которых хорошо известны или доказуемы.[1]

Критерием для авторов словаря служила даже минимальная фиксация (до 10 раз) каждой лексической единицы, учитывая её повторяемость, широкую употребительность, известность и воспроизводимость. В данном лексикографическом подходе можно условно говорить о "имплицитной" частотности. Этот термин отражает подход к выбору лексических единиц, основанный на их интуитивной распространенности и значимости, даже при отсутствии строгой фиксации частоты использования.

Толковые словари, созданные на основе языка писателей и поэтов, предоставляют возможность решения разнообразных исследовательских задач с использованием частотности, как это было представлено в статистическом обследовании произведений русских авторов. Эти словари обеспечивают важный инструмент для анализа стилистических особенностей текстов, выявления окказионализмов, выражения авторского отношения к иноязычным словам, обозначения церковнославянских элементов, архаизмов, неологизмов и, в целом, оценки индивидуального стиля авторов. Академик Л. В. Щерба неслучайно называл подобные словари "словарями-справочниками". "Словарь языка А. С. Пушкина" представляет собой выдающийся образец такого подхода. Частотность, в качестве лексикографического параметра в историко-лингвистических словарях, представляет собой редкое явление. Первые попытки частотного анализа древних текстов обнаруживаются в статье Л. В. Вялкиной и Г. Н. Лукиной. Это подчеркивает инновационный характер подхода, где учет частотности становится значимым фактором в лингвистическом и историческом анализе текстового материала[1].

Первый частотный словарь по старорусским текстам создал А. А. Грузберг. Автор «Частотного словаря русского языка второй половины XVI — начала XVII века» учитывает все стилистические разновидности лексики 27 памятников этого периода, не включает редкие слова с частотой от одного до пяти употреблений. В итоге обработан лексикон в 127 476 слов общей длиной текста 406 150 словоупотреблений.

древнерусского языка XI–XIV вв.". В русской лексикографии это единственный историко-лингвистический словарь, четко охватывающий хронологическое поле с XI по XIV века. Этот словарь под редакцией Р. И. Аванесова выделяется строгим отбором текстов, включающим 784 источника XI–XIV веков в списках до середины XV века. Важно отметить, что в него не включены тексты Ветхого и Нового завета в восточнославянских, болгарских и сербских изводах. Тексты, охватываемые словарем, представлены территориально, начиная от Галича и до Суздаля. В жанрово-стилистическом плане включены государственные грамоты, частные грамотки на бересте, приписки и зачины, а также тексты юридической, агиографической и литературно-повествовательной литературы [1].

Анализ числовых характеристик употребительности слов предоставляет возможность построения объективного образа жизни древнерусского языка: от его ранних источников до формирования общевосточнославянского языка, который является предком для русского, украинского и белорусского, а также до времени его разложения и появления ранних источников старорусского, староукраинского и старобелорусского языков. Частотность в данном контексте отражает относительную частоту использования лексических единиц, отдаленных от нас во времени на столетия. Этот параметр служит индикатором активности или пассивности слов и стойких словесных выражений, предоставляя ключевые данные о том, насколько эти лексемы были продуктивными в различные исторические периоды.

Анализ 1 000 слов из I тома "Словаря древнерусского языка" с учетом первой и последней фиксации, в сравнении с современным лексиконом по "Толковому словарю современного русского языка" С. И. Ожегова, Н. Ю. Шведовой, позволяет сделать обобщения относительно динамики в трех категориях частотности: высокой (500 употреблений и выше), средней (от 10 до 500 употреблений), низкой (от 1 до 10 употреблений). На основе проведенных наблюдений можно сделать следующие выводы: Низкочастотные слова, хотя и численно преобладают, обычно подвергаются архаизации и постепенно исчезают в процессе эволюции языка. Высокочастотные и среднечастотные единицы остаются активной частью словарного запаса, сохраняя основные значения. Эти слова формируют основу традиционного исторического слоя русской лексики.

Объяснение:

"Частотность" – частота употребления слов в текстах.

"Архаизация" – процесс устаревания или становления устаревшими.

"Традиционный исторический пласт" – устойчивый слой слов, сохраняющихся в течение времени и передающихся из поколения в поколение.

Употребление слов в языке можно охарактеризовать по различным количественным и качественным характеристикам.  Количественные характеристики связаны с тем, как часто и в каких контекстах употребляется данное слово. Например, можно изучать частоту употребления слова в текстах разных жанров или в разных социолингвистических группах. Кроме того, можно анализировать такие показатели, как количество словоупотреблений в определенном тексте или в определенной речевой ситуации. Качественные характеристики связаны с тем, какими смысловыми и грамматическими значениями обладает данное слово и какие связи устанавливаются между ним и другими словами в предложении. Например, можно анализировать синонимические и антонимические отношения, метафорическое использование слов и его стилистическую окраску.

Также важно учитывать контекстуальное употребление слова. Одно и то же слово может иметь различные значения и значение каждый раз определяется контекстом, в котором оно употреблено. Изучение количественных и качественных характеристик употребления слов помогает нам лучше понимать язык и его функционирование. Кроме того, в русском языке существуют различные стили речи, такие как разговорный, научный, официальный и т.д. Каждый стиль предполагает свои особенности в выборе слов, фразеологизмов и грамматических конструкций.[11]

Частотность слов в русском языке отражает, насколько часто определенное слово встречается в текстах и употребляется говорящими. Частотность является статистической характеристикой и позволяет оценить, насколько данное слово употребительно в языковой практике. Изучение частотности слов является частью корпусной лингвистики, где анализируются большие объемы текстового материала. Собрав и обработав большое количество разнообразных текстов, можно определить, какие слова наиболее часто употребляются и преобладают в русском языке.

На основе такого анализа составляются списки наиболее частотных слов, которые могут быть полезными при обучении и изучении русского языка, в составлении словарей и тезаурусов, а также в разработке языковых моделей и алгоритмов обработки естественного языка. Частотность слов может также меняться в зависимости от контекста: слова из разных сфер деятельности или соответствующие разным тематикам могут иметь разную частотность. Поэтому для анализа и исследования частотности слов в русском языке обычно используются специализированные корпусы, которые содержат тексты различных жанров и тематик.[12]

Частотность и употребление слов в русском языке могут сильно варьироваться в зависимости от контекста, стиля речи и области использования. Однако существуют некоторые слова, которые встречаются чаще, чем остальные. Среди наиболее употребляемых слов в русском языке можно выделить местоимения "я", "ты", "он", "она", "мы", "вы", "они". Эти слова используются для обозначения лиц и встречаются в большинстве разговорных и письменных высказываний. Также, очень часто употребляются союзы и предлоги, такие как:

  1. И - это одна из самых часто употребляемых союзов, которая используется для связи слов, фраз и предложений.
  2. В - предлог, указывающий на направление или место, также используется для обозначения принадлежности.
  3. Не - частица, используемая для выражения отрицания или отсутствия каких-либо действий или качеств.
  4. Я - местоимение первого лица единственного числа, обозначающее говорящего.
  5. Что - вводное слово, используемое для выражения вопроса или сомнения, также может иметь значение "тот факт, что" или "то, что".
  6. На - предлог, указывающий на место расположения или направление движения.
  7. С - предлог, указывающий на причину, инструмент или компаньона в действии.
  8. Как - наречие, используемое для описания действия или состояния, также может использоваться для сравнения или задания способа выполнения действия.
  9. А - союз, используемый для выражения противоположности или контраста.
  10. Он - местоимение третьего лица единственного числа, обозначающее мужчину или предмет мужского рода.Они служат для связывания слов и выражений в предложениях.[2]

Существительные, такие как "человек", "год", "день", "работа", "жизнь", "город" и "страна" - также входят в число самых употребляемых слов в русском языке. Прилагательные и глаголы, характеризующие свойства или действия, тоже используются часто. Например, "хороший", "новый", "большой", "делать", "говорить", "идти" - это лишь некоторые из таких слов. Однако следует помнить, что частотность слов может меняться в зависимости от ситуации. Например, в разговорной речи могут быть использованы более специфические слова, связанные со сферой интересов собеседников или текущей темой разговора.[9]

Важно отметить, что частотность слов может меняться со временем и в разных текстовых корпусах. Поэтому для более точного определения употребления слов в русском языке, лучше обратиться к специализированным словарям и исследованиям. Кроме частотности и употребления слов в русском языке, также можно рассмотреть различные лингвистические аспекты, связанные с этим языком.

В русском языке существуют различные части речи, такие как существительные, прилагательные, глаголы, наречия и т.д. Каждая из них выполняет определенную функцию в предложении. Существительные обозначают предметы, явления, понятия и т.д. Примеры: "стол", "дом", "любовь". Они могут быть именем существительным или нарицательным. Прилагательные характеризуют существительные и отвечают на вопросы "какой?" или "какая?". Примеры: "красивый", "высокий", "интересный". Глаголы обозначают действия или состояния. Примеры: "делать", "говорить", "бежать". Они могут быть совершенными или несовершенными, одиночными или повторяющимися. Наречия указывают на обстоятельства действия. Примеры: "быстро", "тихо", "внимательно". Они отвечают на вопрос "как?". Предлоги и союзы связывают слова и предложения между собой. Примеры предлогов: "в", "на", "с". Примеры союзов: "и", "а", "но". Русский язык также имеет свою грамматическую систему, включающую склонение и спряжение. Существительные, прилагательные и местоимения склоняются по падежам и числам, а глаголы спрягаются по лицам, числам, временам и наклонениям.[3]

В целом, русский язык является богатым и многообразным языком, который постоянно развивается и претерпевает изменения. Частотность и употребление слов в нем зависит от множества факторов, но все они способствуют созданию красивой и выразительной русской речи.[9]

Основной вывод, который можно сделать, заключается в том, что частотность слов играет важную роль в исследовании и изучении языка. Анализируя большие объемы текстового материала, мы можем определить, какие слова наиболее часто употребляются и преобладают в русском языке. Это позволяет нам создавать списки наиболее употребительных слов, которые полезны для изучения и обучения русскому языку.[4]

Более того, частотность слов может изменяться в зависимости от контекста и сферы использования. Таким образом, при анализе частотности необходимо учитывать различные тематики и жанры текстов, чтобы получить более точные результаты. Изучение частотности слов в русском языке позволяет не только лучше понимать и использовать его в речи, но и разрабатывать более эффективные языковые модели и алгоритмы обработки естественного языка.[7]

В целом, понимание частотности и употребления слов в русском языке является важным аспектом для всех, кто интересуется изучением и развитием своих навыков в данной сфере. Благодаря этому исследованию мы можем эффективно осваивать язык и использовать его наилучшим образом в своей коммуникации.

Список литературы

  1. БСКСиВ: Берков В. П., Мокиенко В.М, Шулежкова С. Г. Большой словарь крылатых слов и выражений русского языка: ок. 5 000 ед.: в 2 т. / под ред. С. Г. Шулежковой. — Изд. 2-е, исправл. и доп. — Магнитогорск: МаГУ; Greifswald: Ernst-Moritz-Arndt-Universität, 2008–2009.
  2. Глинкина Лидия Андреевна Частотность как значимый регистр лексикографии и фразеографии // Проблемы истории, филологии, культуры. 2011. №3 (33).
  3. Гришин, Н.И. Лексическая частотность в русском языке [Текст] / Н.И. Гришин. - М. : Флинта, Наука, 2016. - 200 с.
  4. Криони Н.К., Никин А.Д., Филиппова А.В. Автоматизированная система анализа слож- ности учебных текстов // Вестник Уфимского государственного авиационного тех- нического университета. 2008. No 11 (1). С. 101–107.
  5. Лапошина А.Н., Веселовская Т.С., Лебедева М.Ю., Купрещенко О.Ф. Лексический со- став текстов учебников русского языка для младшей школы: корпусное исследова- ние // Компьютерная лингвистика и интеллектуальные технологии: по материа- лам международной конференции «Диалог 2019». 2019. T. 18 (25). С. 351–363.
  6. Лапошина Антонина Николаевна, Лебедева Мария Юрьевна, Берлин Хенис Александра Алехандровна ВЛИЯНИЕ ЧАСТОТНОСТИ СЛОВ ТЕКСТА НА ЕГО СЛОЖНОСТЬ: ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ЧИТАТЕЛЕЙ МЛАДШЕГО ШКОЛЬНОГО ВОЗРАСТА МЕТОДОМ АЙТРЕКИНГА // Вестник РУДН. Серия: Лингвистика. 2022. №2. 
  7. Мартынова Е.В., Солнышкина М.И., Мерзлякова А.Ф., Гизатулина Д.Ю. Лексические параметры учебного текста (на материале текстов учебного корпуса русского языка) // Филология и культура. 2020. No 3 (61). С. 72–80.
  8. Мизернов И.Ю., Гращенко Л.А. Анализ методов оценки сложности текста. // Новые ин- формационные технологии в автоматизированных системах. 2015. No 18. С. 572–581.
  9. Муравьев Никита Алексеевич, Ольшевская Мария Юрьевна Подходы к составлению лексических минимумов в России и за рубежом: проблемы и перспективы // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. № 1. 2019.
  10. Резниченко, В.В. Антропонимия русского языка [Текст] / В.В. Резниченко. - М. : Наука, 2019. - 248 с.
  11. Телия, В.Н. Русская лексика в системном описании [Текст] / В.Н. Телия. - М. : Лабиринт, 2016. - 512 с.
  12. Филимонов, В.В. Очерки леквемики [Текст] / В.В. Филимонов. - М. : Издательство Литература по лингвистике, 2017. - 224 с.

Интересная статья? Поделись ей с другими: