УДК 004.9+81.32

Применение нормирования данных для последующей визуализации методом «облако тегов»

Тимофеев Михаил Владимирович – выпускник Санкт-Петербургского государственного морского технического университета

Мазалькова Анна Владимировна, выпускница  выпускница Санкт-Петербургского государственного университет сервиса и экономики

Аннотация: В статье рассмотрено использование дополнительного этапа нормирования при подготовке данных для визуализации способом «облака ключевых слов (тегов)». В статье предлагается решение проблемы доминирования одного или двух слов в корпусе текстов. В качестве объекта исследования взяты ключевые слова научных статей по этнопсихолингвистике и смежным направлениям, найденных при помощи поисковых запросов. В статье представлено сравнение сформированных облаков ключевых слов с классическим подходом и с нормированием.

Ключевые слова: визуальное представление, облако тегов, ключевые слова, доминирующее слово, нормирование, анализ текста.

Введение

Облако слов (тегов) – вид визуального представления текстовых данных. Данный вид визуализации применяется для быстрого восприятия наиболее значимых ключевых слов, определений и терминов. В традиционном представлении значимость (вес) слова или тега выделяется с помощью размера, типа и цвета шрифта. При построении соблюдается принцип: чем больше по размеру ключевое слово, тем больше его вес [13]. Метод, изначально используемый в интернет-ресурсах для упрощения навигации, получил распространение и в других областях. Например, метод «Облако слов (тегов)» современные исследователи предлагают использовать для изучения образов городов, когда в ключевые слова попадают ассоциации, связанные с городом [4], в процессе обучения языкам [8; 2], в проектах, связанных с умными вещами, например «умных очков» [10]. Данный метод визуализации нагляден и прост в интерпретации. Именно поэтому его выбрали как один из элементов инфографики в обзорном исследовании научных статей по этнопсихолингвистике. В то же время, метод чувствителен к количеству ключевых слов. Если слово встречается намного чаще остальных, в визуальном представлении оно будет зрительно доминировать. Как отмечают ряд авторов, число учтенных элементов на каждое ключевое слово чаще всего распределяется по экспоненциальному закону [15].

Построение облака ключевых слов с нормированием

Постановка задачи и объект исследований

Целью исследование было подобрать способ визуализации ключевых слов, демонстрирующий многообразие тем и проблем, освещаемых авторами научных статей по направлению – этнопсихолингвистика. «Этнопсихолингвистика – это направление, которое рассматривает речевую деятельность в преломлении национально-культурной специфики и с учетом национально-культурной составляющей дискурса» [3, С.23]. В качестве объекта исследований использовался корпус текста, состоящий из списков ключевых слов из научных статей отечественных и иностранных авторов. Сам по себе анализ научной литературы по ключевым словам не нов [6]. При этом, данный вид анализа, может не отражать всей широты проблемно-целевой области направления. Не исключены и ошибки в выборе значимых терминов. "Ошибки в подборе ключевых слов негативно отражаются как на привлечении читателей, так и на общем имидже журнала" [1]. С другой стороны, ключевые слова являются уже структурированными и разделенными между собой. А ведь априори текстовые данные в своем исходном виде являются неструктурированными [14, p. 327]. Новизна данного исследования заключается в модернизации подготовки данных для финальной визуализации. Список статей получен по поисковым запросам «этнопсихолингвистика» на ресурсах: Научная электронная библиотека (https://elibrary.ru) и Google Академии (https://scholar.google.com). Всего было выделено 131 научная статья, содержащая 812 ключевых слов, что чуть больше 6 на статью. Значение соответствует рекомендациям по количеству ключевых слов для научных статей [5]. Корпус текста был разбит на наборы, где один набор – это ключевые слова одной научной статьи. В качестве способа визуализации текстов были рассмотрены два основных подхода: облако-тегов и связный граф. Облако-тегов представляет собой совокупность ключевых слов или словосочетаний, изображенных на плоскости различными способами. Связный граф это способ визуализации элементов текстов, построенных на основе статистических, алгебраических и теоретико-множественных отношений между ними. В таком графе в вершинах указываются ключевые слова, словосочетания или понятия, а ребра – их отношения [11].

Выявление проблемы доминирующего слова и ее решение

Метод «облако слов (тегов)» применяется прежде всего для выявления самых встречаемых слов. Вполне естественно, что в результате слово «этнопсихолингвистика» выделилось в визуальном представлении значительно крупнее других. Остальные ключевые слова из-за доминирующего положения указанного термина визаулизируются не столь явно. Задачей исследования было показать не одно или два, а многообразие тематик, которые авторы научных статей обозначают через ключевые слова. Для решения проблемы было принято решение изменить вес ключевых слов внутри каждого из наборов. Если в классическом представлении облака тегов вес ключевого слова равен 1, то в новом подходе внутри каждого из наборов вес равнялся отношению единцы к количеству слов, т.е. 1/n, где n — количество слов в наборе. Например, в статье «Актуальные проблемы этнопсихолингвистики» В.А. Пищальниковой указывается автором 6 ключевых слов: этнопсихолингвистика, межкультурная коммуникация, методология, речевое действие, языковое сознание, образ мира [7]. Следовательно, вес каждого из слов будет равен: 1/6 ≈ 0.17. Таким образом влияние доминирующего слова «этнопсихолингвистика» уменьшено. В итоге визуально выделяется больше ключевых слов, характерных для данного направления: «этнопсихолингвистика», «языковое сознание», «психолингвистика», «лингвокульторология», «ассоциативный эксперимент», «межкультурная коммуникация», «концепт», «культура». У метода есть и свой недостаток. Если автор указывает только одно ключевое слово, то его вес остается без изменения, равным единице. С другой стороны, такие случаи скорее исключения и могут отсеиваться или заменяться на среднее значение по всей выборке. В текущем исследовании на 131 статьи не было ни одного подобного случая. В общем применение метода представляет собой следующую последовательность действий:

  • сбор метаданных, ключевых слов (тегов), создание из них корпуса текста;
  • разбивка корпуса текста на наборы, с единым разделителем;
  • перевод на один язык всех исследуемых ключевых слов, так как ключевые слова могут быть не только на русском языке;
  • приведение слов к единому регистру (рекомендуется к прописному написанию);
  • леммитизация ключевых слов, если они не являются словосочетаниями;
  • расчет веса ключевых слов, согласно описанному принципу нормирования;
  • выведение на экран облака ключевых слов в качестве основного элемента инфографики;
  • дополнительным пунктом может быть формирование таблицы, в которой в порядке убывания указываются ключевые слова и их вес.

По итогам исследования был запущен проект по автоматизации методики. На текущий момент реализованы пункты 4, 6-8. Проект в виде приложения на языке python 3 с дополнительными библиотеками: wordcloud, matplotlib и pandas. Проект размещен на облачном сервисе хранения репозиториев исходного кода «GitFlic». На рисунке 1 представлена работа приложения: слева – облако ключевых слов в классическом представлении, справа – с дополнительным этапом нормирования.

1

Рисунок 1. Визуализация облака слов: классический и с этапом нормировки.

У метода с нормированием (облако слов, расположенное справа) нагляднее выделяются характерные для направления ключевые слова. Такой подход дает лучшее представление о тематиках, обсуждаемых в этнопсихолингвистике, что согласуется с изначальной целью исследования –наглядно продемонстрировать многообразие тематик, затрагиваемых исследователями в научных статьях. Обращает на себя внимание факт, что первые 4 ключевых слова остаются неизменными по весовому рейтингу, остальные из первой двадцатки слов могут сместиться на несколько позиций, но по составу список остается практически без изменений.

Выводы и обсуждение результатов

Новизна исследования заключается в дополнительном этапе нормирования при подготовке данных перед визуализацией. По итогам исследования можно сделать следующие выводы:

  • использование нормирования внутри блока ключевых слов позволяет уменьшить эффект доминирования одно или двух слов, что повышает наглядность и увеличивает количество обращающих на себя внимание слов;
  • случаи, когда ключевое слово представлено автором в единственном числе, маловероятен и противоречит методическим рекомендациям. С другой стороны, полностью такие случаи исключать нельзя. Требуется отфильтровывать или заменятся другим весовыми значениями, например, среднем по остальным блокам;
  • в ходе исследования была начата работа над проектом автоматизации метода на языке python 3. На момент создания статьи проект находится в процессе тестирования. После тестирования проект предполагается сделать открытым для привлечения большего числа разработчиков.

В качестве дальнейшего развития метода – совмещение с перспективной идеей визуализации ключевых слов в семантически и визуально различимых зонах. Как показывает одно из исследований, такой способ более эффективен для понимания основных тем, чем стандартное расположение [12].

На обсуждение выставляется два вопроса:

  • эффективность данного подхода для оценки не только ключевых слов, но и связного текста;
  • возможность потери значимости наиболее встречаемых ключевых слов на этапе нормализации.

Список литературы

  1. Абрамов Е. Г. Подбор ключевых слов для научной статьи / Е. Г. Абрамов // Научная периодика: проблемы и решения. – 2011. – № 2 (2). – С. 35-40. – EDN NRYFLJ.
  2. Кодзова З. Н. Визуальные средства в обучении иностранным языкам / З. Н. Кодзова // Вестник Майкопского государственного технологического университета. – 2018. – № 4. – С. 73-79. – EDN YXBNLN.
  3. Красных В. В. Этнопсихолингвистика и лингвокультурология: Курс лекций. — М.: ИТДГК «Гнозис», 2002. — 284 с.
  4. Кузовлев, С. С. Прием "облако тегов" при изучении образа крупных городов / С. С. Кузовлев, Е. С. Рыкунова, Н. А. Слука // География в школе. – 2022. – № 5. – С. 46-51. – EDN AISYPO
  5. Методические рекомендации по подготовке и оформлению научных статей в журналах,индексируемых в международных наукометрических базах данных / Ассоциация научных редакторов и издателей; под общ. ред. О.В. Кирилловой. М, 2017. 144 c. (Прил.).
  6. Морозова, А. В. Анализ ключевых слов научной периодики как метод повышения медиакомпетентности исследователя / А. В. Морозова // . – 2014. – № 2. – С. 68-74. – EDN QDPCBI.
  7. Пищальникова, В. А. Актуальные проблемы этнопсихолингвистики / В. А. Пищальникова // Этнопсихолингвистика. – 2018. – № 1. – С. 9-25.
  8. Селезнева, Д. А. Прием "Облако слов" в обучении русскому языку в средней школе / Д. А. Селезнева // Студенческий электронный журнал СтРИЖ. – 2022. – № 4(45). – С. 43-47. – EDN AABTOU.
  9. Пищальникова, В. А. Актуальные проблемы этнопсихолингвистики / В. А. Пищальникова // Этнопсихолингвистика. – 2018. – № 1. – С. 9-25.
  10. Adrian Aiordachioae and Radu-Daniel Vatavu. 2019. Life-Tags: A Smartglasses-based System for Recording and Abstracting Life with Tag Clouds. Proc. ACM Hum.-Comput. Interact. 3, EICS, Article 15 (June 2019), 22 pages. https://doi.org/10.1145/3331157.
  11.  Grigorieva, E.G. & Klyachin, Vladimir & Pomelnikov, Yuriy & Popov, Vladimir. (2017). Algorithm of Key Words Search Based on Graph Model of Linguistic Corpus. Vestnik Volgogradskogo gosudarstvennogo universiteta. Serija 2. Jazykoznanije. 16. 58-67. https://doi.org/10.15688/jvolsu2.2017.2.6.
  12. Hearst M. A., Pedersen E., Patil L., Lee E.,Laskowski and Franconeri S. , "An Evaluation of Semantically Grouped Word Cloud Designs," in IEEE Transactions on Visualization and Computer Graphics, vol. 26, no. 9, pp. 2748-2761, 1 Sept. 2020, https://doi.org/10.1109/TVCG.2019.2904683.
  13. Helic, D., Trattner, C., Strohmaier, M., & Andrews, K. (2011). Are Tag Clouds Useful for Navigation? A Network-Theoretic Analysis. International Journal of Social Computing and Cyber-Physical Systems, 1(1), 33-55. https://doi.org/10.1504/IJSCCPS.2011.043603.
  14. Jurafsky D., Martin H.J. Speech and Language Processing. 3rd ed. draftю http://www.web.stanford.edu/~jurafsky/slp3 (дата обращения 23.04.2023).
  15. Voss Jakob. Collaborative thesaurus tagging the Wikipedia way v2, 2006; http://arxiv.org/abs/cs.IR/0604036 research papers, volume 1, issue 1 https://doi.org/10.48550/arXiv.cs/0604036.

Интересная статья? Поделись ей с другими: