Определение тональности и объективности новостных текстов словарным подходом

Атанаева Мираим Кажмухамбетовна – магистр государственного управления, вице-президент АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Булдыбаев Тимур Керимбекович – директор Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Оспанова Улжан Абаевна – магистр менеджмента, проектный менеджер Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Акоева Инесса Георгиевна – главный аналитик Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Нурумов Кайдар Серикович – магистр политических наук, проектный менеджер Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Баймаханбетов Мухит Абилкасымович – главный аналитик Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Аннотация: В статье представлены результаты использования лексико-словарного подхода к распознаванию и классификации таких информативных признаков как тональность и объективность новостных текстов. Для этого авторы использовали собственные, сформированные в рамках исследования словари позитивных и негативных слов, а также словарь именованных сущностей. Для повышения точности классификации тональности были использовали лингвистические шаблоны и правила. Полученные результаты разметки с применением лексико-словарного подхода возможно использовать в машинном обучении при определении тональности и объективности новостных текстов.

Ключевые слова: Тональность, объективность, СМИ, информативные признаки, словари.

Финансирование: Данная статья подготовлена в рамках реализации ПЦФ № BR05236839 по теме «Разработка информационных технологий и систем для стимулирования устойчивого развития личности как одна из основ развития цифрового Казахстана».

I. Введение и обзор научной литературы

Повсеместная цифровизация и ускоренное развитие социальных медиа-ресурсов коренным образом поменяли способы производства, распространения и потребления новостной информации. Чтение новостей стало неотъемлемой частью жизни общества. Увеличивается и доступность цифровой информации. Одновременно с этим данная тенденция создаёт и проблему, касающуюся распространения материалов, искажающих правду или ошибочных сведений, а также дезинформационных кампаний, которые влияют на доверие ко всей новостной экосистеме [1]. Как следствие, способы подачи информации во многом влияют на то, какое именно мнение будет сформировано у читателя. Данные тенденции (погоня за увеличением аудитории в ущерб качеству материала, использование ярких, кричащих заголовков, не соответствующих содержанию статьи, политизированность статей и др.) подрывают доверие к современной журналистике как к институту.

Группа исследователей установила, что из всех категорий фейковых новостей, ложные политические новости распространяются шире, глубже, и охватывают большее количество читателей [2]. Такие новости демонстрируют более широкую и ускоренную динамику распространения. Феррара и соавторы [3] указали, что с точки зрения содержания, негативные сообщения распространяются быстрее, чем позитивные, но позитивные сообщения достигают большего охвата аудитории, что указывает на то, что люди более склонны делиться позитивным контентом и отдают ему предпочтение, так называемый «позитивный уклон». Анализ тональности новостных сообщений представляет интерес с точки зрения определения достоверности и правдивости, распространяемой СМИ информации. При анализе сформированного авторами корпуса, подчеркивается, что сообщения с разной временной динамикой демонстрируют разные паттерны тональности: например, позитивная тональность характерна для ожидаемых событий, в то время как неожиданные события в основном характеризуются негативной тональностью. В других исследованиях [4] указывается, что эмоция текста является важным фактором, влияющим на «вирусность» публикации. Для определения тональности статьи использовался анализатор настроений Vader [5]. Авторы анализатора создают два различных набора параметров настроения: один для определения полного содержания и другой для заголовков новостных статей.

Определение и классификация тональности новостных текстов получила огромный интерес научного сообщества. Подходы к классификации тональности можно разделить на три класса: (1) на основе словарей/лексики, (2) на основе (контролируемого или бесконтрольного) машинного обучение и (3) гибридные методы [6]. Результаты анализа ряда исследований показывают, что использование в комбинации лексико-ориентированного подхода и машинного обучения дают лучшие результаты определения тональности новостных текстов. Сторонники лексического подхода широко используют аннотированные словари тональных слов. Терни и Литтман использовали лексику General Inquirer для проверки результатов неконтролируемого алгоритма обучения семантической ориентации слов [7]. Денеке, используя SentiWordNet, предложил методологию классификации полярности в многоязычной структуре [8]. Кроме этого исследователями анализируются контекстно-зависимые слова и отдельные лингвистические конструкции, которые с трудом выявляются алгоритмами машинного обучения [9]. Группой ученых разработана новая измерительно-семантическая ориентация, определяющая меру субъективности и сентиментальности в текстах [10]. Исследования указывают на то, что комбинированные подходы с использованием словарей и методов машинного обучения для создания смешанной процедуры работают лучше, чем любой из двух подходов по отдельности [11, 12]. Некоторые авторы концентрируются на совершенствовании лексического подхода. Так, в RuSentiLex все слова и их смыслы рассматриваются с трех точек зрения: (1) полярность: отрицательный, положительный или нейтральный; (2) источник: мнение, эмоция или неоспоримый факт; (3) различия в чувствах между словами. Группа исследователей в своей работе протестировали расширенный словарь WordNet-Affect, который включает эмоциональные слова для украинского и русского языков [6].

В международных принципах профессиональной этики в журналистике, подготовленной под эгидой ЮНЕСКО (1983 г.) 2 принципа посвящены объективности.

Девид Брюер, журналист и консультант по стратегии СМИ выделяет 6 основных принципов журналистики: (1) точность - достоверная информация, основанная на убедительных доказательствах, (2) беспристрастность: справедливое и непредвзятое освещение всех значимых взглядов, (3) справедливость: прозрачное, открытое и честное освещение на основе прямых действий, (4) оскорбление: предоставление конкурентного (стимулирующего) журнализма, который был бы чувствителен к ожиданиям аудитории (5) целостность: сотрудничество с группами, заинтересованными в использовании СМИ в своих интересах, (6) конфиденциальность: быть уважаемым и не подвергаться вторжению, если это не отвечает общественным интересам [13].

Ко и соавторы в своей работе отмечают, что непроверенные новости, написанные в субъективном ключе читатели могут воспринять неверно. Кроме того, появляются поддельные новости, и проблема социальной напряженности возрастает также, как необходимость обнаружения фейковых новостей [14].

Жанг и соавторы выделяют основные возможные способы борьбы с поддельными новостями: (1) повышение грамотности и когнитивных способностей отличать факты от вымысла, (2) корректирующий подход, делая доступным процедуры проверки фактов для аудитории, (3) обнаружение происхождение поддельных новостей и отфильтровать информацию из этих источников [15].

Таким образом информативный признак «объективность» рассматривается как достоверная информация, основанная на доказательной базе, проверяемых и неискажённых фактах, а также отражении разных мнений компетентных источников (персоналий, государственных органов, компаний и др.).

В данной статье авторы предложили алгоритм распознавания двух информативных признаков (1) тональность и (2) объективность в новостных текстах казахстанских СМИ, основанных на лексико-словарном подходе.

Основные вклады работы:

Сформированы словари позитивных и негативных слов, а также словарь именованных сущностей казахстанского содержания.
Предложен алгоритм распознавания тональности и объективности новостных текстов, основанных на словарном подходе. В дальнейшем размеченные тексты можно использовать для машинного обучения.

II. Данные

В исследовании мы используем корпус из 39 917 новостных текстов из 5 источников. Данные источники являются популярными среди населения и ежедневно публикуют новости о различных событиях, как в Казахстане, так и в мире.

В качестве контентных параметров для прогнозирования популярности мы оцениваем содержание статьи по тональности и объективности публикации с применением лингвистических словарей, сформированных авторами исследования совместно с ведущими лингвистами.

III. Методология и результаты

Распознавание тональности

Тональность - позволяет оценить эмоциональный тон подачи информации, фактов в публикации, который автор транслирует на аудиторию. Для определения тональности статьи мы использовали сформированные лингвистические словари: (1) словарь позитивных слов; (2) словарь негативных слов; (3) словарь с выделением слов, где применяется частницы-отрицателей (нехороший, неуважение, нецелесообразно и т.д.).

В целях повышения точности определения тональности содержания новостного текста были составлены слова отрицатели, усилители и уменьшители слов с негативной семантикой. Также были выработаны модели конструкций распознавания отрицателей, усилителей и уменьшителей тональности слов (таблица 1).

Таблица 1. Пример конструкций и слов с негативной семантикой: отрицатели, усилители, уменьшители.

№	Модели конструкций	примеры
Отрицатели
1	Не + глагол с положительной семантикой	Не читать, не заступаться, не знал
2	Не + глагол с негативной семантикой	Не убивать, не обманывать
3	Не + модальный глагол + глагол	Не мог выполнить (обещанное), не сумел доказать
Усилители
4	Слишком + слово с негативной семантикой	Слишком неграмотный
5	Очень + слово с негативной семантикой	Очень плохой
6	Крайне + слово с негативной семантикой	Крайне недружелюбный
УМЕНЬШИТЕЛИ
7	Не + очень + слово	Не очень хороший
8	Почти + не + глагол	Почти не знает
9	Практически + не + глагол	Практически не соответствует

Для определения позитивности и негативности новостного текста с использованием сформированных словарей, и формализованных лингвистических правил мы вычислили полярность публикации. Полярность новостного текста находится в интервале – [-1;1], где значение ближе к -1 означает, что текст является более негативным, ближе к 1 – позитивным.

Алгоритм определения полярности новостного текста состояла из следующих этапов.

1) Поиск и выделение по всему тексту отрицателей, усилителей и уменьшителей тональности и кодируем парные слова, к примеру, такие как «отнюдь не» или слишком неграмотный» как 1 слово.

2) Проводим процедуру распознавания частей речи и лемматизации.

3) Проводим выделение в тексте позитивных и негативных слов. Используем результаты процедуры два для нахождения слов из словарей тональности и кодированных уменьшителей, увеличителей и отрицателей. Алгоритм ищет кодированные элементы в рамках четырех слов до и четырех слово после найденного слова из словарей тональностей. Если алгоритм встречает слово отрицатель перед или после слова из словаря, то он переворачивает тональность слова. Также если алгоритм встречает слово увеличитель или слово отрицатель, то присваивает удельный вес равный 0.5.

Пример:

Погода была плохой (без частицы отрицателя тональность предложения (-1)

Погода была не плохой (с частицей отрицателем, тональность предложения (+1)

Погода была весьма неплохой (с увеличителем очень итоговая тональность (+1.5)

4) Вычисляем полярность предложения и нормализованную сумму текста. Нормализованная сумма вычисляется для приведения результатов полярности к промежутку [-1:1].

На рисунке 1 представлен пример анализа новостного текста с использованием сформированных словарей по информативному признаку «тональность».

Рисунок 1. Пример распознавания информативного признака тональности текста.

Распознавание объективности

Информативный признак «объективность» мы рассматриваем как достоверная информация, основанная на доказательной базе, проверяемых и неискажённых фактах, а также отражении разных мнений компетентных источников (персоналий, государственных органов, компаний и др.).

Для распознавания информативного признака «Объективность» приводилась степень объективности новостного текста. Степень объективности определяется следующими критериями достоверности: (1) наличие в новостном тексте статистической информации; (2) наличие в новостном тексте ссылки на компетентные источники (государственные органы, местные исполнительные органы, национальные компании, организации образования, организации, медиакомпании и др.) или персоны (политические или государственные служащие, депутаты, уполномоченные лица компаний или организаций и др.).

Для определения степени объективности статьи используются сформированные лингвистические словари: (1) словарь персоналий; (2) компетентные источники; (3) используемые связи при ссылке на источник.

Алгоритм определения степени объективности выглядит следующим образом. На первом этапе новостной текст делится на предложения. На втором этапе, проверяем наличие в тексте приводимой статистических данных и ссылок на информацию используя словари персон и компетентных источников. На третьем этапе проверяем наличие связочных слов из словаря, где приводится ссылка на компетентный источник. На четвертом этапе рассчитываем степень объективности новостного текста. Степень объективности находится в интервале – [0;1], где значение ближе к 0 означает, что текст субъективен, ближе к 1 – объективен. В таблице 2 представлен пример анализа новостных текстов.

Степень объективности рассчитывается по следующей формуле:

где,

СО – степень объектвиности

– количество предложений, где присутсвует ссылка на компетеный источник или персону

– общее количество предложений

Таблица 2. Пример распознавания информативного признака объективности в текстах.

№	Заголовок	Текст	Степень объективности
1	Водители Алматы придумали хитроумный способ объезжать пробки	В Алматы водители придумали необычный способ объезжать пробки - они выезжают на полосы встречного движения, включают аварийную сигнализацию и по крайней правой полосе двигаются вперед задним ходом. На это обратил внимание очевидец, снявший видео для страницы kris_p_almaty в Instagram. По словам автора ролика, подобный "флешмоб" он запечатлел в восемь утра на трассе перед Аэропортовским кольцом. Внимание, на видео присутствует ненормативная лексика! В комментариях под видео разгорелась целая дискуссия по поводу увиденного. Некоторые пользователи защищают предприимчивых водителей. Другие возмущаются, говоря, что таким образом они создают аварийную ситуацию. Также комментаторы спорят, нарушают ли водители правила дорожного движения или нет.	0,37
2	Казахстанские банки пытаются укрепить позиции в ожидании усиления кризиса - эксперты	Банковский сектор Казахстана пытается укрепить свои позиции в ожидании усиления кризиса, сообщают аналитики Ranking.kz. Отмечается, что казахстанские банки шестой месяц подряд обновляют исторический рекорд по объему совокупного собственного капитала - на конец апреля этого года его размер составил 2,6 триллиона тенге. После небольшого уменьшения в июне 2015 года на 44 миллиарда тенге общий банковский капитал увеличивался в среднем на 32 миллиарда тенге ежемесячно. По информации аналитиков портала, увеличение собственных средств поддерживает соответствующий уровень прироста размеров банковского сектора РК. Как отмечается, резкий рост начался также во второй половине прошлого года, когда в августе объем активов БВУ увеличился сразу на 1,2 триллиона тенге или на 11 процентов. Так, эксперты считают, что на фоне роста ожидания ухудшения состояния экономики банки Казахстана пытаются укрепиться и снизить зависимость от внешних ресурсов, увеличивая финансирование своей кредитной и иной деятельности за счет собственных средств. Они отмечают, что в течение первых посткризисных лет банковский сектор пытался найти опору, сокращая в первую очередь свои обязательства перед иностранными инвесторами. В этот период соотношение капиталов БВУ к активам падало до уровня в 3-4 процента. Затем ситуация стабилизировалась, участие собственных средств в активах банков выросло - с 2013 года по первую половину 2015 года показатель капитал/активы увеличился до уровня в 13-14 процентов. По данным портала, с августа до конца 2015 года на фоне пересчета стоимости валютных обязательств клиентов казахстанских банков соотношение собственных средств к размеру банковского сектора снизилось до 10 процентов, однако уже с начала текущего года рынок показывает некоторое восстановление позиций.	0,9

IV. Выводы и обсуждение

В статье мы описаны результаты применения лексико-словарного подхода в определении и классификации двух информативных признаков таких как тональность и объективность. Однако, несомтря на то, что мы достигли удовлетворительных результатов, необходимо улучшать имеющиеся словари путем их расширения и добавления новых слов. Использование лексико-словарного подхода предусматривает проведение данных процедур на систематической основе. Также возможно разметить каждое слово по ее эмоциональному воздействию на читателя и усовершенствует формализацию лингвистических шаблонов и правил. Результаты разметки с применением лексико-словарного подхода возможно использовать в машинном обучении при определении тональности и объективности новостных текстов.

Список литературы

Reis J.C.S., Correia A., Murai F., Veloso A., Benevenuto F., & Cambria E. Supervised Learning for Fake News Detection // IEEE Intelligent Systems. – 2019. – Vol. 34(2). – P. 76–81. doi: 10.1109/mis.2019.2899143
Vosoughi S., Roy D., Aral S. The spread of true and false news online // Science. – 2018. – Vol. 359. – P. 1146-1151.
Ferrara E., Yang Z. Quantifying the effect of sentiment on information diffusion in social media // PeerJ Computer Science. – 2015. 1:e26 https://doi.org/10.7717/peerj-cs.26
Keneshloo Y., Wang S., Han E.-H.S. Ramakrishnan N. Predicting the Popularity of News Articles // Proceedings of the 2016 SIAM International Conference on Data Mining. – 2016. – P. 441-449. 10.1137/1.9781611974348.50.
Hutto C.J., Gilbert E. VADER: A parsimonious rule-based model for sentiment analysis of social media text // Proceedings of the ICWSM'14. – 2014. – P. 216-225.
Bobichev V., Kanishcheva O., Cherednichenko O. Sentiment Analysis in the Ukrainian and Russian News // 2017 IEEE First Ukraine Conference on Electrical and Computer Engineering (UKRCON). – 2017. – P. 1050-1055. DOI: 10.1109/UKRCON.2017.8100410
Turney P.D., Littman M.L. Unsupervised Learning of Semantic Orientation from a Hundred-Billion-Word Corpus (Report No. ERB-1094) NRC 44929. – 2002.
Denecke K. Using SentiWordNet for Multilingual Sentiment Analysis // Proceedings of the 2008 IEEE 24^th International Conference on Data Engineering Workshop. – Cancun, 2008. – P. 507-512.
Ding X., Liu B., Yu P. A Holistic Lexicon-Based Approach to Opinion Mining // Proceedings of the 2008 International Conference on Web Search and Data Mining. – Palo-Alto, 2008. – P. 231-240.
Taboada M., Brooke J., Tofiloski M., Voll K., Stede M. Lexicon Based Methods for Sentiment Analysis // Computational Linguistics. – Vol. 37(2), 2011. – P. 267-307.
Tan S., Wang Y., Cheng X. Combining Learn-Based and Lexicon-Based Techniques for Sentiment Detection Without Using Labeled Examples // Proceedings of the 31^st Annual International ACM SIGIR Conference of Research and Development in Information Retrieval. – Singapore, 2008. – P. 743-744.
Mudinas A., Zhang D., Levene, M. Combining Lexicon and Learning Based Approaches for Concept-Level Sentiment Analysis // Proceedings of the First International Workshop on Issues of Sentiment Discovery and Opinion Mining. – New-York, 2012. – P. 1-8.
Brewer D. Editorial ethics for Twitter journalists // Media Helping Media. – 2009. [Электронный ресурс] URL: http://www.mediahеlpingmediа.оrg/training-resources/social-networking/401-editorial-ethics-for-twitterjournalists.
Ko H., Hong J.Y., Kim S., Mesicek L., Na I.S. Human-machine interaction: A case study on fake news detection using a backtracking based on a cognitive system // Cognitive Systems Research. – 2019. – Vol. 55. – P. 77-81. https://doi.org/10.1016/j.cogsys.2018.12.018.
Jang S.M., Geng T., Li J.-Y.Q., Xia R., Huang C.-T., Kim H., Tang J. A computational approach for examining the roots and spreading patterns of fake news: Evolution tree analysis // Computers in Human Behavior. – 2018. – Vol. 84. – P. 103-113. doi: 10.1016 /j.chb.2018.02.032.