Методика для определения информативных признаков новостных текстов и проверка их значимости

Атанаева Мираим Кажмухамбетовна – магистр государственного управления, вице-президент АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Булдыбаев Тимур Керимбекович – директор Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан РК.

Оспанова Улжан Абаевна – магистр менеджмента, проектный менеджер Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Акоева Инесса Георгиевна – главный аналитик Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Нурумов Кайдар Серикович – магистр политических наук, проектный менеджер Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Баймаханбетов Мухит Абилкасымович – главный аналитик Департамента прикладных исследований и разработок АО «Информационно-аналитический центр» Министерства образования и науки Республики Казахстан.

Аннотация: В настоящей статье приведены промежуточные результаты исследования по разработке методики оценки влияния открытых тестовых информационных источников на социум с применением машинного обучения. Работа структурирована по 4 основным этапам: 1) формирование и разметка корпуса новостных текстов, 2) построение индексов измерения значимости информативных признаков, 3) статистическое моделирование и 4) построение модели для машинного обучения. Для решения поставленных задач на каждом этапе работ применялась совокупность методов и подходов, включая социологический и экспертный опросы, метод теоретического анализа и обобщения научной и аналитической литературы, аддитивный метод построения индексов, общенаучные методы наблюдения, систематизации, обобщения, статистический метод, лингвистические методы контекстуального, дискурсивного, интерпретативного, прагматического и компонентного анализа.

Основное внимание в данной работе сосредоточено на определении информативных признаков, указывающих на резонансность публикаций, а также их экспериментальной апробации на малом корпусе текстов. Всего было отобрано и рассмотрено 16 информативных признаков, объединенных в 4 информативные группы: 1) достоверность; 2) объективность/предвзятость; 3) тональность; 4) резонансность публикации. При последующей экспериментальной апробации данных признаков, множественная регрессия и факторный анализ показали статистически-значимые результаты влияния выбранных переменных на резонансность публикации. Данные возможно применить для построения модели машинного обучения.

Полученные результаты предназначены для разработки информационной системы для автоматизированного процесса обнаружения указанных информативных признаков на расширенном корпусе новостных публикаций в целях выявления потенциально-резонансных статей и оценки их влияния на социум.

Ключевые слова: СМИ, резонансность, влияние на социум, машинное обучение, информативные признаки.

Финансирование: Данная статья подготовлена в рамках реализации ПЦФ № BR05236839 по теме «Разработка информационных технологий и систем для стимулирования устойчивого развития личности как одна из основ развития цифрового Казахстана»

Концепция методики оценки

По данным «Worldometer» ежедневно в мире публикуется свыше 380 млн. газет, 4,7 млн. публикаций в блогах, 570 млн. записей в Twitter и 5 млрд поисковых запросов Google. Количество пользователей Интернет в мире достигло 4,1 млрд человек (54% от населения страны)1. Ускоренное развитие и внедрение новых технологий позволяет СМИ использовать новые подходы и каналы распространения информации среди всех слоев населения. Но при этом возрастает вероятность распространения материалов, искажающих правду или ошибочных сведений. Как следствие, СМИ могут воздействовать на формирование общественного мнения для достижения определённых целей. Данные тенденции подрывают доверие к современной журналистике как к институту.

По результатам исследования Edelman Trust Barometer 2019, проведенного в 27 странах, доверие к информации правительства и медиаканалам остается низким. Растет разрыв между информированной публикой2 и основной массой населения (2018 – 13 пунктов, 2019 – 16). Несмотря на это, интерес к новостным публикациям растет. Количество людей часто просматривающих новости, возросло на 22 пункта: с 50 в 2018 году до 72 пунктов в 2019. Вместе с тем население обеспокоено, тем, что недостоверная информация или фейковые новости используются в качестве оружия (73%). 63% респондентов утверждают, что в основном люди не знают, как отделить хорошую журналистику от слухов или лжи. Наиболее доверительным каналом новостной информации в исследованных странах остаются традиционные СМИ и поисковые системы. Меньше всего уровень доверия к социальным медиа и к так называемым «owned media» (блоги, сайты, приложения, собственные медиа ресурсы компании).

При этом, по сравнению с 2018 годом, доверие к «owned media» значительно возросло (с 41 до 49 пунктов)3.

Ввиду роста количества публикуемых ежедневно новостных сообщений и роста числа их потребителей, возникает потребность в автоматическом анализе текстов для определения, наиболее обсуждаемых тем, выявления и оценки влияния подозрительной новостной информации на социум [1]. Целью данного этапа исследования является определение значимых информативных признаков, влияющих на резонансность публикации для дальнейшего построения модели машинного обучения.

Авторами данной работы поставлены вопросы: (1) каковы информативные признаки новостной публикации и (2) каким образом они влияют на резонансность публикации.

Согласно недавнему исследованию Института изучения журналистики, Рейтер, онлайн новости, включая новостные сайты, агрегаторы новостей, поисковые системы, социальные сети, а также приложения для обмена сообщениями, – являются преобладающим источником новостей [2]. Эти технологии позволяют пользователям получать информацию из больших объемов текстовых данных и ориентироваться на различные компоненты экосистемы новостных СМИ, предоставляя конечным потребителям более эффективный и персонализированный доступ к новостям. В большинстве случаев данные инструменты работают на основе алгоритмов по подбору тематик из сферы интересов читателя. Это дает простор для изучения и визуализации временной значимости тем, как средства исследования новостного корпуса, сравнительного анализа в построении повестки дня и других манипулятивных техник [3, 4, 5]. Таким образом разработка инструментов автоматического анализа текстов становится как никогда актуальной.

Согласованность тем новостных медиа-текстов, тематические модели зарекомендовали себя как полезный инструмент для количественного анализа содержания в вычислительной социальной науке благодаря тому, что они предоставляют возможность расширить анализ до больших коллекций документов и облегчить трудоемкий процесс категоризации документов (кодирование документов). В контексте СМИ тематическое моделирование, в основном, подразделяется на два типичных варианта использования — это анализ повестки дня и анализ новостных фреймов. Само тематическое моделирование как процесс является одним из инструментов автоматизированного анализа корпуса новостных текстов и оценки их влияния на социум.

Для Казахстана эта работа является первой в области определения степени значимости информативных признаков и определения их влияния на резонансность публикации, где в комбинции применены методы количественного исследования и статистического моделирования. Также впервые был сформирован корпус казахстанских публикаций новостного характера и произведена их разметка по критериям достоверности, объективности, резонансности, социальной значимости, политизированности, наличия манипулятивных техник, казахстанского содержания и принадлежности к сфере в разрезе тематики.

Методология

Для решения поставленных задач на каждом этапе работ применялись различные методы и подходы, такие как: социологический опрос, экспертный опрос, метод теоретического анализа и обобщения научной и аналитической литературы, аддитивный метод построения индексов, общенаучные методы наблюдения, систематизации, обобщения, статистический метод, лингвистические методы контекстуального, дискурсивного, интерпретативного, прагматического и компонентного анализа.

Научная новизна работы заключается в прикладном эмпирическом характере исследования. Впервые основное внимание было уделено информативным признакам оценки публикаций новостного характера и их влиянию на резонансность.

Проведенные работы в рамках реализации научно-технической программы являются одним из первых подготовительных этапов работ по выработке методических основ применения информационной системы оценки влияния открытых текстовых информационных источников на социум применительно к системе социального доверия.

Определение информативных признаков

Согласно исследованиям Бушмана и соавторов [6], а также Стэкса и соавторов [7], – для формирования, определенного мнения или фокусирования аудитории на конкретных темах, СМИ используют различные техники и механизмы для манипулирование мнением. В их числе прайминг, построение повестки дня (agenda-building, agenda setting), эффект привратника, подпороговая подача информации, искажение информации, демократия шума или отвлечение внимания общественности и другие. В этой цепочке техник главным информативным признаком, обладающим свойством производить оценку влияния, можно считать наличие манипулятивных техник, политизированность, генереализацию и искажение информации.

Другим важным аспектом в публикациях является тональность подачи информации. Все три вариации проведения сентимент-анализа (статистический, использование словарей и правил, а также смешанный анализ) подразумевают выявление в тексте определенных слов и словосочетаний с различной тональностью. Новости негативной тональности, как правило, привлекают внимание аудитории в первую очередь, читатели также с большей вероятностью реагируют на них, ставя отметки «нравится», «не нравится» и комментируя их. Заметив эту тенденцию, журналисты и редакторы сознательно искажают заголовки новостей, чтобы привлечь аудиторию [8].

Одним из главных принципов, применяющейся в профессиональной журналистской этике по Д. Брюэру, является объективность [9]. Под объективностью информации авторами в целом подразумевается отсутствие в публикациях предвзятости. Это сбалансированное освещение тем и взглядов, отражение разных мнений, изучение противоположных точек зрения и проверка того, что ни одна из сторон не оказалась недостаточно отраженной в материале. Непроверенные новости, написанные с ярко выраженным добавлением личных мнений, читатели могут воспринять неверно. Появляются поддельные новости, и проблема социальной поляризации возрастает также, как необходимость обнаружения фейковых новостей. Однако нелегко отличить правду от вымысла в свете скорости обмена информацией в Интернете, а также разнообразием и сильной субъективностью новостей [10].

Определение достоверности и точности информации является сложной задачей. Законодательства различных стран, в т.ч. и Казахстана обязывают журналистов публиковать информацию, соответствующую действительности, призывают к поиску истины и стремлению к достоверности. В связи с этим одной из важных задач является определение информативных признаков, которые косвенно могут определить вероятную достоверность публикации. Достоверность информации может определяться если автор ссылается на компетентные источники информации. Определенного доверия к информации заслуживают ссылки в публикациях на официальные документы (НПА, официальные договора, соглашения и др.) [11]. Другим способом проверки достоверности может выступать сравнение источников, т.е. освещение одного и того же события различными изданиями - наличие дискурса с другими публикациями [12].

В исследованиях, где изучался вопрос перепостов и комментирования новостей, важным элементом оценки публикации являлся факт распространенности публикации и создание определенного резонанса в обществе. Основными критериями оценки резонансности могут выступать наличие определенного количества читателей, заинтересованность читателей и их реакция – стремление комментировать ту или иную новость и делиться ею [13, 14].

Таким образом, обзор научной и аналитической литературы позволил выявить косвенные информативные признаки, которые, по мнению авторов, можно применить в оценке публикаций. В частности: (1) наличие ссылки в публикации на компетентный источник, (2) ссылка на первоисточник, (3) соответствие заголовка содержанию публикации, (4) освещение одного и того же события различными изданиями: кросс-чекинг, наличие дискурса с другими статьями, (5) наличие автора в статье, (6) наличие проверяемых фактов в статье, (7) репутация издания, на котором опубликована информация, (8) наличие манипулятивных техник, (9) политизированность публикации, (10) наличие в медиа-тексте выраженного личного мнения автора публикации, (11) генереализация текста, (12) тональность, (13) медиа-охват (количество просмотров), (14) количество шейров, (15) количество комментариев к публикации, (16) тональность комментариев. Отобранные информативные признаки авторами исследования были сгруппированы в 4 информативных критерия:

  1. достоверность;
  2. объективность/предвзятость;
  3. тональность;
  4. резонансность публикации.

Проверка значимости отобранных информативных признаков

Практическая процедура комплексной оценки значимости включала в себя следующие этапы: (1) формирование выборки корпуса публикаций, (2) построение индексов для измерения информативных признаков публикации, (3) построение статистической модели и (4) построение модели машинного обучения.

Источниками публикаций новостного характера выступили открытые информационные новостные Интернет-порталы. Новостные сайты являются основными источниками получения информации новостного характера для основной части населения Казахстана.4 По результатам исследования Агентства GlobalWebIndex, одним из важнейших трендов в современной коммуникативистике является резкое повышение влияния онлайн и электронных СМИ5.

Для проведения расчетов по распознаванию информативных признаков был сформирован корпус текстов, в который вошли 5211 текстов новостного характера по 5 информационным источникам. При формировании корпуса была проведена 2-х этапная систематическая кластерная выборка. Такая выборка отвечает необходимым статистическим стандартам (каждая единица выборки имеет равный шанс быть отобранной), что в свою очередь позволит перенести выводы апробации на генеральную совокупность статей [15].

Для проведения комплексной оценки значимости были отобраны следующие критерии резонасности: количество просмотров, количество комментариев, количество репостов. Только у двух из пяти источников были представлены требуемые данные. В этой связи базой выборки для построения индексов выступили публикации двух новостных интернет-порталов. Общее количество публикаций данных источников составило 2508 ед. Процедура выборки для оценки значимости включает те же шаги что и процедура выборки для апробации, однако ограничивается 500 публикациями, с наибольшим количеством просмотров, распределенных согласно процентному соотношению между новостными сайтами. Отобранные публикации были просмотрены свыше 20 миллионов раз.

Для определения значимости информативных признаков была проведена разметка отобранных текстов. Тексты были размечены по 16 критериям достоверности, тональности, объективности и резонансности.

Промежуточный этап статистического моделирования необходим, в первую очередь, для определения значимости выбранных информативных критериев. Если критерий показывает значимость, тогда он переходит на этап машинного обучения. Если проигнорировать этап статистического моделирования, тогда даже после получения надежных результатов машинного обучения, будет существовать неопределенность в плане отсутствия понимания влияния информативных критериев на социум.

Конечно, результаты машинного обучения помогут создать автоматизированную систему анализа, но есть ли смысл в такой системе если она будет анализировать статистически не значимые информативные критерии?

Второй этап комплексной оценки заключается в построении индексов, с помощью которых можно количественно измерить критерии оценки публикации. Для проведения комплексной оценки значимости было предложено два подхода к построению индекса.

Первый подход – аддитивный, при таком построении переменным, которые составляют индекс, присваиваются статистические веса, которые в последующем складываются для составления индекса. Как статистическая переменная такой индекс представляет собой непрерывную переменную, значения которой варьируются в промежутке [-100:100].

Второй подход – комплексное построение индекса с помощью техник уменьшения размерности [16] и факторного анализа [17].

Фактически два подхода представляют собой техники двух противоположных ответвлений машинного обучения: обучения без учителя (unsupervised learning) и обучения с учителем (supervised learning) [18].

Для того чтобы построить индекс можно использовать оба подхода. Однако в данном случае структура данных содержит в себе такой критерий оценки как резонансность в который входят такие непрерывные переменные как, (1) количество просмотров, (2) количество лайков, (3) количество комментариев, (4) количество шейров.

Вышеупомянутые переменные имеют четкое обозначение и могут служить в качестве зависимых переменных в статистической модели. Однако, лишь «количество просмотров» обладает полнотой данных во всех медиа ресурсах, что оставляет ее в качестве единственного кандидата на роль подходящей зависимой переменной. Другим моментом, который выступает в пользу построения индекса согласно аддитивному подходу, является наличие четко обозначенных теоретически, информативных критериев публикации. Только лишь при отсутствии таковых, наиболее адекватным шагом было бы использование второго подхода.

Таким образом, структура данных и наличие теоретических концептов позволяют использовать аддитивный подход к построению индексов, цель которых адекватно измерить предложенные критерии оценки влияния публикации на социум.

Множественная регрессионная модель комплексной оценки значимости показала статистически значимый эффект влияния индексов достоверности, тональности и объективности на переменную «Количество просмотров». При увеличении индекса достоверности на один процент, при прочих равных условиях, на 2% увеличивается количество просмотров, увеличение индекса тональности на один процент ведет к уменьшению количества просмотров на 1/3 процента, увеличение индекса объективности на один процент ведет к уменьшению просмотров на 2,3%. Стоит отметить, что из трех результатов, тональность показывает наименьшие влияние на количество просмотров, однако это скорее всего связано с меньшим количеством критериев, по которым был построен индекс.

Так как статистические тесты показали наличие автокорреляции и гетероскедастичности остатков, для вычисления стандартных ошибок были использованы робастные стандартные ошибки Нью-Уэста [19], которые хоть и увеличили коридор отклонения средней величины, тем не менее все же показали высокий уровень статистической значимости коэффициентов при каждом из трех использованных индексов. Также R – квадрат модели показал умеренно хороший коэффициент детерминации (0.44), что указывает на то, что модель довольно неплохо отразила изучаемый феномен. Результаты были проверены посредством техники бутстрэпинг, которая показала незначительное отклонение от результатов модели.

Экспериментальное подтверждение на малом корпусе значимости влияния информативных признаков на резонансость

Полученные результаты комплексной оценки значимости позволили опредедить информативные признаки, влияющие на резонансность.

При проведении процедуры комплексной оценки значимости
16 информативных признаков были объединены в индексы (достоверность, тональность, объективность и резонансость) для экспериментального подтверждения влияния информативных признаков на резонансосность. Для экспертной и лингвистической разметки публикаций привлечены специалисты из различных областей (журналисты, лингвисты, политологи, аналитики и др.) в целях соблюдения объективности и обеспечения учета разносторонних мнений. Разметка корпуса была проведена по 5 параметрам: достоверный/недостоверный, объективный/предвзятый; тональность позитивная, нейтральная или негативная; наличие/отсутствие манипулятивных техник; политизированное/не политизированное содержание текста.

Для обеспечения объективности, верификации данных и повышения надежности результатов экспертной разметки при обработке и анализе результатов экспертной разметки применялся метод триангуляции данных. Для оценки результатов разметки использовано ПО Inter-Rater Agreement, учитывающее каппу Лайта и Флейса, альфу Криппендорфа с функцией поддержки недостающих данных, находящееся в открытом онлайн доступе [20]. В ходе обработки данных с помощью ПО Inter-Rater Agreement происходила фильтрация и отбраковка мнений и определялась принадлежность публикации к классу и параметру. В целом кодировка характеризуется довольно высоким результатом согласия по всем переменным. Также данные разметки обрабатывались с применением программы SPSS для выявления фактических характеристик собранного корпуса, его анализа и описания закономерностей.

По результатам лингвистической разметки текстов сформированы словари и словосочетания по 4 признакам, использованным в процессе оценки (таблица 1). В соответствии со сформированными словарями, проведена работа по подсчету количества упоминаний слов и словосочетаний по каждой публикации.

Таблица 1. Результаты лингвистической разметки.

Словари

Количество

слов

словосочетаний

Тональность

3291

6955

Политизированность

62

238

Манипулятивные техники

887

1479

Компетентные источники

1167

Экспертная и лингвистическая разметка проведена по признакам согласно таблице 2. Результаты разметки приведены в таблицах 2 и 3.

Полученные результаты

Для определения взаимозависимостей между признаками и показателями резонансности (просмотры, шейры, комментарии) построена матрица корреляции (график 1).

График 1. Матрица корреляции.

На графике идеальная корреляция показана большими синими кругами, значительная – меньшими голубыми и незначительная маленькими прозрачными или же бежевыми. Корреляционная матрица показывает, что переменная «количество просмотров» имеет незначительную корреляцию с переменными «политизированность», «тональность» и «наличие компетентных источников в публикациях».

Коэффициенты модели показывают положительное влияние на резонансность таких переменных как манипулятивные техники, наличие компетентных источников и объём текста. С их повышением повышается вероятность того, что публикация окажется резонансной. В то же время повышение частоты слов с нейтральной и позитивной тональностью ведет к понижению вероятности резонансности статьи.

При прочих равных условиях:

Факторный анализ

Факторный анализ, проведенный на переменных «тональность», «манипулятивные техники», «политизированность», «объём текста» показал результаты, указанные в таблице 2. Для удобства были оставлены лишь показатели со значением выше 0,6.

Таблица 2. Результаты факторного анализа.

Factor1

Factor2

объем текста

0.887

 

тон. негативная

 

0.814

тон. позитивная

0.764

 

тон. нейтральная

0.903

 

наличие манипулятивных техник

 

0.914

политизированность

 

0.640

 

Factor1

Factor2

кумулятивная дисперсия

0.461

0.876

Анализ показал, что такие переменные как «негативная тональность», «манипулятивные техники» и «политизированность» составляют один фактор. Второй фактор составляют такие переменные, как «объем текста», «позитивная» и «нейтральная» тональность. Оба фактора объясняют 87% всех данных.

Множественная регрессия

На основе полученных факторов построена модель множественной регрессии для определения влияния признаков на резонансность публикации. В качестве независимых переменных были использованы факторы, построенные в ходе исследовательского факторного анализа, указанные в таблице 1.

Цель построения модели множественной регрессии – выявить, влияют ли информативные критерии на характеристики резонансности публикаций. В качестве зависимой переменной было взято «количество просмотров».

Полученные факторы были сохранены как регрессионные очки и использованы как две независимые переменные в модели множественной регрессии. Также в качестве независимых переменных был использован аддитивный индекс, состоящий из таких переменных как «достоверность», «объективность», «социальная значимость». В качестве зависимой переменной было взято «количество просмотров».

Результаты множественной регрессии показывают, что стандартизированный фактор 1, состоящий из таких переменных как «объем текста», «позитивная» и «нейтральная» тональность, - показывает статистически значимое влияние на стандартизированное количество просмотров.

С повышением фактора на один юнит, количество просмотров падает
на -0.094898 стандартных значений. Таким образом, модель хоть и имеет низкий R квадрат, тем не менее показывает, что статистически значимое влияние имеется и может быть использовано для построения модели машинного обучения.

Установление зависимости объёма публикации от информативных критериев

Для установления зависимости объёма публикации от информативных критериев был также использован факторный анализ, который показал, что если убрать объём публикации, то одного фактора достаточно для группировки таких переменных как позитивная, негативная и нейтральная тональность, наличие манипулятивных техник и политизированность статьи (таблица 3).

Таблица 3. Результаты факторного анализа.

 

Фактор

тон. негативная

0.967

тон. позитивная

0.845

тон. нейтральная

0.718

наличие манипулят. техник

0.987

политизированность

0.867

 

Фактор 1

кумулятивная дисперсия

77

Полученный фактор объясняет 77% всех данных. Фактор был использован в модели множественной регрессии наряду с переменной индекс, состоящей из переменных «достоверность», «объективность», «социальная значимость».

Модель показывает статистически значимые результаты влияния переменной индекс и фактор 1 на объём текста публикации. Так, увеличение индекса на 1 юнит ведет к уменьшению объёма текста на -0.55659 стандартных значений, увеличение фактора 1 на один юнит ведет к увеличению объёма публикации на 0.76207 стандартных значений.

Таким образом, модель показала статистически значимое влияние переменных при довольно высоком R квадрате – 0,61. Полученные результаты могут быть использованы для построения модели машинного обучения.

Заключение и выводы

Полученные результаты комплексной оценки значимости информативных признаков свидетельствуют о том, что на статистически значимое количество просмотров опубликованной новости влияют следующие предложенные информативные признаки публикации: достоверность, объективность и тональность. К примеру, уменьшение индексов объективности и тональности положительно влияет на количество просмотров, в свою очередь, увеличение индекса достоверности увеличивает количество просмотров. Данные результаты были получены посредством статистической модели множественной линейной регрессии.

Кроме указанных результатов, модель демонстрирует хороший коэффициент детерминации (R квадрат=0.44). Однако анализ показал наличие проблемной структуры данных особенно в отношении автокорреляции и гетероскедастичности остатков. Решением проблемы может выступить сбор и формирование новых данных или изменении спецификации модели, тем не менее для проверки значимости информативных признаков, данные были скорректированы посредством использования робастных стандартных ошибок (HAC), а также непараметрической техники бутстрэп. Предложенные информативные признаки публикации на основе результатов статистического моделирования могут служить основой для формирования автоматизированной модели машинного обучения.

Результаты экспериментального подтверждения позволили определить влияние отобранных информативных признаков на признаки резонансности. Результаты множественной регрессии показывают, что стандартизированный фактор 1 состоящий из таких переменных как объем текста, позитивная и нейтральная тональность показывает статистически значимое влияние на стандартизированное количество просмотров. Модель хоть и имеет низкий R квадрат, тем не менее показывает, что статистически значимое влияние имеется и может быть использовано для построения модели машинного обучения.

Результаты факторного анализа, в свою очередь, показали статистически значимые результаты влияния переменной индекс и фактор 1 на объём текста публикации. Модель показала статистически значимое влияние переменных при довольно высоком R квадрате. Результаты также могут быть использованы для построения модели машинного обучения.

Таким образом, различные модели позволили определить информативные признаки, влияющие на резонансность. Также по результатам исследования установлено, что выявление признаков с использованием словарей обеспечивает большую надежность результатов.

Помимо этого, установлено, что выявление признаков с использованием словарей обеспечивает большую надежность результатов. Таким образом, тестирование выбранных информативных признаков в различных моделях каждый раз подтверждает их значимость. Следующим этапом работы станет выработка алгоритма машинного обучения, на основе которого будет разработана информационная система, позволяющая автоматизировать процесс отбора публикаций в той или иной мере указывающей на новостные тексты потенциально оказывающие влияние на читателей и позволяющей обратить внимание на подозрительные публикации, требующие дополнительного внимания для снижения потенциально-негативного влияния.

Вместе с тем, полученные результаты анализа по некоторым признакам необходимо подтвердить на более широком корпусе публикаций.

Список литературы

  1. Korenčić D., Ristov S., Еnajder J. Document-based topic coherence measures for news media text // Expert Systems with Applications. – 2018. – Vol. 114. –P. 357-373.
  2. Newman N., Fletcher R., Kalogeropoulos A., David A., Levy L., Kleis Nielsen R. Digital News Report 2017 / Reuters Institute for the Study of Journalism, 2017.
  3. Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // C. Inf Retrieval. – 2011. – Vol. 14. – P: 178-203. https://doi.org/10.1007/s10791-010-9141-9.
  4. Shu K., Mahudeswaran D., Liu H. FakeNewsTracker: a tool for fake news collection, detection, and visualization // Comput Math Organ Theory. – 2018. – https://doi.org/10.1007/s10588-018-09280-3.
  5. Kim Y., Kim S., Jaimes A., Oh A. A computational analysis of agenda setting // In Proceedings of the Companion Publication of the 23rd International Conference on World Wide Web Companion. – 2014. – P. 323–324). – ACM.
  6. Bushman B.J., Whitaker J.L. Media Influence on Behavior // Encyclopedia of Human Behavior. – 2012. – P. 571-575.
  7. Stacks D.W., Zongchao C.L., Spaulding C. Media Effects / Editor(s): James D. Wright // International Encyclopedia of the Social & Behavioral Sciences (Second Edition). –2015. – P. 29-34
  8. Gu J., Tian J., Wang X., Ling H. Does Negative News Travel Fast? Exploring the Effect of News Sentiment on Interactive Spiral / Stephanidis C. (eds) // HCI International 2017 – Posters' Extended Abstracts. HCI 2017. Communications in Computer and Information Science. –2017. – Vol. 713.
  9. Brewer D. Editorial ethics for Twitter journalists // Media Helping Media. – 2009. [Электронный ресурс] URL: http://www.mediahеlpingmediа.оrg/training-resources/social-networking/401-editorial-ethics-for-twitter­journalists.
  10. Ko H., Hong J.Y., Kim S., Mesicek L, Na I.S. Human-machine interaction: A case study on fake news detection using a backtracking based on a cognitive system // Cognitive Systems Research. – 2019. –Vol. 55. – P. 77-81, https://doi.org/10.1016/j.cogsys.2018.12.018.
  11. Conroy N., Rubin V., Chen Y. Automatic deception detection: methods for finding fake news // Proceedings of the Association for Information Science and Technology. – 2015. –Vol. 52(1). – P. 1-4.
  12. Rubin V., Conroy N., Chen Y. Towards News Verification: Deception Detection Methods for News Discourse. – 2015. – P. 13.
  13. Su M.H, Liu J., McLeod D.M. Pathways to news sharing: Issue frame perceptions and the likelihood of sharing // Computers in Human Behavior. – 2019. – Vol. 91. – P. 201-210. https://doi.org/10.1016/j.chb.2018.09.026.
  14. Hsueh M., Yogeeswaran K., Malinen, S. Leave Your Comment Below: Can Biased Online Comments Influence Our Own Prejudicial Attitudes and Behaviors? // Hum Commun Res. –2015. – Vol. 41. – P. 557-576. doi:10.1111/hcre.12059.
  15. Groves M.R., Floyd J.F., Couper M.P., Lepkowski J.M, Singer E., Tourangeau R. Survey Methodology (2nd Ed.). – New Jersey: John Wiley & Sons, 2009.
  16. Jolliffe I. T. Principal Component Analysis. (2nd Ed.). – New-York: Springer, 2002.
  17. Pages J. Multiple Factor Analysis by Example Using R. – Boca-Raton: Taylor & Francis Group, 2015.
  18. Ramasubramanian K., Singh A. Machine Learning Using R. – New-York: Apress, 2017.
  19. Newey W.K., West K.D. A Simple Positive-Definite, Heteroskedasticity and Autocorrelation Consistent Covariance Matrix // Econometrica. – 1987. – Vol. 55. – P. 703-708.
  20. Geertzen J. Inter-Rater Agreement with multiple raters and variables. [Электронный ресурс] URL: https://nlp-ml.io/jg/software/ira.


1 Статистические данные о количестве электронных медиа-публикаций [Электронный ресурс]. – URL: http://www.worldometers.info/

2 Возраст 25-64 лет, имеющие высшее образование, входящие в топ 25% дохода в своей возрастной группе в различных рыночных сферах, активные потребители медиа-информации, вовлеченные в общественно-политическую и предпринимательскую деятельность

3 Глобальное исследование «Барометр доверия Эдельман 2019» [Электронный ресурс]. – 2019. – URL: https://www.edelman.com/trust-barometer (дата обращения: 26.02.2019)

4 Результаты социологического опроса по оценке влияния открытых информационных источников (электронных СМИ) на социум. / АО «Информационно-аналитический центр» МОН РК; – Астана, 2018

5 Digital vs. Traditional Media Consumption. Analyzing time devoted to online and traditional forms of media at a global level, as well as by age and across countries. INSIGHT REPORT SUMMARY | Q1. 2017