УДК 004

Методы поиска потенциально опасного контента в мессенджере Телеграм

Ануфриев Владислав Владимирович – студент кафедры Информационных систем и программирования Кубанского государственного технологического университета.

Янаева Марина Викторовна – кандидат технических наук, доцент, зав. кафедрой Информационных систем и программирования Кубанского государственного технологического университета.

Аннотация: В данной статье приводится описание методов для того, чтобы обнаруживать потенциально опасный контент в социальной сети Телеграмм вовремя и посредством этого предотвращать возникновение опасных ситуаций в реальной жизни. Приводится описание видов потенциально-опасной информации и методов по борьбе с ней, а так же описывается решение поставленной проблемы в виде создания телеграмм чат-бота и наделением его требуемого функционала для решения широкого спектра задач.

Ключевые слова: телеграмм, потенциально опасный контент, чат-бот, виртуальный интеллектуальный помощник, социальные сети, опасные ситуации, машинное обучение, анализ информации, мониторинг.

В современном мире через Интернет распространяется огромное количество опасного или же вредоносного контента. Ежедневно злоумышленники распространяют подобный контент в различных ресурсах в глобальной сети, что не обошло и один из самых популярных мессенджеров Телеграм. [2] Потенциально опасной информацией можно считать любую информацию, которая несет негативный характер по отношению к пользователю, которая может нанести вред его жизни, здоровью, моральному состоянию. Таким контентом могут служить к примеру вредоносные ссылки, террористические документы и сообщения, агитационные стикеры различных тематик, незаконное распространение контента для взрослых, сообщения наносящие вред моральному здоровью, нецензурная лексика, распространение наркотических и психотропных веществ и множество других примеров. Из-за шифрования трафика и безопасного обмена данными Телеграм очень популярен среди мошенников, преступников, аферистов, киберпреступников, людей осуществляющих незаконную деятельность. Тем самым перед нами встает задача рассмотрения методов поиска потенциально опасного контента для предотвращения распространения нежелательных материалов через социальную сеть Телеграм. [3]

Отметим то, что значимость процесса анализа информации в глобальной мировой паутине в рамках вопроса решения задач противодействия преступности поднимается на самых различных уровнях, от частных лиц до крупных корпораций. Выделим в первую очередь методы, которые можно использовать для нахождения конкретных слов в тексте. Поделим их на две следующие группы:

Методы, которые опираются на экспертную обработку информации;
Автоматизированные методы.

В нашей работе больше будет представлять интерес вторая группа, ведь она позволяет обрабатывать информацию автоматически, когда же первый способ является более долгим, ведь в основе его лежит создание черных списков или реестров вручную.

На примере поиска информации о незаконных действиях можно обозначить три основных метода, которые будут относиться к направлениям исследований в области, где применяется machine learning (машинное обучение) для своевременного обнаружения и дальнейшего устранения угроз, построения прогнозов и отслеживания или мониторинга незаконной деятельности, в частности террористической активности. [1]

Этими методами являются [5]:

Процесс сбора данных, которые потребуются для анализа;
Различные методики анализа информации в форме текстов;
Анализ и исследование топологии различных сообществ в глобальной сети Интернет.

Отдельно отметим подход к системному или комплексному обнаружению потенциально-опасных личностей и интернет-сообществ используя технологии, которые связаны с большими данными. [4] Данное направление является на сегодняшний день одним из самых перспективных и востребованных на рынке.

Оно подразумевает помимо анализа данных из глобальной сети, так же сбор огромного количества информации из всевозможных источников. Приведем примеры:

История мобильных звонков;
Билеты на транспортные средства;
Таможенные декларации;
Факты пересечения границы;
Информация об аренде автомобилей;
Криминальные сводки по региону.

Главным математическим инструментом, который используется для обнаружения различных фактов подозрительной активности или деятельности пользователей являются методы интеллектуального анализа данных, которые применимы для моделирования типовых сценариев поведения людей, а так же поиска исключений, которыми являются факты, отличающиеся абсолютно от поведения, которое принято считать нормальным. После же эти выделенные отдельные факты будут проходить процедуру более пристального анализа с привлечением экспертов из разных сфер на предмет наличия угроз жизни людей, к примеру террористической информации и информации о крупных правонарушениях. [6]

Так же перейдем к немного другому виду потенциально опасной информации, который очень сильно распространен с глобальной сети. Этим видом являются вредоносные ссылки. Вредоносные ссылки могут навредить пользователю, а именно как его кошельку, так и его устройству. Пострадать в данном случае может и персональный компьютер, так и смартфон. Платформа Телеграм предоставляет широкие возможности по интеграции в нее виртуальных помощников, которые будут помогать пользователям распознавать угрозу.

В Телеграм присутствует как текстовая информация, так и аудио, видео, фото информация. Вся она может являться потенциально опасной для пользователей. Современные методы позволяют шифровать сообщения, а для их расшифровки могут уйти недели или месяцы, а также большое количество денежных ресурсов. В любом случае, существующим шифрам можно обучить виртуального помощника, чтобы снизить временные затраты на расшифровку.

Чат-бот телеграмм отлично может справиться с выявлением потенциально опасного контента, но опять же перед нами встает следующая проблема реализации. Нам нужно будет обучить его для того, чтобы он делал распознавание независимо от пользователя. Для этого нам потребуется обучить его алгоритмам распознавания входящей информации.

Следующей задачей после обнаружения источников потенциально опасной или экстремистской информации является постановка этих источников на контроль - мониторинг. [5] В рамках этого контроля необходимо периодически скачивать новую информацию из этих источников, строить описательные модели, по которым можно понять, что именно и как интенсивно обсуждается. Также полезно строить прогнозные модели, которые позволяли бы оценить, какая тема находится на восходящем тренде обсуждения, а какая теряет свою актуальность. Важно уметь находить и анализировать исключения - сообщения, тематика которых существенно отличается от предыдущих, а также находить случаи изменения тренда, т.е. ситуации, когда прогноз активности какой-либо тематики существенно отличается от наблюдаемой.

Тем самым отметим то, что при решении поставленной задачи, и наделением виртуального чат-бота умением решать данные алгоритмы и выдавать требуемые данные, можно автоматизировать процесс мониторинга за подозрительными лицами или группами, процесс распознавания потенциально опасной информации. Решая поступающие проблемы можно сделать небольшой вывод о том, что любая поступающая информация, которая будет подана ассистенту будет переработана, проанализирована, а далее при обнаружении подозрительной активности мы сможем поставить ситуацию на постоянный контроль, постепенно выявляя новые нарушения, либо же разбираясь в ситуации подробнее, будем принимать решение о том, что данное лицо или группа чисты перед законом. Автоматизация процесса мониторинга так же будет иметь ряд плюсов, к примеру составление графиков, отчетных документов, диаграмм и многого другого, что позволит в дальнейшем так же обучать модели виртуальных помощников новым трюкам и приемам, которые позволят быть на шаг впереди злоумышленников.

Список литературы

IDEAS Factory - Detecting Terrorist Activities: Making Sense. https://www.slideserve.com/fawzia/detecting-terrorist-activities-making-sense
Антивирусный бот для Telegram [электронный ресурс] https://habr.com/ru/post/278497/ (дата обращения 10.08.2022)
Павел Дуров: Telegram удалял и удаляет нелегальный контент по жалобам правообладателей [электронный ресурс] https://habr.com/ru/news/t/393209/ (дата обращения 10.08.2022)
Abbasi A., Chen H. Applying authorship analysis to extremist-group web forum messages, IEEE Intelligent Systems. 2005. V. 20. P. 67-75
Sebastian A. Rios and Ricardo Munoz. 2012. Dark Web portal overlapping community detection based on topic models. Proceedings of the ACM SIGKDD Workshop on Intelligence and Security Informatics (ISI-KDD '12). ACM, New York, NY, USA, Article 2, 7 pages
Agarwal S., Sureka A. Applying Social Media Intelligence for Predicting and Identifying On-line Radicalization and Civil Unrest Oriented Threats. November 2015. arXiv:1511.06858 [cs.CY].

Интересная статья? Поделись ей с другими: