УДК 004.04

Большие данные и машинное обучение

Ахмедова Саида Залимхановна – преподаватель кафедры Информационных систем и программирования Дагестанского государственного университета народного хозяйства.

Аннотация: Статья посвящена изучению Больших данных и их особенностей, актуальности назначения и значение для нашей по.вседневной жизни. Важное внимание уделяется способам обработки этого вида данных, в особенности, рассматривается машинное обучение как наиболее эффективный. На данных примерах показано то, как работают методы машинного обучения.

Ключевые слова: большие данные, машинное обучение, анализ информации, методы обработки.

Актуальность данной темы объясняется тем, что сегодня все чаще приходится оперировать новым типом данных – так называемыми “большими данными” или Big Data, открывающими расширенные возможности во многих сферах, где требуется постоянная обработка информации. Размеры таких массивов данных вызывают закономерные трудности при обработке, и для их разрешения требуются специальные технологии, в частности, технология Machine Learning – “машинное обучение”.

Цель статьи – проанализировать, что из себя представляют большие данные и как работает технология машинного обучения, а также на примерах рассмотреть принципы ее действия.

Задачи:

Найти актуальную информацию по теме в научных работах и в интернет-изданиях;
Обобщить и систематизировать доступную информацию, дополнив ее своими соображениями и наблюдениями;
Произвести классификацию информации по заданной тематике;
Сделать выводы по результатам проведенного анализа.

У не так давно возникшего термина “большие данные” (Big Data) до сих пор нет точного определения, оно имеет немало пониманий и трактовок. В самом простом смысле это массивы данных большого объема, которые обрабатываются с помощью особых автоматизированных инструментов. Такие данные выглядят как множество инфообъектов и откликов на них, причем специальные программы или технологии должны обрабатывать эти массивы очень быстро, с одинаково высокой скоростью работая со структурированными, а также с неструктурированными данными.

Big Data (большие данные) накапливаются без перерыва, как снежный ком, в каждой сфере существования человеческого социума, будь то медиа-ресурсы, реклама, банковская сфера, медицина, системы действующих устройств, которые ежедневно получают результаты множества подсчетов, к примеру, в рамках наблюдений метеорологов либо астрономов. Информация с различных систем наблюдения и слежения ежеминутно доставляется на сервера учреждений и компаний, которые практически используют большие массивы таких данных.

Методики обработки больших массивов данных необходимы, в первую очередь, для научной, исследовательской, а также коммерческой деятельности. Сегодня они становятся необходимы и для сферы госуправления, где внедряются новейшие системы категоризации и хранения информации.

Сегодня уже существует немалое число методов и технологий для обработки больших массивов данных. Среди них можно назвать:

Классы систем Data Mining

Действие технологии основывается на концепции нетривиальных шаблонов или паттернов для извлечения скрытых знаний и использовании специального математического инструментария.

Краудсорсинг

С помощью этой методики можно одновременно обрабатывать данные из огромного, фактически ничем не ограниченного числа источников.

А/В-тестирование

Из массива данных делается контрольная выборка совокупности элементов A, сопоставляемой с тестовой совокупностью B и иными подобными совокупностями, в которых некий элемент изменяется. Таким образом, программными методами определяется, изменение какого именно параметра более всего влияет на совокупность и ее целевые показатели.

Прогнозная или предиктивная аналитика

Методика позволяет предугадывать и планировать заранее, как поведет себя исследуемый объект либо субъект, и соответственно помогает принимать самое выгодное в каждой ситуации решение.

Сетевой анализ

По мере получения статданных, основываясь на них, проводится анализ созданных в сети узлов, означающих контакты между какими-либо сообществами пользователей и отдельно взятыми их участниками.

Machine Learning - машинное обучение

Методика основывается на анализе поступающей информации эмпирического типа и построении на базе полученных при ее обработке логических выводов и шаблонов алгоритмов самообучения машинных систем без их программирования.

Machine Learning – самая эффективная технология обработки больших массивов данных. В ее рамках выполняется задача по поиску в полученных эмпирическим путем данных четких закономерностей, следуя которым, даются прогнозы и выстраиваются обучающие систему алгоритмы. Такое обучение машинных систем относят к ИИ – искусственному интеллекту, поскольку его цель – не решить конкретную проблему, а обучить систему использовать решение какой-либо проблемы для любого количества аналогичных задач.

Машинное обучение использует инструменты матстатистики, классической математики и методику оптимизации, но обладает и собственными уникальными свойствами, способствующими скорости вычислений и дальнейшей способностью системы к самообучению. Некоторые методики Machine Learning связаны непосредственно с повышающими эффективность способами извлечения информации, используя интеллектуальный анализ, а также классы систем Data Mining.

Теперь не нужно программировать компьютерную или другие машинные системы для решения определенных задач, с помощью рассматриваемой технологии их обучают действовать и решать задачи самостоятельно.

В самом простом виде это выглядит следующим образом – выводится алгоритм, который обрабатывает получаемые данные, а далее действует на их базе. К примеру, вы загружаете код фотографий с исходным описанием: «на данном фото изображена собака» и «на этом фото нет собаки». Загружая затем в компьютер много других фотоизображений, можно будет увидеть, как он начнет сам сортировать картинки по заданному признаку.

Машинные системы могут не только учиться распознавать изображения, людей и животных на них, или местность, и разбивать их на категории. Они также выявляют и более незначительные особенности, на основе которых происходит сортировка, распознают числа и тексты, учитывают контекст применения определенных символов либо изображений.

Пока система обучается, результаты не всегда верны, ошибки уходят в базу данных, превращаясь в инструмент дальнейшего обучения и совершенствования. Такой процесс самосовершенствования теоретически может продолжаться бесконечно.

Выработано несколько основных моделей обучения машинных систем: 1) самый широкоприменяемый - обучение с учителем (supervised learning), а также 2) обучение без учителя или глубокое обучение (unsupervised learning) и 3) обучение с подкреплением или с частичным привлечением учителя (semi-supervised learning).

Первая модель работает так - в систему вводятся тренировочные данные, где информация представлена в виде пар данных: ввода и вывода. Машинной системе требуется постигнуть логику, которая связывает пары, построить соответствующий алгоритм и далее уже с помощью него соединять новые пары данных. Такой процесс происходит непрерывно, система все более совершенствуется, поскольку все пропущенные через нее данные и сделанные ошибки превращаются в ее “опыт”.

Обучение без учителя называют еще глубоким обучением. В нем не предполагается подсказок, выборка для обучения включает только данные ввода. Главная задача системы – самостоятельно обнаружить разнообразные взаимосвязи между заданными непарными параметрами. Выводы об имеющихся или отсутствующих взаимосвязях система делает сама, не опираясь на программные “шпаргалки”. От нее ожидают определенного результата – категоризация информации, разделение данных на кластеры, возможное обнаружение отклонений от заданных параметров. Чем больше происходит таких внутренних процессов и циклов самообучения, тем лучше и точнее система будет выполнять классификацию массивов данных.

Приведем несложный пример: известны статданные о весе и росте какого-то количества только что родившихся детей. Требуется разбить данные на три категории, так как для каждой из них необходимо произвести ползунки определенного размера. Так происходит кластеризация – разбивка на кластеры, однако зачастую она не настолько явная.

Следующая технология обучения машинных систем - обучение с так называемым подкреплением, что подразумевает либо частичное привлечение учителя, либо дополнительное взаимодействие со средой, вызывающее отклик со знаком плюс или минус.

Пройдя продолжительный период вычислений и операций согласно используемой математической модели, обучаемая машинная система подготовлена к обработке неизвестных данных. Алгоритмы уже четко отработаны и способны классифицировать, прогнозировать, разбивать на кластеры принципиально новые и ранее неизвестные массивы данных. Однако обучение на этом не заканчивается, система продолжает перманентно совершенствоваться, пока пополняется полученный ею опыт и база обработанных данных.

Технология машинного обучения для быстрой обработки больших массивов данных позволяет компаниям и предприятиям точнее оценивать риски инвестиций, повышать конверсию, лучше понимать запросы клиентов, облегчать поиск нужных товаров и т.д. Google Cloud и MIT Review Custom проводили опрос, в ходе которого 60 процентов опрошенных представителей компаний признали, что технология машинного обучения автоматизированных систем стала основной, используемой для обработки значительного объема данных. Кроме скорости и точности обработки, другими мотивами применения этой технологии стали: приобретение конкурентных преимуществ, желание получить скрытые знания из тех же данных, точнее анализировать поступающую информации, выпускать инновационные продукты.

Facebook одним из первых стал использовать математические модели и соответствующие программы для Machine Learning, и несколько лет назад открыл их код. В прошлом году этому примеру последовал Google’а TensorFlow, открыв свой набор ПО для обучения машинных систем. Все это способствует пониманию, как функционируют технологии машинного обучения, и помогает специалистам IT-сферы использовать их в других системах, популяризируя применение таких математических моделей. В результате самообучающийся искусственный интеллект, быстро обрабатывающий большие массивы данных, уже стал полноправной частью нашей повседневной жизни.

Список литературы

Воронцов К. В. Лекции по машинному обучению. www.MachineLearning.ru. 2004-2018.
Паньшин И. Машинное обучение [Электронный ресурс] – Режим доступа: https://newtonew.com/tech/machine-learning-novice.
Соколов Е. Введение в машинное обучение и анализ данных [Электронный ресурс] – Режим доступа: http://docplayer.ru/73701440-Vvedenie-v-mashinnoe-obuchenie-i-analiz-dannyh.html.
Машинное обучение: искусственный интеллект помогает упорядочить хаос боль.ших данных [Электронный ресурс] – Режим доступа: http://sap-technology.rbc.ru/mashinnoe-obuchenie.html.

Интересная статья? Поделись ей с другими: