УДК 004.04
Большие данные и машинное обучение
Ахмедова Саида Залимхановна – преподаватель кафедры Информационных систем и программирования Дагестанского государственного университета народного хозяйства.
Аннотация: Статья посвящена изучению Больших данных и их особенностей, актуальности назначения и значение для нашей по.вседневной жизни. Важное внимание уделяется способам обработки этого вида данных, в особенности, рассматривается машинное обучение как наиболее эффективный. На данных примерах показано то, как работают методы машинного обучения.
Ключевые слова: большие данные, машинное обучение, анализ информации, методы обработки.
Актуальность данной темы объясняется тем, что сегодня все чаще приходится оперировать новым типом данных – так называемыми “большими данными” или Big Data, открывающими расширенные возможности во многих сферах, где требуется постоянная обработка информации. Размеры таких массивов данных вызывают закономерные трудности при обработке, и для их разрешения требуются специальные технологии, в частности, технология Machine Learning – “машинное обучение”.
Цель статьи – проанализировать, что из себя представляют большие данные и как работает технология машинного обучения, а также на примерах рассмотреть принципы ее действия.
Задачи:
- Найти актуальную информацию по теме в научных работах и в интернет-изданиях;
- Обобщить и систематизировать доступную информацию, дополнив ее своими соображениями и наблюдениями;
- Произвести классификацию информации по заданной тематике;
- Сделать выводы по результатам проведенного анализа.
У не так давно возникшего термина “большие данные” (Big Data) до сих пор нет точного определения, оно имеет немало пониманий и трактовок. В самом простом смысле это массивы данных большого объема, которые обрабатываются с помощью особых автоматизированных инструментов. Такие данные выглядят как множество инфообъектов и откликов на них, причем специальные программы или технологии должны обрабатывать эти массивы очень быстро, с одинаково высокой скоростью работая со структурированными, а также с неструктурированными данными.
Big Data (большие данные) накапливаются без перерыва, как снежный ком, в каждой сфере существования человеческого социума, будь то медиа-ресурсы, реклама, банковская сфера, медицина, системы действующих устройств, которые ежедневно получают результаты множества подсчетов, к примеру, в рамках наблюдений метеорологов либо астрономов. Информация с различных систем наблюдения и слежения ежеминутно доставляется на сервера учреждений и компаний, которые практически используют большие массивы таких данных.
Методики обработки больших массивов данных необходимы, в первую очередь, для научной, исследовательской, а также коммерческой деятельности. Сегодня они становятся необходимы и для сферы госуправления, где внедряются новейшие системы категоризации и хранения информации.
Сегодня уже существует немалое число методов и технологий для обработки больших массивов данных. Среди них можно назвать:
Классы систем Data Mining
Действие технологии основывается на концепции нетривиальных шаблонов или паттернов для извлечения скрытых знаний и использовании специального математического инструментария.
Краудсорсинг
С помощью этой методики можно одновременно обрабатывать данные из огромного, фактически ничем не ограниченного числа источников.
А/В-тестирование
Из массива данных делается контрольная выборка совокупности элементов A, сопоставляемой с тестовой совокупностью B и иными подобными совокупностями, в которых некий элемент изменяется. Таким образом, программными методами определяется, изменение какого именно параметра более всего влияет на совокупность и ее целевые показатели.
Прогнозная или предиктивная аналитика
Методика позволяет предугадывать и планировать заранее, как поведет себя исследуемый объект либо субъект, и соответственно помогает принимать самое выгодное в каждой ситуации решение.
Сетевой анализ
По мере получения статданных, основываясь на них, проводится анализ созданных в сети узлов, означающих контакты между какими-либо сообществами пользователей и отдельно взятыми их участниками.
Machine Learning - машинное обучение
Методика основывается на анализе поступающей информации эмпирического типа и построении на базе полученных при ее обработке логических выводов и шаблонов алгоритмов самообучения машинных систем без их программирования.
Machine Learning – самая эффективная технология обработки больших массивов данных. В ее рамках выполняется задача по поиску в полученных эмпирическим путем данных четких закономерностей, следуя которым, даются прогнозы и выстраиваются обучающие систему алгоритмы. Такое обучение машинных систем относят к ИИ – искусственному интеллекту, поскольку его цель – не решить конкретную проблему, а обучить систему использовать решение какой-либо проблемы для любого количества аналогичных задач.
Машинное обучение использует инструменты матстатистики, классической математики и методику оптимизации, но обладает и собственными уникальными свойствами, способствующими скорости вычислений и дальнейшей способностью системы к самообучению. Некоторые методики Machine Learning связаны непосредственно с повышающими эффективность способами извлечения информации, используя интеллектуальный анализ, а также классы систем Data Mining.
Теперь не нужно программировать компьютерную или другие машинные системы для решения определенных задач, с помощью рассматриваемой технологии их обучают действовать и решать задачи самостоятельно.
В самом простом виде это выглядит следующим образом – выводится алгоритм, который обрабатывает получаемые данные, а далее действует на их базе. К примеру, вы загружаете код фотографий с исходным описанием: «на данном фото изображена собака» и «на этом фото нет собаки». Загружая затем в компьютер много других фотоизображений, можно будет увидеть, как он начнет сам сортировать картинки по заданному признаку.
Машинные системы могут не только учиться распознавать изображения, людей и животных на них, или местность, и разбивать их на категории. Они также выявляют и более незначительные особенности, на основе которых происходит сортировка, распознают числа и тексты, учитывают контекст применения определенных символов либо изображений.
Пока система обучается, результаты не всегда верны, ошибки уходят в базу данных, превращаясь в инструмент дальнейшего обучения и совершенствования. Такой процесс самосовершенствования теоретически может продолжаться бесконечно.
Выработано несколько основных моделей обучения машинных систем: 1) самый широкоприменяемый - обучение с учителем (supervised learning), а также 2) обучение без учителя или глубокое обучение (unsupervised learning) и 3) обучение с подкреплением или с частичным привлечением учителя (semi-supervised learning).
Первая модель работает так - в систему вводятся тренировочные данные, где информация представлена в виде пар данных: ввода и вывода. Машинной системе требуется постигнуть логику, которая связывает пары, построить соответствующий алгоритм и далее уже с помощью него соединять новые пары данных. Такой процесс происходит непрерывно, система все более совершенствуется, поскольку все пропущенные через нее данные и сделанные ошибки превращаются в ее “опыт”.
Обучение без учителя называют еще глубоким обучением. В нем не предполагается подсказок, выборка для обучения включает только данные ввода. Главная задача системы – самостоятельно обнаружить разнообразные взаимосвязи между заданными непарными параметрами. Выводы об имеющихся или отсутствующих взаимосвязях система делает сама, не опираясь на программные “шпаргалки”. От нее ожидают определенного результата – категоризация информации, разделение данных на кластеры, возможное обнаружение отклонений от заданных параметров. Чем больше происходит таких внутренних процессов и циклов самообучения, тем лучше и точнее система будет выполнять классификацию массивов данных.
Приведем несложный пример: известны статданные о весе и росте какого-то количества только что родившихся детей. Требуется разбить данные на три категории, так как для каждой из них необходимо произвести ползунки определенного размера. Так происходит кластеризация – разбивка на кластеры, однако зачастую она не настолько явная.
Следующая технология обучения машинных систем - обучение с так называемым подкреплением, что подразумевает либо частичное привлечение учителя, либо дополнительное взаимодействие со средой, вызывающее отклик со знаком плюс или минус.
Пройдя продолжительный период вычислений и операций согласно используемой математической модели, обучаемая машинная система подготовлена к обработке неизвестных данных. Алгоритмы уже четко отработаны и способны классифицировать, прогнозировать, разбивать на кластеры принципиально новые и ранее неизвестные массивы данных. Однако обучение на этом не заканчивается, система продолжает перманентно совершенствоваться, пока пополняется полученный ею опыт и база обработанных данных.
Технология машинного обучения для быстрой обработки больших массивов данных позволяет компаниям и предприятиям точнее оценивать риски инвестиций, повышать конверсию, лучше понимать запросы клиентов, облегчать поиск нужных товаров и т.д. Google Cloud и MIT Review Custom проводили опрос, в ходе которого 60 процентов опрошенных представителей компаний признали, что технология машинного обучения автоматизированных систем стала основной, используемой для обработки значительного объема данных. Кроме скорости и точности обработки, другими мотивами применения этой технологии стали: приобретение конкурентных преимуществ, желание получить скрытые знания из тех же данных, точнее анализировать поступающую информации, выпускать инновационные продукты.
Facebook одним из первых стал использовать математические модели и соответствующие программы для Machine Learning, и несколько лет назад открыл их код. В прошлом году этому примеру последовал Google’а TensorFlow, открыв свой набор ПО для обучения машинных систем. Все это способствует пониманию, как функционируют технологии машинного обучения, и помогает специалистам IT-сферы использовать их в других системах, популяризируя применение таких математических моделей. В результате самообучающийся искусственный интеллект, быстро обрабатывающий большие массивы данных, уже стал полноправной частью нашей повседневной жизни.
Список литературы
- Воронцов К. В. Лекции по машинному обучению. www.MachineLearning.ru. 2004-2018.
- Паньшин И. Машинное обучение [Электронный ресурс] – Режим доступа: https://newtonew.com/tech/machine-learning-novice.
- Соколов Е. Введение в машинное обучение и анализ данных [Электронный ресурс] – Режим доступа: http://docplayer.ru/73701440-Vvedenie-v-mashinnoe-obuchenie-i-analiz-dannyh.html.
- Машинное обучение: искусственный интеллект помогает упорядочить хаос боль.ших данных [Электронный ресурс] – Режим доступа: http://sap-technology.rbc.ru/mashinnoe-obuchenie.html.