Настройка входной сигмоидальной функции активации в алгоритме обучения нейронных сетей

Мусакулова Жылдыз Абдыманаповна - старший преподаватель кафедры «Компьютерные информационные системы и управление» Международного университета Кыргызстана. (г.Бишкек, Кыргызская Республика)

Аннотация: Предлагается модифицированная модель искусственного нейрона, с нелинейным входом, позволяющая увеличить количество настраиваемых параметров за счет использования сигмоидальной функции активации с настраиваемым наклоном на входе нейрона, тем самым обеспечивающая высокую скорость обучения.

Ключевые слова: Нейрон, нейронные сети, нелинейный синапс, сигмоида, градиент, нелинейный вход.

Введение. Искусственные нейронные сети, представляют собой устройства, использующие огромное число элементарных условных рефлексов, называемых синапсами. Такой синапс представляет основу возможных механизмов памяти и поведения [1]. В настоящее время искусственные нейронные сети применяются для решения очень многих задач обработки изображений, управления роботами и непрерывными производствами, для понимания и синтеза речи, для диагностики заболеваний людей и технических неполадок в машинах и приборах, для предсказания курсов валют и т.д.

Искусственный нейрон представляет собой математическую модель биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, вход умножается на соответствующий вес, называемый синаптическим весом, и все произведения суммируются. Первоначально формальная модель нейрона была предложена Мак-Каллоком и Питтсом [2]. В дальнейшем эта модель совершенствовалась и в настоящее время [3,4] под нейроном Мак-Каллока-Питтса понимают многовходовой нелинейный преобразователь с взвешенными входными сигналами.

На входы j-го нейрона поступает m сигналов x₁, x₂, ..., x_m, которые взвешиваются усилителями, реализующими синаптические веса, после чего взвешенные значения w_j1x₁ ,w_j2x₂, ..., w_jmx_m вместе с пороговым значением θ_j, именуемым также сигналом смещения, подаются на сумматор Σ, в результате чего формируется внутренний сигнал v_j. Выход нейрона моделируется с помощью некоторой нелинейной функции ψ(v_j), называемой в теории искусственных нейронных сетей либо активационной, либо передаточной функцией формального нейрона [3,4]. Таким образом, математическая модель Мак-Каллока-Питтса может быть записана в виде:

В настоящее время реализованы [1,3,4] различные модификации первоначальной модели нейрона, такие как: квадратичный нейрон, реккурентный нейрон, нейрон Фукушимы, динамический нейрон, нейрон с настраиваемым параметром функции активации [4-8]. Но, несмотря на разнообразные модификации формальной модели нейрона, многие проблемы пока еще не удается разрешить.

Одной из основных проблем, возникающих в процессе обучения нейронной сети, остается нормализация входных данных, так как входные сигналы поступают из внешней среды, и являются отличными от тех, которые передаются внутри нейронной сети от одного нейрона к другому. Кроме того, нет однозначного ответа по формированию начальных условий для настраиваемых параметров, в частности для весовых коэфициентов, характеризующих интенсивность синаптической связи.

Модель нейрона с входным нелинейным преобразованием. В работе предлагается модифицированная структура новой модели нейрона, позволяющая использовать нелинейный входной сигнал. Нелинейность на входе достигается за счет использования нелинейной функции, в частности сигмоидальной функции [5-8] которая является монотонно возрастающей всюду дифференцируемой функцией, и имеет запись следующего вида:

где α – параметр наклона сигмоидальной функции активации, v – индуцированное локальное поле нейрона. При этом если настраивать параметр наклона сигмоидальной функции [5], в процессе обучения сети, можно добиться значительного улучшения процесса обучения и увеличить скорость сходимости ошибки обучения. Кроме того, предлагается использовать параметр усиления на входе сигмоидальной функции.

Модифицированная модель нейрона j с входным нелинейным преобразованием представлена на рисунке 1.

Таким образом, входные нелинейные сигналы подаются на сумматор вместе со стандартным смещением. Также, в отличие, от стандартной модели нейрона, на его выходе предлагается использовать усилитель с настраиваемым коэффициентом усиления. В свете вышесказанного, выходной сигнал нейрона k, будет описываться следующим выражением:

где y_k (n) – выходной сигнал нейронана итерации n, y_k (n) – настраиваемый параметр усиления,v_k (n) – индуцированное локальное поле нейрона определяется как:

где y_j (n) – выходные сигналы предыдущего нейрона j, θ_kj (n) – входные сигналы усиления, θ ̂_k (n) – смещение сигнала, подаваемое на выход нейрона k, ψ(∙) – нелинейная сигмоидальная функция активации, m – количество выходных сигналов предыдущего слоя нейрона. С учетом (2) и (4) выходной сигнал нейронной сети будет определяться следующим выражением:

где λ_k(n) – настраиваемый параметр усиления, α_kj – настраиваемый коэффициент сигмоидальной функции активации (2) на входе нейрона (параметр наклона сигмоиды), y_j(n) - выходные сигналы предыдущего слоя, θ_kj(n) – параметр усиления на входе нейрона, θ ̂_k (n) – смещение сигнала для выходной функции активации, m – количество выходных сигналов предыдущего слоя (рисунок 2).

При обучении нейронной сети, реализованной с помощью модели нейрона с нелинейным входом, количество настраиваемых коэффициентов возрастает в два раза (рисунок 1), что обеспечивает уменьшение количества этапов обучения. В модифицированной модели нейрона с нелинейным входом, настраиваются параметры наклона функции активации на входе, значения входных сигналов усиления, значение порогового сигнала или так называемого сигнала смещения и значение коэффициента усиления на выходе нейрона.

Алгоритм обучения сети. Процедура обучения нйеронной сети сводится к процедуре коррекции весов связей нейронной сети. Целью процедуры коррекции весов есть минимизация функции ошибки.

Перед началом обучения весовые коэффициенты нейронной сети устанавливаются случайным образом. На первом этапе на вход нейронной сети в определенном порядке подаются учебные примеры. На каждой итерации вычисляется ошибка для учебного примера (6) (ошибка обучения) и по определенному алгоритму производится коррекция весов нейронной сети. Целью процедуры коррекции весов является минимизация ошибки. На втором этапе обучения производится проверка правильности работы нейронной сети. На вход нейронной сети в определенном порядке подаются контрольные примеры. На каждой итерации вычисляется ошибка для контрольного примера (ошибка обобщения). Если результат неудовлетворительный то, производится модификация множества учебных примеров и повторение цикла обучения нейронной сети. Схема передачи сигнала представлена на рисунке 2.

Ошибка обучения нейронной сети e_k (n), определяется как:

где d_k(n) – желаемый выход сети (учитель), y_k(n) – выходной сигнал нейрона (3).

Изменения коэффициентов нацелены на пошаговое приближение выходного сигнала y_k (n) к желаемому d_k (n). Эта цель достигается за счет минимизации функции стоимости E:

где e_k(n) – сигнал ошибки.

Согласно градиентному методу обучения нейронной сети, синаптический вес на каждом шаге обучения изменяется по следующему правилу:

где η – положительная константа, называемая параметром скорости обучения, w(t) – предыдущее значение массива весов, w(t+1) – последующее значение массива весов, g(t) – вектор градиента, вычисленный в точке w(t):

Для минимизации функции стоимости E, необходимо двигаться в сторону обратную градиенту. Градиент, представляет собой направление, в котором достигается наибольший прирост значений [4]:

где m – общее число весовых коэффициентов.

Таким образом, в данном методе [3] корректировка весов синаптической связи выполняется в направлении противоположном вектору градиента (8).
Рассмотрим применение градиентного метода для минимизации функции стоимости E (7) для нейрона входным нелинейным преобразованием. Сигнал ошибки выхода нейрона определяется выражением (6). Для нейрона с нелинейным входом предлагается настраивать параметр наклона α сигмоидальных функций на входе, сигнал усиления на входе θ, смешение на выходе θ ̂ и коэффициент усиления выходного сигнала α.

Введем настраиваемый массив параметров B:

где α=[α₁… α_n]^T.Соответственно настраиваемый массив параметров B на каждом шаге обучения будет изменяться по следующему правилу:

где η – положительная константа, называемая параметром скорости обучения, B(t) – предыдущее значение массива настраиваемых коэффициентов, B(t+1) – последующее значение массива настраиваемых коэффициентов, g(t) – вектор градиента, вычисленный в точке B(t):

где m – общее число настраиваемых коэффициентов нейрона, ∇E(B) - градиент.

Примеры моделирования. Рассмотрим пример обучения двухслойной нейронной сети, состоящей из четырех нейронов, на примере решения задачи «XOR». Обучаемая нейронная сеть состоит из трех нейронов входного слоя и одного нейрона выходного слоя, всего два входа и один выход. Для сравнения создадим классическую нейронную сеть, а также сеть с нелинейным входным преобразованием. В качестве алгоритма обучения выбран градиентный метод. Начальные значения настраиваемых параметров были выбраны таким образом, чтобы согласовать начальные значения энергии ошибки, для разных нейронных сетей.

В результате обучения нейронной сети после прохождения 2000 эпох обучения, энергия ошибки обучения сети для классической нейронной сети составляет E = 2,4, а для нейронной сети с нелинейным преобразованием на входе E =8,1•10^-8 (рисунок 3), при этом начальное значение энергии ошибки составляет E≈5,3. Из рисунка 3 видно, что при обучении двухслойной нейронной сети на базе классической нейронной сети после прохождения 2000 итераций обучения нейронная сеть не обучена. А при использовании той же структуры нейронной сети, но на базе предложенной модели, использующей нелинейные входы, уже после прохождения первых нескольких циклов обучения, энергия ошибки сильно уменьшается. При этом после 1500 итераций достигает 8,1•10^-8. При этом важно учитывать, что начальные значения энергии ошибки для обоих случаев практически одинаковы.

На рисунке 4 и рисунке 5 представлена динамика изменения настраиваемых параметров нейронной сети с входным нелинейным преобразованием, для входного (рисунок 4) и выходного (рисунок 5) слоев.

Из рассмотренного примера обучения видно, что при использовании двухслойной нейронной сети с входным нелинейным преобразованием, обучение нейронной сети происходит в несколько раз быстрее и качественнее, чем обучение двухслойной нейронной сети на базе традиционной формальной модели нейрона. При этом все настраиваемые параметры двухслойной нейронной сети после прохождения 1500 итераций переходят в установившееся состояние.

Выводы. Использование нейронных сетей на основе нейронов с входным нелинейным преобразованиемявляется более эффективным, по сравнению нейронными сетями на основе стандартной модели нейрона. Благодаря нелинейному сигналу, поступающему на адаптивный сумматор, не требуется нормирование входного сигнала, подаваемого в нейронную сеть. Кроме того, при обучении нейронной сети добавляется больше рычагов воздействия, благодаря дополнительным настраиваемым коэффициентам, таким как параметр наклона сигмоидальной функции, входные и выходные сигналы усиления и смещение сигнала, подаваемое на сумматор. При использовании новой модели нейрона с нелинейным входом количество настраиваемых параметров в два раза больше чем у классических нейронных сетей, что значительно улучшает и ускоряет процесс обучения сети.

Список литературы:

1. Горбань А. Н., Дунин-Барковский В. Л., Кирдин А. Н. и др. Нейроинформатика - Новосибирск: Наука. Сибирское предприятие РАН, 1998. 296с.
2. McCalloch W. S., Pitts W. A logical calculus of the ideas immanent in nervous activity. // Bull. Math. Biophys. 1943. P.115–133.
3. Martin T. Hagan, Howard B. Demuth, Mark H. Beale. Neural network design. PWSPub. 1996. 736p.
4. Бодянский Е. В. Искусственные нейронные сети: архитектура, обучение, применение. Харьков: ТЕЛЕТЕХ, 2004. 372 с.
5 Савченко Е. Ю., Мусакулова Ж. А. Настройка сигмоидальной логистической функции активации в алгоритме обратного распространения. //Материалы Международной конференции «Проблемы управления и информационных технологий». Проблемы автоматики и управления. Бишкек. 2010. С. 241–245.
6. Миркин Е. Л., Мусакулова Ж. А. Модель искусственного нейрона с нелинейными синаптическими входами. //Проблемы автоматики и управления. Бишкек. 2012. Т.1. С.79–89.
7. Мусакулова Ж. А. Модель нейрона с входной сигмоидальной функцией активации. //Сборник материалов VII Международной научно-практической конференции «Перспективы развития информационных технологий». Новосибирск. 2012. С.90–96.
8. Мусакулова Ж. А. Обучение многослойной нейронной сети с нелинейным сигмоидальным входом. Новый университет. Серия: Технически науки. №3(9). Йошкар-Ола. 2012. С.38–45.

Интересная статья? Поделись ей с другими: