УДК 004.032.26

Квантовые нейронные сети с непрерывной переменной на базе вариационной квантовой схемы

Исаков Дмитрий Игоревич – магистрант МИРЭА – Российского технологического университета.

Аннотация: В статье предлагается вариационная квантовая схема, реализующая квантовую нейронную сеть, предназначенную для запуска на квантовых компьютерах с непрерывной переменной, с последующим ее тестированием путем решения задачи распознания рукописных цифр из набора данных MNIST и анализом результатов ее применения на практике. Также определяются возможные пути преодоления возникших проблем.

Ключевые слова: квантовое машинное обучение, квантовые вычисления с непрерывной переменной, фотонные квантовые компьютеры, нейронные сети, квантовые алгоритмы.

Введение

Нейронные сети – одна из бурно развивающихся технологий машинного обучения, имеющая множество применений от классификации изображений до интеллектуальных лингвистических моделей. В силу увеличивающегося количества данных и увеличения сложности решаемых задач, возникает проблема достижения пределов вычислительных мощностей, использующих классические компьютеры. Данная проблема решаема как путем совершенствования компьютеров, в основе которых лежит классическая дискретная парадигма вычислений, так и за счет использования иной парадигмы, а именно квантовых вычислений. В силу текущего состояния дел в области квантовых вычислений и физической реализации соответствующих устройств, возникает необходимость в альтернативных путях преодоления недостатков дискретных квантовых вычислений, выражающихся в неустойчивости к помехам и проблематичностью одновременного использования большого количества квантовых состояний. Одним из путей решения проблемы является использование фотонных квантовых компьютеров, в основе которых лежит парадигма квантовых вычислений с непрерывной переменной. В данной работе предлагается схема квантовой нейронной сети, адаптированная для упомянутых устройств и проводится анализ ее работоспособности на примере задачи распознания рукописных цифр на базе набора данных MNIST.

Математические основы квантовых вычислений с непрерывной переменной

В отличии от предыдущей парадигмы, в качестве физического носителя информации используется свет. Как известно, с точки зрения квантовой механики он является одновременно и частицей (фотоном), и волной. С математической точки зрения состояние данной системы можно выразить распределением Гаусса, задающееся функцией Вигнера [1].

  (1)

 В данном случае в качестве базовой единицы квантовой информации используется бозонная мода, которая является квантовой системой с бесконечным количеством состояний. В состоянии суперпозиции представляет собой вероятностное распределение над своими состояниями [1]:

| ψˆ> = c0|0> + c1|1> + … + cn|n-1>, такое, что (2)

n при этом представляет собой состояний, эквивалентное количеству используемых фотонов (измерение отсечки), ck - амплитуду вероятностей, а квадраты их модулей — собственно вероятности получить именно такие значения состояний |n>, если провести измерение состояния бозонной моды прямо сейчас. Другими словами - это многомерное Гильбертово пространство, выраженное состояниями Фока. Геометрическое представление упомянутого состояния приведено на рисунке 1.

Рисунок 1. Геометрическое представление базиса Фока [2].

В свою очередь, система из нескольких бозонных мод с точки зрения математики представляет собой тензорное произведение каждой из квантовых мод, выраженное следующей формулой:

0⟩⊗|ψ0⟩⊗⋯⊗|ψm1⟩, (3)

где m – количество квантовых мод.

Стоит заметить, что количество состояний квантовой моды может быть бесконечным, но для удобства проведения квантовых вычислений как на симуляторе, так и на физическом оборудовании, оно подразумевается конечным.

В рамках рассматриваемой парадигмы существует возможность существует возможность совершать следующие операции [1]:

  1. Операция поворота R. Она поворачивает состояние фотона x и световой волны p в пространстве Фока на угол φ. Иными словами, данная операция является следующим линейным преобразованием:

; (4)

  1. Операция смещения D. Она смещает положение фотона x и световой волны p в пространстве Фока на параметр α так, что:

; (5)

  1. Операция сжатия S. Она сжимает поверхность пространства Фока на величину параметра r так, что:

; (6)

  1. Операция разделения световых лучей BS. Она разделяет луч света таким образом, что создается квантовая запутанность. С точки рения линейной алгебры данная операция представляет собой следующее преобразование:

; (7)

  1. Операция Керра К. Она является нелинейным преобразованием, предназначенное для отсева шумов и добавления нелинейности в модель. Математически преобразование представлено следующим образом:

. (8)

Математическая модель нейронных сетей

Математически, нейронная сеть представляет собой набор слоев L(x), представляющих собой аффинное преобразование [3]

Wx +b, (9)

где W – матрица весов, b – смещение, и нелинейной функции активации φ (⋅). Другими словами, нейронная сеть может быть описана как композиция слоев

L(x) = Lm o Lm-1 o … o L1(x), (10)

где

Lm = φ( )Wx+b.(11)

Параметры W и b для каждого слоя определяются путем итеративного процесса обучения на заданной функции потерь таким образом, чтобы множество {W1, W2, …, Wm, b1, b2, …, bm} было оптимальным. На рисунке 2 приводится визуализация данной модели.

Рисунок 2. Иллюстрация архитектуры классической нейронной сети [4].

Построение квантовой схемы нейронной сети с непрерывной переменной

В случае реализации нейронных сетей на фотонном квантовом компьютере, необходимо выразить классическое математическое выражение 11 как квантовое состояние в нотации Дирака

Lm = |φ( )Wx+b>. (12)

В рамках данной задачи можно выделить 3 этапа:

  1. Кодирование данных для обработки в квантовой среде: x -> |ψ(x)>
  2. Аффинное преобразование W|ψ(x)> + |b>
  3. Функция активации φ(|.>)

Сначала необходимо перевести упомянутое аффинное преобразование в плоскость квантовых вычислений. В парадигме квантовых вычислений на базе непрерывных переменных можно заметить, что любое [1] Гауссово преобразование фазового пространства можно выразить как равенство

, (13)

где W – симплектическая матрица, α ∈ CN ∼=R2N – комплексный вектор с реальной и воображаемой частью комплексного числа. Как можно заметить, данное преобразование напоминает аффинное преобразование в классической нейронной сети с добавлением сдвига, что органично ложится в концепцию квантовых вычислений с непрерывной переменной. По определению, симплектическая матрица является оной [5], если выполняется равенство

, (14)

, (15)

где I – единичная матрица, WT – транспонированная симплектическая матрица W.

Так как матрица W симплектическая, то можно применить разложение Эйлера [5]:

, (16)

где Σ обозначает диагональную матрицу, а K1 и K2 – симплектические и ортогональные матрицы.

Для осуществления преобразования, лежащего в основе классических нейронных сетей, необходимо, что бы матрица W была диагональной. Из этого следует, что матрицы K1 и K2 также диагональные. Эквивалентом данного разложения является композиция интерферометра U2 c гейтом сжатия S и интерферометром U1.

Говоря про смещение в нейронной сети, то его аналогом будет использование одноименного гейта, осуществляющего преобразование базиса Фока.

Последним шагом построения квантовой нейронной сети является применение функции активации. В силу природы квантовых вычислений с непрерывной переменной существует поддержка гейтов, осуществляющие нелинейные преобразования. В данном случае предлагается использовать преобразование Керра Ф, которое является эквивалентом нелинейной функции активации. Таким образом, итоговой моделью, являющейся аналогом нейронной сети в квантовой среде, будет композиция интерферометра U2 c гейтом сжатия S, интерферометром U1, гейтом квантового смещения D и гейтом Керра Ф. Итоговая схема изображена на рисунке 3.

В свою очередь, данная композиция может повторяться друг за другом нужное количество раз, тем самым образуя несколько слоев нейронной сети.

Рисунок 3. Иллюстрация слоя нейронной сети [собственная разработка].

Структура интерферометров зависит от того, какого типа нейронная сеть будет использоваться для решения задачи.

Построение вариационной квантовой схемы в контексте демонстрационной задачи и формулирование эксперимента

Для реализации квантовой нейронной сети на практике, необходимо использовать вариационную квантовую схему, структура которой изображена на рисунке 4. Применительно к случаю с нейронной сетью она будет представлять собой следующее: после предобработки данных, входные данные кодируются квантовой схемой, после чего они поступают на обработку нейронной сетью и в результате происходит измерение получившегося квантового состояния и в последствии оптимизация параметров квантовой схемы на основании получившегося результата с поправкой на функцию потерь.

Рисунок 4. Структура вариационной квантовой схемы в общем виде [6].

В случае с задачей распознавания символов архитектура данной схемы формулируется следующим образом:

  1. На вход будут подаваться изображения 28х28, требующие обработки, дабы размер вектора, передаваемого в квантовую схему, соответствовал количеству параметров, доступных для кодирования ею. В качестве инструмента предобработки данных будет использоваться классическая нейронная сеть с прямой связью. Первый слой преобразует матрицу изображения в вектор длиной 784, затем происходит его линейное преобразование в вектор меньшего размера путем использования линейных слоев с функцией активации ELU. Результат передается квантовой схеме. Размер вектора определяется количеством входных параметров, необходимых для кодирования информации в квантовые состояния;
  2. Предварительно обработанные данные должны быть закодированы в квантовые состояния. Для этого используются гейты сжатия, интерферометр, состоящий из гейтов разделения луча и поворота, а также гейтов смещения и Керра. Исходя из количества параметров, которые они принимают, можно вывести формулу размера входного вектора, определяемого формулой 8m-2, где m – количество квантовых мод в схеме. Данная формула определяется количеством параметров, принимаемых каждым типом гейта, что отражено в таблице 1;

Таблица 1. Количество входных параметров для каждого типа гейта [собственная разработка].

Тип гейта

Количество параметров

Сжатие

2m

Разделитель луча

2(m-1)

Поворот

m

Смещение

2m

Гейт Керра

m

  1. Закодированные данные обрабатываются вышеупомянутой квантовой нейронной сетью с нужным количеством слоев. В рамках решения задачи в качестве интерферометра U1 и U2 будет использоваться квантовая схема, состоящая из разделителей лучей BS, которые создают квантовую запутанность, и гейтов поворота на каждой моде. Полученная схема изображена на рисунке … и является эквивалентом полносвязной нейронной сети;

Рисунок 5. Структура интерферометра для квантовой полносвязной нейронной сети [собственная разработка].

  1. Результатом работы квантовой нейронной сети является измеренное состояние квантовой системы. Существует 3 способа измерения состояния: измерение вероятностей, математического ожидания или дисперсии. В последних двух случаях результат выражен единственным значением для каждой квантовой моды [4]. В первом же случае он выражен набором векторов, размер которых определяется по формуле nm, где n – количество измерений отсечки, m – количество мод [4];
  2. Полученный результат проходит через слой многопеременной логистической функции (SoftMax), которая преобразует полученные значения в вектор вероятностей, сумма значений которого равна 1, что позволяет узнать, с какой долей вероятности в процентах рукописный символ на входящем изображении был классифицирован.
  3. Для обновления параметров в процессе обучения предлагается использовать метод ADAM, так как он требует меньшее количество эпох для обучения, а также дает большую точность [7]. Параметром скорости обучения будет значение, используемое по умолчанию в таких популярных библиотеках машинного обучения, как Tensorflow, равное 0.001. Также технически возможно использование градиентного спуска. В качестве функции потерь будет использоваться среднеквадратическая ошибка, хотя использование кросс-энтропии тоже возможно.

Исходя из определенной архитектуры гибридной нейронной сети, можно сделать вывод, что квантовая схема может использовать от 2-х до 8-ми квантовых мод и при этом классифицировать все цифры при условии использования метода измерения вероятностей при соблюдении параметров, отраженных в таблице 2. Важно отметить, что выбор измерений отсечки основан на том, что размер результата измерения должен быть равен или больше количества классов, используемых в распознавании.

Таблица 2. Параметры, влияющие на размер результата измерения [собственная разработка].

Количество квантовых мод

Размер измерения отсечки

Размер результата измерения

2

4

16

3

3

27

4

2

16

5

2

32

6

2

64

7

2

128

8

2

256

В результате, задача будет решаться путем обучения гибридной нейронной сети с использованием квантовых схем от 2-х до 8-ми квантовых мод, 4-мя слоями квантовой нейронной сети, вероятностным способом измерения состояния, количеством эпох, равным 100 и размером обучающей выборки 600 изображений. В случае с 8-мью квантовыми модами будет использоваться как 2 слоя, так и 4 слоя квантовой нейронной сети. Кроме того, для сравнения с 8-мью квантовыми модами будет применен как вероятностный способ измерения, так и метод математического ожидания. Это позволит сравнить влияние количества слоев на качество модели, а также методов измерения с минимальными потерями в количестве символов, так как ранее было отмечено, что последим способом можно классифицировать только количество символов, равное количеству квантовых мод. В последнем случае количество эпох будет сокращено до 35. Ограничение на максимальное количество квантовых состояний в эксперименте было вызвано тем, что симуляция квантовых вычислений становится более требовательной к вычислительным ресурсам с увеличением количества квантовых мод. Кроме того, для реалистичности эксперимента, было принято решение исходить из количества квантовых мод, доступных на облачном квантовом компьютере X8 компании Xanadu [4]. Исполнение на реальном квантовом компьютере пока что не представляется возможным в силу отсутствия поддержки гейта смещения и Керра на реальных устройствах, доступных для публичного доступа.

Анализ результатов эксперимента

В результате эксперимента, проведенного с вышеуказанными условиями, были получены результаты, отраженные в таблице 3, где m – количество используемых квантовых мод, а n – размер измерения отсечки.

Таблица 3. Результаты обучения вариационной квантовой схемы [собственная разработка].

m

n

Метод измерения

Слои

Точность

Потери

Тестовая точность

Тестовые потери

2

4

Вероятностный

4

0.995

0.0087

0.69

0.0299

3

3

Вероятностный

4

0.987

0.0036

0.74

0.0161

4

2

Вероятностный

4

1

0.0166

0.85

0.0293

5

2

Вероятностный

4

0.997

0.0081

0.77

0.0165

6

2

Вероятностный

4

0.791

0.006

0.67

0.009

8

2

Вероятностный

2

0.998

0.001

0.68

0.0025

8

2

Вероятностный

4

0.995

0.001

0.78

0.002

8

2

Математическое ожидание

2

1

0.0042

0.9

0.0347

8

2

Математическое ожидание

4

1

0.004

0.9

0.03

Из приведенных данных можно сделать следующие выводы:

  1. При одинаковом размере измерения отсечки величина погрешности модели уменьшается с увеличением количества квантовых мод.
  2. При увеличении количества слоев с 2-х до 4-х происходит незначительное уменьшение точности при одновременном повышении качества валидационной точности, что свидетельствует о лучшей способности принимать данные не из обучающего набора данных.
  3. В случае с использованием метода измерения математического ожидания, качество модели улучшается вкупе с резким повышением валидационной точности, при этом количество распознаваемых символов снижается с 10 до 8. Кроме того, происходит уменьшение требуемого количества эпох для полного обучения модели. Необходимо провести эксперименты с 10-ю квантовыми модами и методом измерения математического ожидания для подтверждения данной гипотезы.
  4. В целом, модель имеет свойство переобучаться, особенно при использовании вероятностного метода измерения. Необходимо исследование влияния техник регуляризации (нормализация L1 и L2, метод статистических ансамблей, случайное исключение квантовых мод и/или вентилей в процессе обучения) на процесс обучения нейронной сети, а также проведение данного процесса с большим количеством данных.
  5. Замечены 2 аномалии, выделяющиеся из общей картины: в случае обучения квантовой схемы с 4-мя квантовыми модами качество работы схемы намного выше, чем у моделей с иным количеством при прочих равных, а в случае с 6-ю квантовыми модами нейронная сеть наоборот недостаточно обучилась. Если второе может быть объяснено бесплодным плато, возникшим при расчете градиента, то первое – только влиянием скорости обучения на модель. Кроме того, квантовая схема большего размера тоже успешно обучилась, исключает проблему бесплодного градиентного плато. Несмотря на это, требуется исследование влияния значений гиперпараметров на результаты работы модели.
  6. Возникает необходимость экспериментов с архитектурой вариационной квантовой схемы. В частности, возникает необходимость в исследовании возможности использования сверточной нейронной сети для предобработки входящих изображений. Особо интересным выглядит применение сверточных квантовых нейронных сетей как в рамках дискретной парадигмы, так и парадигмы с непрерывной переменной.

Заключение

Вариационная квантовая схема, реализующая квантовую нейронную сеть с непрерывной переменной, была успешно апробирована на примере задачи классификации рукописных цифр на базе набора данных MNIST. Несмотря на это, существуют иные наборы данных и задачи, на которых может быть проанализирована работоспособность данной модели, что является темой отельной работы. Кроме того, были обозначены иные пути дальнейшего исследования данной темы.

Список литературы

  1. Continuous Variable Quantum Algorithms: an Introduction [Электронный ресурс]. Режим доступа: свободный. https://arxiv.org/abs/2107.02151 (дата обращения 08.04.2023).
  2. Wigner quasiprobability distribution [Электронный ресурс]. Режим доступа: свободный. https://en.wikipedia.org/wiki/Wigner_quasiprobability_distribution (дата обращения 15.02.2023).
  3. Continuous-variable quantum neural networks [Электронный ресурс]. Режим доступа: свободный. https://journals.aps.org/prresearch/pdf/10.1103/PhysRevResearch.1.033063 (дата обращения 08.03.2023).
  4. Introduction to quantum photonics [Электронный ресурс]. Режим доступа: свободный. https://strawberryfields.ai/photonics/concepts/photonics.html (дата обращения 15.02.2023).
  5. Symplectic matrix [Электронный ресурс]. Режим доступа: свободный. https://en.wikipedia.org/wiki/Symplectic_matrix (дата обращения 15.02.2023).
  6. Variational Quantum Algorithms [Электронный ресурс]. Режим доступа: свободный. https://arxiv.org/abs/2012.09265 (дата обращения 08.04.2023).
  7. Adam: A Method for Stochastic Optimization [Электронный ресурс]. Режим доступа: свободный. https://arxiv.org/abs/1412.6980 (дата обращения 08.05.2023).

Интересная статья? Поделись ей с другими: