УДК 004
Векторизация графов знаний с использованием моделей перехода на основе расстояния
Ветров Владислав Сергеевич – аспирант Финансового университета при правительстве РФ.
Аннотация: В современном мире одним из наиболее важных представлений структурированной информации является граф знаний. Его квантизация и исследование является одним из наиболее перспективных направлений в области анализа данных и развития искусственного интеллекта.
Для анализа и использования графа знаний в современных системах машинного обучения, его необходимо привести в удобную форму, например представить его в системе векторов. Многомерность вектора позволит заложить большое количество релевантной информации о различных свойствах графа в его элементы – сущности и отношения.
Ключевые слова: граф знаний, вектор, матрица, оптимизация, гиперплоскость, проекция.
Введение
Графы знаний (далее ГЗ) стали одним из ключевых ресурсов для развития машинного обучения и искусственного интеллекта, включая такие задачи, как создание вопросно-ответных систем, систем рекомендаций, поиска и создания знания и т. д. В последние годы появилось несколько крупных ГЗ, таких как Freebase и DBpedia, NELL, Wikidata и др. Данные графы были созданы путем машинного извлечения структурированной информации из различной текстовой информации в интернете и ручного обогащения этих данных.
Несмотря на то, что крупный ГЗ содержат миллиарды фактоидов-троек, структурированные знания до сих пор составляют малый процент от «абсолютного» знания и, вероятно, содержат множество различных ошибок и противоречий.
Из этого следует, что выявление новых связей в графе знаний, или даже его максимально-возможное завершение является одним из ключевых вопросов в исследовании ГЗ. Для достижения этого требуется процедура прогнозирования недостающей структурированной информации (сущностей и отношений) на основе существующих ГЗ.
Типичный граф знаний структурирует реальную и абстрактную информацию в формате фактоидов-троек и обозначается как (головная сущность, отношение, хвостовая сущность), для краткости или
. В формате графа сущности ранее упомянутые сущности являются вершинами, а отношения – ребрами.
Среди задач по восстановлению графов встречаются такие как, прогнозирование хвостовой сущности при наличии головной и отношения - прогнозирование отношения -
и, наконец, прогнозирования головной сущности -
В процессе решения задач был создан целый класс успешных моделей перехода на основе расстояния, включая TransE, TransH, TransR, TransT и т. д. Эти модели направлены на создание наиболее точных векторных представлений для сущностей и отношений по принципу
, то есть
переходит в
с помощью
.
Обзор основных алгоритмов векторизации ГЗ c помощью перехода на основе расстояния
TransE является наиболее наглядной моделью в классе моделей на основе дистанции. Данная модель представляет сущности и отношения как векторы в одном и том же пространстве, скажем . Если, к примеру, рассматривать фактоид (
– головная сущность,
- отношение,
– хвостовая сущность), то отношение интерпретируется как вектор перехода от
к
, такой что удовлетворяет следующему условию: отношение
выполняется с низкой ошибкой при условии
TransE определяется как отрицательное расстояние между и
, т.е.
Несмотря на свою простоту и эффективность, TransE имеет недостатки при работе с отношениями по типу «1 к N», «N к 1» и «N к N». К примеру, можно рассмотреть отношение типа «1 к N». Если брать в рассмотрение отношение r,
такое, что выполняется
, TransE форсирует условие
для всех
, и следовательно
. Это означает, что, например, при использовании TransE для векторизации двух троек (Эльдар Рязанов, режиссер, Служебный роман) и (Эльдар Рязанов, режиссер, Ирония судьбы, или С легким паром!) по условиям TransE должны будут выполняться два условия: Эльдар Рязанов + режиссер = Служебный роман и Эльдар Рязанов + режиссер = Ирония судьбы, или С легким паром!. Из этого можно вывести, что «Ирония судьбы, или С легким паром!» и «Служебный роман» являются одной и той же сущностью в векторном представлении TransE. Аналогичные недостатки существуют для отношений типа «N к 1» и «N к N».
Рисунок 1. Иллюстрация работы алгоритма TransE.
Такая модель как TransH продолжает и модернизирует идеи TransE. Для решения вышеперечисленных проблем модель вводит понятие гиперплоскостей в разрезе отношений, не сущностей. TransH моделирует объекты снова как векторы, но каждое отношение как вектор r на гиперплоскости, где
- вектор нормали. Беря в рассмотрение фактоид
, представления сущностей
и
являются сначала проецируется на гиперплоскость:
При этом предполагается, что проекции соединены с малой ошибкой с помощью r на упомянутой гиперплоскости, если существует т.е.
. Соответственно, целевая функция для оптимизации может быть представлена как:
Это аналогично той функции, что используется в TransE. Вводя механизм создания проекций на гиперплоскости, зависящих от отношения, TransH позволяет сущностям иметь разные роли в зависимости от отношения.
TransR разделяет очень похожую идею с TransH. Однако эта модель вводит пространства, специфичные для отношений, а не для гиперплоскости. При работе TransR сущности представлены как векторы в пространстве сущностей. , каждое отношение связано с определенным пространством
и моделируется как вектор перехода в этом пространстве. Если существует фактоид
, TransR проецирует представления сущностей
и
в пространство, специфичное для отношения
, т. е.
Здесь - матрица проекции из пространства сущностей в пространство отношений
. Затем функция оценки определяется как,
TransD упрощает TransR за счет декомпозиции матрицы проекции в произведение двух векторов. В частности, для каждого факта TransD вводит дополнительные отображающие векторы
,
вместе с представления сущностей / отношений
. Две матрицы проекции
и
соответственно определяются как:
Затем эти две проекционные матрицы наносятся на голову объект и хвостовой объект
соответственно, чтобы получить их проекции, т.е.
TransT развивает идеи предшественников и вводит понятие типов сущностей в задачу векторизации базы данных на основе графов. Цель модели - получить векторные представления сущностей и отношений, которые максимизируют вероятность предсказания по всем существующим фактоидам-тройкам.
Согласно теореме Байеса, можно рассматривать как апостериорную вероятность, и ее корреляция с априорной вероятностью определяется как,
Заключение
Такие модели, как TransE, и от нее производные, позволяют получать точные векторные представления сущностей и отношений графа знаний. Несмотря на то, что базовая модель TransE обладает рядом недостатков, она подтолкнула к развитию целое семейство алгоритмов перехода на основе расстояния.
Данные модели предлагают не только различные подходы к векторизации графов знаний, но и возможности для добавления новой информации, например, типов. Не смотря на то, что у некоторых моделей могут быть сложности с обработкой определенных кейсов, например отношений по типу «1 к N» у TransE, или высокая алгоритмическая сложность у TransH, данные методы являются одними из наиболее интуитивных и точных алгортимов для векторизации, доступных на сегодня.
Список литературы
- C. Николенко, А. Кадурин, Е. Архангельская, Глубокое обучение. – СПб.: Питер, 2018. – 281 стр.
- Hongyun Cai, Vincent W. Zheng, and Kevin Chen-Chuan Chang, A Comphensive Survey of Graph Embedding: Problems, Techniques and Applications, arXiv: 1709.07604.Конец формы
- Quan Wang, Zhendong Mao, Bin Wang, and Li Guo, Knowledge Graph Embedding: A Survey of Approaches and Applications, IEEE Transactions on Knowledge and Data Engineering (Volume: 29, Issue: 12, Dec. 1 2017), pp 2724 – 2743.
- Shiheng Ma, Jianhui Ding, Weijia Jia, Kun Wang, and Minyi Guo, TransT: Type-Based Multiple Embedding Repsentations for Knowledge Graph Completion, ECML PKDD 2017: Machine Learning and Knowledge Discovery in Databases, pp 717-733.