"Научный аспект №1-2019" - Технические науки

Исследование эффективности ансамблей семантических классификаторов в задачах классификации в биоинформатике

Бугаенко Александр Николаевич – студент аспирантуры Сибирского государственного университета Науки и технологий имени академика М.Ф. Решетнева.

Аннотация: В данной работе описан метод обучения семантических классификаторов с использованием онтологии. Семантические классификаторы обучаются по подмножествам признаков, связанным с определенными термами. В работе проводится сравнение эффективности ансамблей, построенных из семантических классификаторов и классификаторов, построенных по случайным подмножествам признаков.

Ключевые слова: Биоинформатика, онтология, терм, экспрессия генов, семантический классификатор.

Понятие онтологии широко распространено в области информатики и искусственного интеллекта [1]. Обычно под этим термином понимается детальное описание предметной области, которое используется для формального определения структуры этой области. Часто онтология представляет собой некоторую базу знаний, которая может использоваться для машинной обработки в рамках работы над предметной областью. Нередко онтологии используются в качестве посредника между пользователем и информационной системой.

Human Phenotype Ontology (HPO) – онтология в области биоинформатики, созданная для обобщения информации о различных фенотипических отклонениях, встречающихся при генетических заболеваниях человека. Данная онтология используется в качестве базы для клинических исследований в области медицинской генетики и является стандартизированным словарем описаний различных фенотипов и сопутствующих им генов.

Иерархический вид HPO позволяет определять взаимоотношения между более общими фенотипическими проявлениями и их частными случаями, а также сопоставляет им определенные участки генома человека. Однако для наших целей (формирование семантических подмножеств признаков, связанных с экспрессией генов, объединенных тем или иным фенотипическим проявлением) достаточно упрощенного представления данных без учета иерархии.

Данные в HPO можно представить в виде множества пар «ген – терм». Каждый терм обозначает некоторое фенотипическое проявление, имеющее уникальный идентификатор. В свою очередь, каждый ген также имеет индивидуальный идентификатор. Для удобства обработки данных необходим некоторый стандарт обозначений генов и термов, так как разные чипы для измерения экспрессии генов могут выдавать данные в разном формате. Одним из таких стандартов является система обозначений Entrez, которая была создана в целях извлечения данных из литературы по биомедицине.

Функциональные отношения и зависимости не всегда могут быть определены из данных. Дополнительные знания о предметной области необходимы для группировки или выбора измерений интерпретируемым образом. Эта информация может быть извлечена из различных хранилищ биологической литературы, специализированных баз данных или онтологий. Идея включения метаинформации в процесс подготовки данных для построения моделей не нова. Обзор исследований в области использования метаинформации для построения моделей представлен в [2].

Если сгруппировать гены по их связи с некоторым термом, мы получаем множество термов, с каждым из которых ассоциируется некоторое множество признаков. Каждое из этих множеств в дальнейшем используется для извлечения подвыборок данных, ассоциированных с термами, которые в свою очередь используются для обучения базовых классификаторов (рис. 1). В англоязычной литературе такие классификаторы носят название semantic-based classifiers (семантические классификаторы) [3].

Рисунок 1. Принципиальная схема обучения семантических классификаторов.

Семантические базовые классификаторы, обученные на подмножествах признаков, ассоциированных с термами, могут проигрывать в точности классификаторам, обученным с использованием стандартных методов. Их ключевое преимущество заключается в интерпретируемости, так как они устанавливают связь между предметной областью решаемой задачи и некоторыми абстрактными концептами (в данном случае, фенотипическими особенностями человека).

В данной работе проводится сравнение различных подходов к решению обозначенных задач классификации, а именно использования ансамблей классификаторов, обученных по всем данным, классификаторов, обученных по подмножествам признаков (выделенных семантически или случайным образом), и классификаторов, обученных по случайным подмножествам признаков.

Для проведения сравнения для обеих задач был обучен классификатор по всему множеству признаков. Для выборки GSE25136_rma средняя точность классификации составила 0.607, для выборки GSE8401_rma – 0.835.

Также были выделены лучшие классификаторы среди обученных по семантическим и случайно сгенерированным подмножествам признаков. Сравнение средних точностей для указанных классификаторов приведено в таблице 1.

Таблица 1. Показатели точности отдельных классификаторов.

Название выборки	GSE25136_rma	GSE8401_rma
Классификатор, обученный на всех признаках	0.587	0.840
Лучший семантический классификатор	0.789	0.926
Лучший классификатор, обученный на 10 случайных признаках	0.779	0.948
Лучший классификатор, обученный на 50 случайных признаках	0.730	0.935

Следующим этапом стало формирование ансамблей из лучших классификаторов, обученных по подмножествам признаков. Был проведен ряд экспериментов, в которых формировались ансамбли из k моделей, где k=2,…,25. Средние точности ансамблей, полученные в ходе процедуры кросс-валидации представлены на рисунках 2.8 и 2.9. Также для сравнения на данные графики вынесены значения средних точностей для классификаторов, обученных на множестве всех признаков, и для лучших классификаторов, обученных на подмножествах признаков.

Рисунок 2. Сравнение средних точностей индивидуальных классификаторов и ансамблей с различным числом базовых классификаторов (выборка GSE25136_rma).

Для выборки GSE25136_rma среди индивидуальных классификаторов лучший результат показал лучший среди семантических классификаторов. Далее следуют лучшие классификаторы, обученные по подмножествам из 10 и 50 случайных признаков соответственно. Классификатор, обученный по всему множеству признаков, показал гораздо меньшую точность, близкую к случайному выбору метки класса (около 0.6).

При объединении классификаторов в ансамбль заметен значительный прирост в точности, как для семантических классификаторов, так и для порожденных случайно сгенерированными подмножествами признаков. При достижении определенного числа моделей в ансамблях добавление новых моделей не дает значительного прироста в точности классификации или напротив приводит к ее уменьшению.

Ансамбли семантических классификаторов проигрывают в точности ансамблям классификаторов, порожденных случайными подмножествами признаков. Однако их точность гораздо выше точности индивидуальных классификаторов, и они обладают свойством интерпретируемости, так как каждый из индивидуальных классификаторов связан с некоторым биологическим концептом.

Иная ситуация наблюдалась в ряде экспериментов с выборкой GSE8401_rma (рисунок 3). Даже индивидуальные классификаторы на данной выборке показывали высокую точность классификации. Лучший семантический классификатор показал меньшую точность по сравнению с лучшими классификаторами, порожденными случайными подмножествами признаков.

Рисунок 3. Сравнение средних точностей индивидуальных классификаторов и ансамблей с различным числом базовых классификаторов (выборка GSE8401_rma).

Объединение семантических классификаторов в ансамбль не давало прироста в точности классификации. Обратная ситуация наблюдалась для классификаторов, порожденных случайными подмножествами признаков – использование их композиций увеличивало точность классификации итоговой модели. Этот факт может быть объяснен тем, что лучшие семантические классификаторы по отдельности показывали высокую точность, но не обладали достаточным разнообразием. Метод случайных подпространств в свою очередь позволяет получить разнообразные модели за счет процедуры случайного отбора признаков.

Список литературы

Лапшин В. А. Онтологии в компьютерных системах. М.: Научный мир, 224 с., 2010.
Porzelius C., Johannes M., Binder H., Beissbarth T. Leveraging external knowledge on molecular interactions in classification methods for risk prediction of patients. Biometrical Journal 53(2):190–201, 2011.
Lausser L., Schmid F., Platzer M., Sillanpaa M., Kestler H. Semantic multi-classifier systems for the analysis of gene expression profiles. Arch. Data Sci Ser. A, 2016.
Кобзарь А. И. Прикладная математическая статистика. М.: Физматлит, 2006.

Интересная статья? Поделись ей с другими: