УДК 004.852

Разработка модели оценки качества нечёткой классификации с использованием средств машинного обучения

Полехина Галина Евгеньевна – кандидат педагогических наук, доцент Московского государственного технического университета им. Н.Э. Баумана. доцент кафедры Высшей математики Академии государственной противопожарной службы МЧС России.

Полехина Ксения Александровна – магистрант кафедра информационной безопасности факультета Информатики и системы управления Московского государственного технического университета им. Н.Э. Баумана.

Аннотация. В данной статье описывается алгоритм для визуализации границы пар чувствительность/специфичность для кратких нечетких ROC-кривых с возможностью оценки диапазона работы классификаторов с учетом области неопределенности или серой зоны. Здесь преодолеваются две проблемы. Первая - это определение границы чувствительности и специфичности при наличии неопределенности. Вторая - это визуализация большого количества возможностей, возникающих из различных выборов серых зон.

Ключевые слова: алгоритм, визуализация, ROC-анализ, нечёткие ROC-кривые, оценка, диапазон работы классификаторов, серая зона.

Рассмотрим проверочное исследование на основе 518d1a1714f4a02a помеченных субъектов с оценками . Без ограничения общности, предположим, что первые субъектов имеют метку 0, а остальные имеют метку 1. Также, низкие значения оценок прогнозируют класс 0. Доля объектов с меткой 1 в целевой популяции равняется и может отличаться от доли проверочного исследования , например, если дизайн проверочного исследования – случай-контроль (то есть исследование, в котором две исследуемые группы, различающиеся по полученному результату, сравниваются на основе предполагаемого влияющего фактора, или исследование с контрольной группой).

Серая зона определяется интервалом . Границы этого интервала представляют собой нижнее и верхнее значение сечения. Субъекты с оценками ниже классифицируются как 0. Субъекты с оценками выше классифицируются как 1. Остальные остаются неклассифицированными.

При использовании нечёткой ROC нужно указать максимально допустимый процент неклассифицированных случаев, . Пусть – это количество точек класса , попадающих в серую зону. Серая зона удовлетворяет -ограничению, если доля случаев в серой зоне меньше , то есть, если . Серая зона удовлетворяет -ограничению для целевой популяции, если .

В первую очередь вычисляется наиболее благоприятная граница для этих частот, исходя из предположения об идеальном разделении в серой зоне. Представьте, что оракул будет заботиться о точках в серой зоне от имени классификатора, перемещая их к крайним точкам серой зоны, чтобы они могли быть правильно классифицированы. Формально определим оценки со звёздочкой следующим образом:

Пусть будет индикатором множества A. Определим накопленные частоты:

Наоборот, наименее благоприятные частоты строятся, учитывая наихудший сценарий для точек в серой зоне. Представьте, что саботажник может управлять точками в серой зоне, перемещая их к крайним точкам серой зоны, так чтобы все они были классифицированы неправильно. Это приведет к "клиньевидным" оценкам, определенным следующим образом:

Теперь определим накопленные частоты:

Мы можем сформировать большое количество пар накопленных частот, отмеченных звездочками и клиньями, удовлетворяющих -ограничению. Алгоритм нечеткой ROC-кривой упрощает визуализацию этих пар, группируя их и выбирая одну более высокую и одну более низкую границу в каждой группе следующим образом.

Рассмотрим наблюдаемых уникальных ранжированных значений биомаркера . Эти точки будут составлять набор возможных значений для крайних точек серой зоны. Теперь определим среднее значение между двумя последовательными значениями как для . Для каждого рассмотрим набор пар , построенных путем добавления двух соседних наблюдаемых точек с каждой стороны, затем следующих двух и так далее. Этот процесс продолжается до тех пор, пока серая зона удовлетворяет -ограничению. Если достигнута одна из границ распределения, процесс продолжается с другой стороны. Среди полученных интервалов нечеткая ROC-кривая выбирает «наилучший» для визуализации, определенный следующим образом. Для каждой пары она удаляет случаи в серой зоне, а затем вычисляет кривые AUC только на классифицированных случаях. Пара , максимизирующая AUC таким образом, является . Получаемое не обязательно будет серединой этого интервала, но будет содержаться в нем. Если в результате максимизации несколько серых зон оказываются равными по значимости, алгоритм минимизирует размер серых зон среди оптимальных. Таким образом, серые зоны не используются в областях, где классификация случаев не помогает в разделении.

Затем верхние границы определяются набором точек

с переменной . Наоборот, нижние границы определяются набором точек

для . Для реализации определим вырожденные серые зоны и как пустое множество.

Зафиксируем значение равным 0 или 1. Последовательности, определенные как и при вариации от , не обязательно задают правильные накопленные частоты, как в стандартном анализе ROC. Скорее они нужны для определения границ чувствительности или специфичности пар, доступных в диапазоне возможных стратегий серых зон.

Звездчатые и клиньевые кривые рассчитываются с использованием как классифицированных, так и неклассифицированных образцов. Исключение неклассифицированных образцов влияет только на расчет .

Исследовалась альтернативная реализация, в которой нижний и верхний пределы серой зоны используются по очереди для индексации оптимизации AUC, вместо средних значений. Верхние и нижние пределы могут давать существенно различные результаты. Границы менее стабильны, чем средние значения при небольшом объеме выборки. Тем не менее, эта стратегия предлагает другой взгляд на перекрытие в хвостах и может оказаться полезной в некоторых приложениях.

Для наглядного представления применения и интерпретации нечеткой ROC рассмотрим биомаркер экспрессии генов для прогнозирования субоптимального (класс 0) и оптимального (класс 1) объёма хирургического уменьшения у пациентов с раком яичников. Данные доступны из пакета Bioconductor CuratedOvarianData от Ganzfried и др. (2013). Клиническое и биологическое исследование можно найти в работе Riester и др. (2014). В данном случае рассматривается конкретный биомаркер - уровень транскрипции гена ZNF544, измеряемый с использованием микроплатформы Agilent по работе Yoshihara и др. (2012) [1].

На рисунке 1 показаны наблюдаемые уровни биомаркера по классам, наблюдаемые (вверху) и в гипотетических сценариях, использованных при построении нечеткого графика ROC . Более высокие уровни экспрессии обычно связаны с оптимальным уменьшением объёма (класс 1). Рисунок 1 также иллюстрирует тип гипотетических сценариев, которые используются в построении нечеткой ROC для визуального представления определений и .

Рис. 1. Точечные графики уровней биомаркеров по классам.

Каждый из гипотетических сценариев, показанных на рисунке 1, входит в оптимизацию, используемую для нахождения значений . Эти значения, в свою очередь, используются для определения границ чувствительности и специфичности с помощью помеченных звездочками и клиньями точек. На рисунке 2 показаны сегменты, соединяющие звёздные и клиньевые точки, соответствующие двум границам, связанным с одним и тем же значением . Они могут быть использованы для исследования потенциальных стратегий в "серой зоне". Также они информируют нас о том, что если бы те же наблюдения передали саботажникам, чувствительность и специфичность бы снизились и приблизились к диагональной линии без различения.

На рисунке 2 в нижнем квадрате показана область, определенная верхними и нижними границами. Точки внутри этой области не так легко интерпретируются с точки зрения оптимизации, представленной ранее. Этот рисунок также иллюстрирует, что область, определенная верхними и нижними границами в алгоритме нечеткой ROC, необязательно выпуклая.

На рисунке 3 изображены нечеткие ROC-области, соответствующие четырем различным значениям . Если , то область нечеткой ROC превращается в стандартную линию ROC, также изображенную на рисунках 2 и 3.

В областях, где два распределения по конкретным класса мало перекрываются, например, слева от 2, преимущество от использования серой зоны может оказаться малым или вообще отсутствовать. Напротив, если скученность точек биомаркера в двух классах схожа, серая зона имеет потенциал для улучшения практической реализации биомаркера. На рисунке 4 показан этот случай, демонстрируя часть диапазона биомаркера, где серая зона полезна.

Рис. 2. Нечеткое отображение ROC при максимально допустимом проценте неклассифицированных случаев.

Рис. 3. Нечеткое отображение ROC для ZNF544 при максимально допустимом проценте неклассифицированных случаев

Рис. 4. Доля точек, попадающих в серую зону (слева), и ширина серой зоны на шкале биомаркеров (справа) в зависимости от при = 0,2.

Ген ZNF487 является примером биомаркера с относительно хорошей разделимостью. Верхние ограничения указывают, что правильная переклассификация всего 20% случаев может привести к высокой разделимости. Эта переклассификация может быть достигнута биомаркерами, которые эффективно работают в серой зоне для гена ZNF487. Нижние ограничения указывают, что при неправильной обработке неопределенных наблюдений производительность страдает, но разделимость все равно остается выше случайности с явным отрывом даже при наличии серой зоны в 20%.

Не известен наилучший подход к визуализации, который позволял бы исследовать алгоритмы классификации с областью неопределенности.

Возможность использования серой области отличается от анализа ROC для многоклассовых задач (например, Hand и Till (2001) [2]), где количество меток превышает две. Она также отличается от полуобучаемого анализа, где некоторые случаи не имеют меток. В данной ситуации все случаи имеют известную бинарную метку, но некоторые из них не классифицированы.

Нечёткая ROC не является визуализацией неопределенности в стандартном статистическом смысле. И верхняя, и нижняя границы сами по себе являются точечными оценками, и изменчивость их можно учесть с помощью простых методов ресэмплинга. Однако визуализация как множества, так и неопределенности границ множества может быть сложной задач. Кроме того, выражается условиями доли случаев (потенциально масштабированной) в контрольном исследовании, без учета неопределенности.

Нечёткая ROC не является подходом для оптимизации размера области неопределенности. Она использует оптимизацию только для нахождения полезного подмножества вариантов визуализации.

Сценарии оракула и саботажника являются крайними. Варианты этого алгоритма могут быть построены путем дальнейшего определения границ доли случаев, которые могут быть правильно классифицированы человеком, если они остаются в серой области. Затем, вместо перемещения всех точек из серой области к крайностям, эти известные доли могут использоваться для перемещения только некоторых точек и достижения менее крайних границ. Эта доля классификации может потенциально зависеть от области биомаркера.

Со статистической точки зрения, неопределенность также может помочь характеризовать области оценки с плохим различительным свойством. Таким образом, в сравнении с полностью детерминированными подходами, использование области неопределенности может привести к другой оценке классификаторов и другим подходам к поиску биомаркеров.

Список литературы

  1. Yoshihara, K., Tsunoda, T., Shigemizu, D., Fujiwara, H., Hatae, M., Fujiwara, H., Masuzaki, H., Katabuchi, H., Kawakami, Y., Okamoto, A., Nogawa, T., Matsumura, N., Udagawa, Y., Saito, T., Itamochi, H., Takano, M., Miyagi, E., Sudo, T., Ushijima, K., Iwase, H., Seki, H., Terao, Y., Enomoto, T., Mikami, M., Akazawa, K., Tsuda, H., Moriya, T., Tajima, A., Inoue, I., Tanaka, K., 2012. High-risk ovarian cancer based on 126-gene expression signature is uniquely characterized by downregulation of antigen presentation pathway. Clinical Cancer Research 18 (5), 1374–1385. [Электронный источник] URL: http://clincancerres.aacrjournals.org/content/18/5/1374 (Дата обращения 22.10.2023);
  2. Hand, D. J., Till, R. J., Nov 2001. A simple generalisation of the area under the roc curve for multiple class classification problems. Machine Learning 45 (2), 171–186. [Электронный источник] URL https://doi.org/10.1023/A:1010920819831 (Дата обращения 22.10.2023).

Интересная статья? Поделись ей с другими: