Преодоление проблемы «черного ящика» при использовании методов машинного обучения в медицине

Введение:

Активное распространение компьютерных технологий и доступа к Интернету в мире привели к удвоению объема информации за последние 2 года. В 2020 г. было увеличение объема до 40 зеттабайт, что превосходит прежние прогнозы на 14%. Растет объем данных, которые потенциально могут быть использованы для решения разнообразных задач диагностики и прогнозирования в самых разнообразных отраслях и сферах. Вместе с тем возрастает роль облачных вычислений в управлении «большими данными» (Big Data). Это также способствует распространению компьютерных методов решения задач диагностики и прогнозирования, методов машинного обучения (МО). Выбор технологии работы с данными зависит от качества и объема данных, от поставленной задачи, от ограничений по скорости работы и мощности компьютера. Вместе с тем, существенным препятствием для распространения компьютерных технологий является их непрозрачность, то есть непонятность для конкретного пользователя предлагаемых решений. Эта непрозрачность является существенной в таких областях как медицина, экономика и др. Способы преодоления данной проблемы рассматриваются в рамках настоящей работы.

Проблема ясности результата в машинном обучении

Современные методы МО, как правило, не требуют априорных предположений о характере вероятностных распределений, не связаны c какими-либо конкретными предположениями о форме разделяющих или аппроксимирующих поверхностей, сохраняют устойчивость и эффективность в условиях высокой размерности. Арсенал средств МО также включает разнообразные методы снижения признакового пространства.

Среди большого числа всевозможных технологий МО наибольшую популярность в последние годы приобрели искусственные нейронные сети, метод опорных векторов, решающие деревья и леса. Cохраняют популярность стандартные статистические методы: логистическая регрессия и наивный байесовский классификатор.

Существенным недостатком многих перечисленных технологий является их непрозрачность, то есть непонятность для конкретного пользователя предлагаемых решений. Такая непрозрачность является существенной не только в медицине, но и в экономике и других областях.

Среди перечисленных технологий наибольшую ясность и наглядность предлагаемых решений обеспечивают решающие деревья и байесовские сети.

Байесовские сети, представляющие прогноз или диагностическое решение в наглядной легкоинтерпретируемой конечным пользователем форме, получают всё большее распространение. Вместе с тем для эффективного обучения байесовских сетей требуются обучающие выборки очень большого объёма, что во многих случаях недостижимо из-за высокой стоимости исследований или ограниченности выборки по естественным причинам (например, в медицине и фармакологии).

Точность решений, получаемых с помощью отдельных решающих деревьев, нередко оказывается существенно ниже точности решений, получаемых с помощью альтернативных методов.

Информативная визуализация – как преодоление проблемы

Достаточно высокую эффективность вместе с прозрачностью получаемых решений дает метод мультимодельных статистически взвешенных синдромов, являющийся модификацией метода «Статистически взвешенных синдромов», предложенного ранее. Его эффективность была доказана на достаточно большом числе задач.

Этот метод, основанный на голосовании по системе двумерных областей в многомерном пространстве, обеспечивает возможность просмотра в одномерном и двумерном режиме локализации объекта и его окружения. Это позволяет сделать вывод о принадлежности данного объекта определенному классу и понять логику принятия решения классификации при голосовании по выделенным областям.

Структура и демонстрация программы «Прогноз-М»

Понятие «черный ящик» печально знакомо специалистам по методам машинного обучения (МО). Большинство таких методов позволяют видеть данные только на входе и на выходе (результат МО), не давая никакого представления, на основании чего данный результат был получен. Мы предлагаем интерфейс для модифицированного метода «Статистически взвешенных синдромов» (МСВС), полностью преодолевший вышеобозначенный недостаток. В предлагаемом интерфейсе работа решающего правила при прогнозировании для конкретного объекта полностью прозрачна и наглядна при визуализации на диаграммах рассеяния – на парах показателей, на ROC-кривой и при мониторинге с выводом весов.

Структура программы «Прогноз-М»

Преодоление проблемы «черного ящика» позволяет для прогнозируемого объекта не только получить набор наиболее информативных показателей, позволяющих отнести его к одному из сравниваемых классов, но и видеть прогностические веса в областях многомерного пространства, в которые попадают значения исследуемого объекта. Наглядно можно оценить близость данного значения к основной массе наблюдений объектов обучающей выборки, разделенных на классы с помощью выделения разным цветом. Более того, можно создать план поэтапного перехода из класса с неблагоприятным прогнозом в «хороший» класс, если выделить группу показателей, на которые можно воздействовать с целью их изменения. Ранжирование таких «изменяемых» показателей по информативности и весам позволяет в первую очередь обратить внимание на показатели, от которых больше всего зависит результат прогноза для конкретного объекта.

Программа «Прогноз-М» включает следующие этапы обработки входящий информации: сначала производится выбор режима прогноза: режим с обучением (с использованием обучающей выборки) и режим без обучения (на готовом решающем правиле, полученном ранее).

1) Ввод данных конкретного объекта, для которого производится классификация или прогноз.

2) Вывод результата отнесения объекта к определенному классу.

3) Диаграммы рассеяния для информативных показателей – в одномерном и двумерном режимах вывода показателей.

4) Мониторинг принадлежности объекта к различным выделенным в многомерном пространстве признаков областям:

– 4.1 – режим вывода информативных показателей в порядке их расположения в базе данных;

– 4.2 – режим вывода ранжированных по информативности показателей.

5) ROC-кривая, с отмеченным на ней положением для конкретного объекта.

6) Локализация объекта в выделенных областях с конкретизацией преобладания объектов того или иного класса в них.

7) Вывод ранжированных весов для выделенных областей, в которые попадает исследуемый объект.

8) Вывод по информативности и весам списка изменяемых показателей, в которых значение объекта попадает в область преобладания «плохого» класса, для выработки стратегии перехода в область с преобладанием «хорошего» класса.

Демонстрация программы «Прогноз-М» на медицинском примере

Резкий рост интереса к использованию методов МО в медицине связан с повсеместным распространением электронных историй болезни, распространением технологий распределённых и облачных вычислений. Технологии МО позволяют строить оптимальные диагностические алгоритмы, опираясь на эмпирические закономерности, связывающие диагноз или исход с наблюдаемыми клиническими, лабораторными или инструментальными показателями, которые принято называть признаками. Построение оптимальных алгоритмов производится в автоматическом или полуавтоматическом режиме.

В качестве примера применения методов МО в медицине рассмотрим прототип интерфейса для прогностической модели, позволяющей оценить риск повторного случая возникновения коронарного синдрома в первые полгода после перенесенного обострения ишемической болезни сердца (ИБС). Из большого числа известных методов (логистическая регрессия, деревья решений, нейронные сети и др.) отобран подход, давший наибольшую точность прогноза: метод оптимально достоверных разбиений (ОДР) и модифицированный метод статистически взвешенных синдромов (МСВС). AUC = 0,72.

В программу «Прогноз-М» из 380-ти показателей из базы данных вошел только 41 наиболее информативный показатель. Отбор показателей осуществляли таким образом, чтобы результат на скользящем контроле был наилучшим. Для того, чтобы сделать прогноз для конкретного пациента в таблицу последовательно вводят значения 41 показателя (рисунок ниже).

Вид интерфейса программы «Прогноз» – ввод данных

Для ускорения работы программы предполагается использование режима быстрого прогноза – без обучения, поскольку ранее полученное при машинном обучении решающее правило работает самостоятельно. Режим с обучением также предусмотрен в программе и может быть задействован, но он требует более длительного времени и включается при пополнении обучающей выборки, в результате чего решающее правило может измениться. В этом случае вывод ROC-кривой также должен быть скорректирован.

Инструменты информативной визуализации представляют собой диаграммы рассеяния (одномерные и двумерные), ROC-кривую и мониторинг, выводящий информативные показатели в порядке их расположения в базе данных или ранжированные показатели по убыванию информативности. Парный вывод показателей на диаграммы рассеяния с обозначенными границами оптимальных разбиений позволяет видеть достоверное преобладание значений 1 и 2 классов в базовых множествах (квадрантах – областях, ограниченных границами разбиений). Обозначения для классов отличаются цветом.

Значения пациента, для которого производится прогноз, выделены на диаграммах более крупным значком, окрашенным в зависимости от класса, к которому пациент отнесен при прогнозировании (рисунок ниже).

Мониторинг, одномерные разбиения. Наиболее информативные показатели

На ROC-кривой показано аналогичным символом значение для пациента. Чем ближе оно к верхней правой части кривой, тем с большей вероятностью пациент относится к первому классу (неблагоприятный прогноз). Чем ближе положение на кривой к нижнему левому значению, тем прогноз лучше. При изменении значений показателей у пациента в процессе лечения – в динамике – результат прогноза может также изменяться. В этом случае можно будет видеть перемещение положения символа для пациента вдоль ROC-кривой.

Мониторинг позволяет также закрашивать базовые множества в зависимости от достоверного преобладания там объектов 1-го или 2-го классов. Под диаграммой приведено количество объектов по классам в каждом базовом множестве и их процентное соотношение. В случае попадания значения пациента, для которого производится прогноз, в базовое множество с преобладанием значений показателей объектов 1 класса можно видеть, насколько удален символ пациента от границы, разделяющей два класса.

Вид интерфейса программы «Прогноз» – достоверное преобладание классов

Для базового множества, в которое попало значение для исследуемого объекта, выводится значение веса для 1 класса. Ранжирование по весам в базовых множествах позволяет также обратить внимание на наиболее важные сочетания показателей, влияющие на результат прогнозирования.

Достижение прозрачности алгоритмов распознавания открывает путь к решению задачи определения объёма и направления коррекции значений прогностических показателей с целью перевода случая, для которого прогноз с использованием алгоритма распознавания неблагоприятен, в группу с благоприятным прогнозом. Можно предположить, что такая коррекция приведёт к существенному увеличению вероятности реализации благоприятного прогноза.

Для решения поставленной задачи может быть предложен подход, включающий выбор тех информативных показателей, значения которых соответствуют областям с высокой долей случаев неблагоприятного исхода. Далее проводится анализ отобранных показателей с оценкой возможности необходимой коррекции. Среди принципиально корректируемых показателей выделяется подмножество, коррекция которого приводит к значительному повышению оценок вероятности благоприятного прогноза, а стоимость коррекции является по возможности минимальной.

Вывод отчета в файл происходит по нажатию одной кнопки. Список информативных показателей, ранжированных по функционалу (X-квадрат), и весов за 1 класс по базовым множествам сохраняется в документ. Могут быть выведены и все необходимые диаграммы рассеяния.

Заключение:

Аналогичные программные интерфейсы для прогнозирования могут помочь при машинном обучении во многих сферах: в медико-биологических исследованиях, информатизации здравоохранения, фармакологии и прочих.

Совершенно новым и оригинальным в данном программном продукте является раздел, позволяющий создать пошаговый план перехода объекта из неблагоприятной группы в благоприятную. Для этого в ранжированных по информативности показателях выявляют значения пациента, которые находятся в зоне риска и по которым возможна коррекция, т.е. модифицируемые показатели.

Программа интерфейса «Прогноз-М» полностью подготовлена для работы с самыми разнообразными данными. При постановке новой задачи прогнозирования адаптация алгоритма к новой обучающей выборке займет минимум времени. Удобство использования предлагаемого интерфейса ввиду его наглядности и полной прозрачности в значительной степени улучшит понимание пользователем (аналитиком) закономерностей, выявленных в процессе машинного обучения. Это преимущество в свою очередь позволит понять наиболее значимые процессы, приводящие к тому или иному состоянию системы, а также пути перехода в нужное положение в многомерном пространстве признаков.

Андрей Никитенко
Андрей Никитенко
Задать вопрос эксперту
Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-)