Разработка модели управления потоком пациентов с сердечно-сосудистыми заболеваниями методами интеллектуального анализа данных

Введение

В настоящее время технологии Big Data стали одним из доминирующих направлений в развитии информационных технологий. Предполагается, что работа с колоссальными объемами неструктурированных данных окажет наибольшее влияние на производство, госуправление, торговлю и медицину.

Благодаря методам интеллектуального анализа больших данных появилась возможность исследования эффективности проводимой терапии при обработке всей доступной информации о практике лечения. На основе анализа известных историй болезни и диагностики в практику врачей входит широкое использование систем поддержки принятия решений, позволяющих предоставить доступ к опыту тысяч коллег по всей стране.

Методы персонифицированной и профилактической медицины, основанные на удаленном мониторинге пациентов, приведут к существенному сокращению затрат и повышению качества жизни. Распространение различных сенсоров активностей человеческого организма, подключаемых к гаджетам, позволяет сократить необходимость проведения лабораторных исследований, предотвратить неожиданные осложнения, а автоматическое напоминание о необходимости проведения самостоятельных лечебно-профилактических манипуляций повысит качество назначенного лечения.

Одним из эффективных методов исследования данных о пациентах и их электронных медицинских карт являются методы машинного обучения. В последнее десятилетие из-за недоступности персональных данных о пациентах методы, основанные на интуиции и эвристике, были использованы для решения задач прогнозирования – постановки диагноза. В настоящее время каждый пациент занесен в базу данных поликлиники и имеет свою историю посещений, которая позволяет подсчитывать статистические характеристики, такие как среднее количество обращений с отдельными типами болезней, среднюю продолжительность пребывания в поликлинике, диагнозы и другие.

Благодаря накопленному массиву данных врачи могут отойти от эвристического определения болезни и, используя опыт коллег, быстрее, своевременнее, а главное – более точно поставить правильный диагноз.

Подходы к анализу данных, основанные на машинном обучении, включают в себя несколько хорошо известных методов решения проблем, которые позволяют анализировать несбалансированные наборы данных для классификации и прогнозирования. К ним относят логистическую регрессию, скрытые марковские цепочки, деревья решений и случайные леса. Каждый из этих методов имеет свои преимущества перед аналогичными методами решения задач прогнозирования. Тем не менее стоит отметить, что сегодня в практике применения методов машинного обучения встречаются примеры эффективности различных подходов, поэтому перед постановкой прогноза необходимо сравнить эффективность алгоритмов для рассматриваемого набора данных.

1. Обзор исследований

Исследованиями медицинских данных с целью прогнозирования, классификации и автоматизации внутренних процессов занимаются по всему миру.

Авторский коллектив из Национального исследовательского университета Высшей школы экономики в публикации рассматривает вопросы применения современных облачных технологий при хранении и обработке кардиологической информации. В частности, в работе исследователя Е.Ю. Зиминой рассматриваются способы решения проблемы диагностики состояния здоровья сердца пациента с применением методов классификации Data Mining при обработке кардиологических данных. Кластерный анализ проводился на основе поиска схожих форм спектров Фурье, полученных путем моделирования работы сердца при использовании разложения Ферми – Пласта – Улана.

Авторы исследования отмечают перспективность метода анализа больших данных (Big Data) при оценке качественных и количественных показателей фармакотерапии пациентов с артериальной гипертензией. В рамках публикации выполнен обзор методов и систем интеллектуального анализа медицинских данных, а также предложена архитектура и программная платформа по анализу разнородных источников структурированных и неструктурированных данных.

Диссертационное исследование И.В. Степаняна посвящено разработке теоретических и методических аспектов риск-менеджмента с применением биоинформационных технологий для прогнозирования нарушения здоровья работников. Для проведения кластерного анализа в работе использовалась бионическая самоорганизующаяся сеть Кохонена.

Авторы исследования задаются вопросом применения методов машинного обучения для улучшения прогнозирования риска сердечно-сосудистых заболеваний, на основе обработки массивов клинических данных Clinical Practice Research Datalink (CPRD). Экспериментальные исследования показывают улучшение точности прогнозирования.

Учёный Shankar M. Krishnan из Технологического института Уэнтворт (США) в работе отмечает, что использование аналитики в сфере здравоохранения вместе с эффективной организацией, оптимизацией и анализом больших данных обеспечивает быстрое и точное диагностирование, а также снижение количества предотвратимых ошибок.

В публикации производится оценка глобального управления рисками сердечно-сосудистых заболеваний в клинической практике среди врачей, разделённых на группы в соответствии с использованием обычной либо электронной поддержки для сбора и регистрации клинических данных.

Таким образом, обзор исследований показал, что использование технологий машинного обучения при обработке кардиологических данных с целью решения проблемы диагностики – один из наиболее актуальных вопросов в настоящий момент.

Данное исследование направлено на построение модели управления потоком пациентов с сердечно-сосудистыми заболеваниями (ССЗ) на основе прогноза обращений в ближайший месяц или 3 месяца за медицинской помощью в поликлинику по поводу ССЗ при анализе электронных персонифицированных карт пациентов.

Определение прогноза на предмет обращения в поликлинику с заболеваниями сердца осуществлено методом логистической регрессии, алгоритмом построения деревьев решений ID3 и методом обучения ансамбля – случайные леса. В рамках экспериментального исследования проведена оценка эффективности применения рассмотренных методов для прогнозирования на основе анализа ROC-кривой и метрики AUC.

2. Постановка задачи

Рассмотрим базу данных Территориального фонда ОМС по обращениям пациентов в поликлиники с ССЗ, которая содержит набор пациентов U ={u ,u2,…,uk} и записей, характеризующих отдельно взятые посещения C ={c ,c2,…,cp}. Исходный набор данных представлен таблицей и каждый столбец соответствует одной из следующих характеристик записи посещения:

  1.  ID – код пациента;
  2.  MO – код медицинской организации;
  3.  CODE_MP – код медицинской помощи;
  4.  DATE_IN – дата прихода в медицинское учреждение;
  5.  DATE_OUT – дата выхода из медицинского учреждения;
  6.  DLITELN – длительность лечения;
  7.  MKB – код болезни по МКБ;
  8.  POL – 1 – муж., 2 – жен.;
  9.  VOZRAST – возраст текущий пациента
  10.  ATER – обнаружен ли атеросклероз при приеме пациента;
  11.  ISHEM – обнаружена ли ишемия при приеме пациента;
  12.  GIPER – обнаружена ли гипертония при приеме пациента;
  13.  STENOK – обнаружена ли стенокардия при приеме пациента;
  14.  INF_MIOK – обнаружен ли инфаркт миокарда при приеме пациента.

На основе представленного исходного набора данных достаточно сложно оценивать прогноз прихода пациента с сердечно-сосудистыми заболеваниями через фиксированный промежуток времени и выбрать стратегии управления потоками пациентов. В связи с этим необходимо провести подготовку данных.

В необработанных данных, содержащихся в БД, сложно учитывать важный критерий для прогнозирования – время. Для его учета можно искусственно создать признаки, агрегирующие некоторые показатели пациентов за некоторый промежуток времени. Например, это может быть количество посещений за последние полгода. Признаки, идентифицирующие визит и сведения о пациенте, останутся неизменными. В настоящем исследовании собрана статистика по количеству посещений каждой болезни и классу болезни (по МКБ) за последние 3 и 6 месяцев.

Отметим, что для более точного прогноза нужно исключить пациентов с отсутствующей электронной медицинской картой и пациентов, для которых невозможно проверить прогноз. В связи с этим информация о первых и последних записях в БД (с интервалом времени 6 мес.) не включена в исходный набор.

Таким образом, в результате статистической обработки данных выделены следующие дополнительные признаки для прогнозирования обращений пациентов в поликлинику с заболеваниями сердца:

  1. MKБ – код болезни по МКБ-10 не детализированный;
  2. COUNT_CODE_MP – количества посещений по каждому типу учреждения за последние полгода;
  3. BOOL_CODE_MP – было ли посещение по каждому типу учреждения за последние 3 месяца;
  4. ATER_6M – сколько раз обнаружен атеросклероз при приеме пациента за последние 6 месяцев;
  5. ATER_3M – был ли обнаружен атеросклероз при приеме пациента за последние 3 месяца;
  6. ISHEM_6M – сколько раз обнаружена ишемия при приеме пациента за последние 6 месяцев;
  7. ISHEM_3M – была ли обнаружена ишемия при приеме пациента за последние 3 месяца;
  8. GIPER_6M – сколько раз обнаружена гипертония при приеме пациента за последние 6 месяцев;
  9. GIPER_3M – была ли обнаружена гипертония при приеме пациента за последние 3 месяца;
  10. STENOK_6M – сколько раз обнаружена стенокардия при приеме пациента за последние 6 месяцев;
  11. STENOK_3M – была ли обнаружена стенокардия при приеме пациента за последние 3 месяца;
  12. INF_MIOK_6M – сколько раз обнаружен инфаркт миокарда при приеме пациента за последние 6 месяцев;
  13. INF_MIOK_3M – был ли обнаружен инфаркт миокарда при приеме пациента за последние 3 месяца;
  14. MKB_CLASS_COUNT_6M – сумма количеств обращений с разными классами болезней по МКБ за последние 6 месяцев;
  15. IS_AGAIN_1M – придет ли пациент в ближайший месяц после DATE_OUT или нет;
  16. MKB_CLASS_BOOL_3M – было ли обращение с разными классами болезней по МКБ за последние 3 месяца;
  17. MKB_CLASS_BOOL_1M – было ли обращение с разными классами болезней по МКБ за последний месяц.

Поле MKB_CLASS_BOOL_1M и MKB_CLASS_BOOL_3M отвечает за повторное посещение пациента, при 0 – посещения нет, при 1 – посещение есть.

Данные поля получены простым агрегированием с кодированием one-hot и bug-of-words.

Данное исследование направлено на построение прогноза для пациента на предмет того, обратится ли он в ближайший месяц или 3 месяца в поликлинику с сердечно-сосудистыми заболеваниями на основе анализа персонифицированных карт. В связи с этим выходным полем для обучения классификатора является и MKB_HEART_BOOL_1M, и MKB_HEART_BOOL_3M.

Пусть функция Y =f (Ci ) описывает определенный классификатор, который получает вектор характеристик посещений Ci пациента ui.

Функция f (Ci) определяет некоторое значение Y ={0;1}, обратится ли пациент в ближайшие 3 месяца в поликлинику с сердечно-сосудистыми заболеваниями.

При определенных условиях значение Y может быть преобразовано в вероятность того, что пациент обратится в поликлинику. В этом случае действует условие монотонности, означающее, что чем выше значение Y, тем выше вероятность его прихода. Необходимо найти такие параметры, при которых классификатор будет давать наилучшие вероятностные оценки с точки зрения выбранных метрик.

В результате получаем задачу прогнозирования, которую будем решать с помощью метода логистической регрессии, алгоритма построения деревьев решений ID3 и метода обучения ансамбля – случайные леса.

3. Интеллектуальные методы анализа данных

Метод логистической регрессии

Логистическая регрессия – это тип обобщенной линейной модели (GLM), которая использует логистическую функцию для прогнозирования бинарной характеристики на основе любого вида независимых входных параметров.

Коэффициенты алгоритма логистической регрессии должны оцениваться на основе обучающей выборки с использованием метода оценки максимального правдоподобия, который является самым распространенным алгоритмом обучения, используемым различными алгоритмами машинного обучения.

Основная идея метода максимального правдоподобия для логистической регрессии состоит в том, что алгоритм ищет значения для коэффициентов логистической функции, которые сводят к минимуму ошибку в вероятностях, прогнозируемых моделью, по значениям в данных.

Алгоритм построения решающего дерева ID3

Алгоритм ID3 строит дерево решений по принципу сверху вниз. В алгоритме ID3 реализована одна из разновидностей «жадного» поиска в пространстве всех возможных деревьев: он добавляет поддерево к текущему дереву и продолжает поиск, не делая возвратов. Благодаря такому подходу алгоритм становится очень эффективным. При этом, однако, он сильно зависит от процедуры выбора очередного свойства для тестирования.

Можно считать, что каждое свойство объекта вносит в решение задачи классификации какой-то объем новой информации и сокращает неопределенность.

В общем случае в теории информации энтропия вычисляется по формуле:

Алгоритм ID3 проводит выбор определенного свойства на роль корня текущего поддерева, основываясь на количестве информации, получаемой в результате его проверки: корнем поддерева выбирается то свойство, которое дает при проверке наибольшую информацию (больше всего сокращает неопределенность).

Случайный лес (Random Forest)

Случайный лес – это множество решающих деревьев. В задаче регрессии их ответы усредняются, в задаче классификации принимается решение голосованием по большинству. Все деревья строятся независимо по следующей схеме.

• Выбирается подвыборка обучающей выборки размера samplesize – по ней строится дерево (для каждого дерева – своя подвыборка).

• Для построения каждого расщепления в дереве просматриваем max_features случайных признаков (для каждого нового расщепления – свои случайные признаки).

• Выбираем наилучший признак и расщепление по нему (по заранее заданному критерию). Дерево строится, как правило, до исчерпания выборки (пока в листьях не останутся представители только одного класса), но в современных реализациях есть параметры, которые ограничивают высоту дерева, число объектов в листьях и число объектов в подвыборке, при котором проводится расщепление.

Ясно, что такая схема построения соответствует главному принципу ансамблирования (построению алгоритма машинного обучения на базе нескольких, в данном случае решающих деревьев): базовые алгоритмы должны быть разнообразными (поэтому каждое дерево строится на своей обучающей выборке и при выборе расщеплений присутствует элемент случайности).

4. Вычислительные эксперименты

Вычислительные эксперименты, выполненные в работе, проводились на массиве электронных персонифицированных данных о медицинских услугах в Территориальном фонде обязательного медицинского страхования (ТФОМС) и медицинском информационно-аналитическом центре г. Оренбурга.

Набор данных содержит информацию о посещениях пациентов, дополненную статистическими характеристиками, определенными выше, с отметкой о том, обратится ли пациент в медицинское учреждение с сердечно-сосудистыми заболеваниями в течение одного или трех месяцев.

Анализ решающего дерева

Стоит отметить, что преимуществом алгоритма построения решающего дерева ID3 является простота представления и интерпретируемость результатов. В связи с этим для подтверждения того, что построенный прогноз может соответствует реальному анамнезу, проанализируем построенное дерево решений (рисунок ниже), выделив основные правила.

В соответствии с построенным деревом решений можно выделить наиболее важные обобщающие правила:

ЕСЛИ пациент не обращался последние 6 мес. с ССЗ

ТО
ЕСЛИ пациент не имеет гипертонии, атеросклероза и стенокардии

ТО не придет в ближайшие 3 мес. с ССЗ
ИНАЧЕ
ЕСЛИ пациент имеет гипертонию / атеросклероз / стенокардию

ТО придет ближайшие 3 мес. с ССЗ
   ИНАЧЕ
   ЕСЛИ пациент приходил последние 6 мес. больше 1 раза с ССЗ

 ЕСЛИ пациент не приходил последние 3 мес. с ССЗ
ТО
ЕСЛИ пациент имеет ишемию
ТО придет ближайшие 3 мес. с ССЗ

ИНАЧЕ не придет ближайшие 3 мес. с ССЗ
ИНАЧЕ
ЕСЛИ возраст больше 48
ТО придет ближайшие 3 мес. с ССЗ

ИНАЧЕ не придет ближайшие 3 мес. с ССЗ
ИНАЧЕ пациент придет ближайшие 3 мес. с ССЗ.

В связи с тем, что построенное дерево решений с достаточной точностью проводит классификацию обучающего множества по выходному признаку, то можно говорить об адекватности разработаннной модели.

Сравнительный анализ эффективности алгоритмов

В рамках данного исследования проведена оценка эффективности применения рассмотренных методов для прогнозирования посещений пациентов на основе анализа ROC-кривой и метрики AUC.

Прогноз строился отдельно для обращений в ближайший месяц (рисунок ниже) и 3 месяца (рисунок ниже) в поликлинику с сердечно-сосудистыми заболеваниями на основе анализа электронных персонифицированных карт.

Стоит отметить, что, согласно метрике AUC, алгоритм ID3 показал лучшие результаты прогнозирования (AUC ID3 = 0,7642) на тестовом множестве для анализа обращений в ближайший месяц. Однако для прогнозирования на более долгий срок (3 месяца) более высокую точность показал метод построения логистической регрессии (AUC Log. Regression = 0,8464).

Кроме того, обратим внимание, что точность прогноза посещений на ближайший месяц (0,75) ниже точности на ближайшие 3 месяца (0,84). Это связанно с тем, что обострение сердечно-сосудистых заболеваний происходит достаточно редко при регулярных обследованиях пациентов, и при увеличении рассматриваемого периода для прогноза точность должна увеличиваться.

Заключение

В рамках данного исследования построена модель управления потоком пациентов с сердечно-сосудистыми заболеваниями на основе прогноза обращения в ближайший месяц или 3 месяца за медицинской помощью в поликлинику по поводу ССЗ при анализе электронных персонифицированных карт пациентов.

Определение прогноза осуществлено логистической регрессией, алгоритмом построения деревьев решений ID3 и методом обучения ансамбля – случайные леса.

Построенные модели показали хороший результат, так как имели высокую обобщающую способность и точность. В рамках экспериментального исследования проведена оценка эффективности применения рассмотренных методов для прогнозирования обращений пациентов в поликлиники на основе анализа ROC-кривой и метрики AUC.

Каждый из рассмотренных методов имеет свои преимущества перед аналогичными методами решения задач прогнозирования. Тем не менее стоит отметить, что для короткого временного периода прогнозирования (1 месяц) более высокие результаты показал алгоритм ID3 построения решающих деревьев, а при увеличении рассматриваемого периода до 3 месяцев наилучшие результаты показал метод логистической регрессии.

Предложенный подход к прогнозированию обращений пациентов позволяет повысить качество управления клинико-организационной системой здравоохранения при оказании медицинской помощи, а также спланировать объем и количество отдельных медицинских услуг.

Андрей Никитенко
Андрей Никитенко
Задать вопрос эксперту
Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

Share via