Перспективы использования методов машинного обучения для предсказания сердечно-сосудистых заболеваний

Статья посвящена изучению методов машинного обучения при коррекции поведенческих факторов риска в профилактике сердечно-сосудистых заболеваний (ССЗ). Выполнен мониторинг процессов здоровьесберегающих педагогических вмешательств в структуре региональной системы организации медицинской профилактики. При помощи компьютерного моделирования построена модель правил связывания на основе метода ассоциативных правил (Association Rules). Для фактора риска (ФР) «Повышенное артериальное давление» (АД) выделен шаблон из 5 логических правил. На основе метода деревьев решений сформированы решающие правила и определена целевая аудитория влияния для адресной коррекции ФР. Выполнен анализ и получена оценка достоверности прогностической модели. Результаты анализа использованы для поддержки управленческих решений в региональной системе медицинской профилактики.

Введение

Целенаправленное воздействие на сложный прикладной объект исследования с целью повышения эффективности его функционирования основывается на анализе системных связей с учетом закономерностей исследуемой области. Оптимизация программы развития профилактической деятельности на территориальном уровне предполагает разработку проблемно-ориентированных систем принятия решений в управлении региональным развитием с использованием современных методов анализа данных и обработки информации. Актуальными проблемами являются формирование единого регионального здоровьесберегающего образовательного пространства (далее – РЗОП) на основе проектного подхода, развитие системы выявления приоритетных проблем медицинских активностей населения и организации профилактики в региональных образовательных учреждениях на основе алгоритмов и методов машинного обучения. В социологических исследованиях широко применяется метод ассоциативных правил, позволяющий обнаружить связанные события, образующие поведенческий паттерн. При помощи алгоритмов машинного обучения с использованием деревьев решений могут быть получены решающие правила и выделена целевая группа влияния.

Практическая значимость исследования определяется результатами компьютерного моделирования на основе методов машинного обучения при формировании РЗОП и снижения социально-экономического ущерба от преждевременной кардиоваскулярной смертности населения. Цель работы состоит в изучении возможностей применения методов машинного обучения в ходе компьютерного моделирования при анализе данных медицинских активностей населения в части модификации факторов риска (далее – ФР) артериальной гипертензии (далее – АГ). Анализ данных социологического опроса позволяет определить устойчивые причинно-следственные связи в отношении населения к общепризнанным ФР, выделить шаблоны и выполнить оценку медицинских активностей, что обусловливает новизну работы. Информационно-аналитическая поддержка и адаптивная коррекция поведенческих ФР при помощи компьютерного моделирования позволяет повысить эффективность кардиоваскулярной профилактики при создании здоровьесберегающего пространства региона.

Основная часть

Формирование РЗОП является условием повышения эффективности реализации Государственной программы развития здравоохранения Вологодской области. Создание единой профилактической среды предполагает формирование культуры здорового образа жизни (ЗОЖ) школьников и активную вовлеченность в процесс учителей и родителей. Многоуровневая по структуре, объемам, образовательным и воспитательным ресурсам система РЗОП представляет собой масштабный по охвату населения здоровьесберегающий социально-педагогический мультипроект, в котором важное место занимает эффективное адаптивное управление развитием приоритетных направлений. Мероприятия по сохранению и укреплению здоровья граждан, реализуемые государством и обществом на национальном, региональном и муниципальном уровнях, требуют постоянно действующей системы интеллектуальной поддержки решений на всех ступенях управления, включая межведомственную. Методы машинного обучения показали свою высокую эффективность в решении задач регионального здравоохранения.

Артериальная гипертензия в силу своей распространенности и медико-социальной значимости находится в центре общественного внимания. В Вологодской области внедрена система раннего выявления пациентов с АГ на поликлиническом этапе. Чем лучше выявляемость АГ на ранних стадиях, тем ниже уровень смертности от связанных с ней инфаркта миокарда и мозгового инсульта. Благодаря работе врачей первичного звена число выявленных больных АГ увеличилось.

Кардиоваскулярная смертность была стабилизирована (без ее существенного снижения). Заболеваемость населения АГ (на 100 тыс. чел.) в динамике изменения для 2008–2010 гг. для муниципальных образований области представлена на рисунке ниже.

Географическоераспределениепоказателя заболеваемости артериальной гипертензией в разрезе муниципальных образований области (2008–2010 гг.)

 

Межведомственную работу по формированию регионального здоровьесберегающего пространства регулирует ряд нормативно-правовых актов. Болезни системы кровообращения (далее – БСК) занимают первое место по причинам смерти в Вологодской области и за период 2009–2014 гг. в 1,18–1,28 раза превосходят показатели по РФ. В ходе реализации Государственной программы к 2020 г. ожидается снижение уровня смертности от БСК до 649,4 случаев на 100 тыс. населения. Это значение соответствует уровню 2014 г. по РФ в целом. Коррекция медицинских активностей населения предполагает формирование осознанного отношения к общепризнанным факторам риска АГ и хронических неинфекционных заболеваний (далее – НИЗ), стимулирование самосохранительного поведения граждан и проведение эффектив-ной немедикаментозной терапии2. Вологодский областной центр медицинской профилактики (далее – ВОЦМП) совместно с Государственным научно-исследовательским центром профилактической медицины осуществляет регулярный мониторинг по программе CINDI3. Для оценки влияния родителей на самосохранительное поведение детей был проведен анкетный опрос. Совокупность заполненных анкет содержит различные комбинации 134 признаков, которые появляются с разной частотой. Объем сформированной выборки n = 274 обеспечивает необходимую точность оценки в пределах 0,06 с доверительной вероятностью α = 0,95.

В ходе анализа данных опроса обнаружены устойчивые причинно-следственные связи между показателями анкеты, посвященной отношению населения к ФР АГ, и получена оценка медицинских активностей родителей школьников. Для этого в исследовании были использованы модели связывания на основе метода ассоциативных правил, которые находят структуры в исходных данных и конструируют наборы правил, определяющих эти взаимосвязи. В задачах машинного обучения поиск правил связывания относится к классу обучения без учителя. Необходимо выявить правила, которые представляют собой связанные группы ответов на вопросы анкеты с учетом ограничений. На множестве объектов X задано n бинарных признаков F = {f1, …, fn}, fj : X →{0, 1}. Выборка Xl = {x1, …, xl}⊂ X соответствует набору анкет. Рассматриваются бинарные признаки, которыми являются ответы на вопросы анкеты. Единичное значение признака fj(xi) = 1 говорит о положительном ответе на j-й вопрос в i-й анке-те. При этом каждому набору признаков φ ⊆ F ставится в соответствие предикат φ(x), равный конъюнкции всех признаков из φ:

Для φ(x) = 1 признаки набора φ совместно встречаются у объекта x. Чтобы оце-нить связи количественно, используют показатели поддержки (support) и достовер-ности (confidence). Поддержку набора φ в Xl описывают функцией:


В целях ограничения числа правил используется параметр минимальной под-держки (minsupport) . Набор φ ⊆ F называется часто встречающимся, если ν(φ) ≥ . В проведенном исследовании поддержка supp – это число анкет, содержа-щих как условие, так и следствие относительно их общего количества. Пара непере-секающихся наборов φ, y ⊆ F называется ассоциативным правилом φ → y, если вы-полнены следующие условия:


Левая часть первого из неравенств является достоверностью ассоциативного правила conf. Показатель минимальной достоверности (minconfidence) θ позволяет ограничить число правил. Достоверность используется для оценки точности правила и в исследовании представляет отношение числа анкет, содержащих как условие, так и следствие, к количеству анкет, содержащих только условие. Таким образом, ν(y | φ) рассматривается как оценка условной вероятности. Для ассоциативного правила φ → y справедливо: наборы φ и y совместно встречаются часто – не реже, чем в доле случаев ; если встречается набор φ, то с частотой не менее θ встречается и набор y. Кроме того, для оценки значимости правила используется показатель Lift, представляющий собой отношение частоты появления условия среди объектов, содержащих также и следствие, к частоте появления собственно следствия. Lift рассматривают как обобщенную меру связи признаков. Метод ассоциативных правил используется для сегментации анкетируемых по поведению и анализу предпочтений. Исторически для извлечения набора правил из данных широко применяется алгоритм Apriory. При этом ответы на вопросы анкеты рассматриваются как связан-ные причинно-следственными отношениями «из A следует C»: условие (Antece-dent) → следствие (Consequent). Символ стрелки отображает правило. Ассоциативные правила количественно описывают связи между вопросами анкеты, соответствующие условиям и следствиям. Выделяются правила с максимальным информационным содержимым. Существуют различные рекомендации по выбору пределов поддержки и достоверности.

Модели деревьев решений (Decision tree) позволяют классифицировать будущие наблюдения с использованием набора решающих правил. При проведении исследования перспективным является выделение целевого сегмента лиц (носителей негативных поведенческих паттернов) при помощи деревьев решений. В здравоохранении эти модели часто применяют в ходе анализа заболеваемости. Использование деревьев решений ограничено тем, что они не способны находить наиболее полные и точные правила. В работе использован алгоритм C&RT (Classification and Regres-sion Trees). Он является одним из наиболее популярных и широко применяется в задачах классификации и регрессии автоматического анализа данных. C&RT выявляет шаблоны, отражающие системные связи и закономерности в разнородных исходных сведениях. Результатом его работы служит иерархическая структура правил в виде бинарного дерева решений, где правило является логической конструкцией вида if-then – путь от вершины до конечного узла дерева (листа). В случае бинарного дерева узел имеет двух потомков.

Рекурсивная дихотомия делит исходное множество на два подмножества таким образом, что записи в каждом являются более гомогенными. Очередное разбиение проводится по переменной, которая делает его лучшим. Правилом разбиения выступает индекс Gini g(t). При помощи данного статистического критерия можно выполнить оценку «расстояния» между распределениями классов. Индекс g(t) равен нулю для случая, когда все записи в узле относятся к одной и той же категории. Для вероятности класса j (p(j)) в текущем узле t индекс определяется следующим образом:

Часто в качестве результата работы алгоритма предстает сложное дерево с большим количеством узлов и ветвей, не пригодное для интерпретации. Ценность правила уменьшается при снижении числа объектов, для которых оно справедливо. Следует избегать переобучения модели. На практике предпочтительным является результат разбиения, когда малому количеству узлов отвечает большое количество объектов. Глубину дерева ограничивают, используя оценку целесообразности дальнейшего разбиения. Однако «ранняя остановка» приводит к ухудшению классификации. В связи с этим вместо остановки используют отсечение. Точность метода определяется отношением правильно классифицированных объектов к общему числу объектов. При этом отсечение или замена применяются для ветвей, относительно которых ошибка распознавания не увеличивается. Из последовательности деревьев выбирается лучшее. Применяется тестирование на выборке с перекрестной проверкой. Отсечение в C&RT обеспечивает компромисс между оптимальным размером дерева и точной оценкой вероятности ошибочной классификации.

Ознакомление с литературой и ее анализ позволили выполнить сопоставление целей и методов данной работы с аналогичными источниками. Исследование М. Г. Асеева и В. А. Дюка «Применение системы Deep Data Diver для решения задачи анализа рыночных корзин» посвящено применению технологии поиска ассоциативных правил, основанной на модифицированном аппарате линейной алгебры с использованием процедуры самоорганизации данных. Применяется эффект информационного структурного резонанса. Найдены высокоточные ассоциации элементов исходного множества транзакций с заданным элементом. Н. М. Жилина, А. Е. Фадеева, Г. И. Чеченин в работе «Анализ смертности населения г. Новокузнецка на основе электронной базы данных за период 1999–2007 гг.» рассматривают поиск ассоциативных правил при анализе смертности. Обнаружено, что в более чем 90 % всех случаев закупорка и стеноз передней мозговой артерии распространены в пределах одного района города. В работе Г. Г. Рапакова, Р. А. Касимова, Г. Т. Банщикова, В. А. Горбунова «Распознавание и анализ социокультурных поведенческих паттернов на основе метода ассоциативных правил» ассоциативные правила ис-пользованы для выделения поведенческих шаблонов в целях дальнейшей коррекции здоровьесберегающих активностей и модификации ФР БСК. Монография Г. Г. Рапакова, Р. А. Касимова «Методы и алгоритмы машинного обучения при принятии управленческих решений в региональной системе медицинской профилактики (опыт Вологодской области)» обосновывает применение методов и алгоритмов интеллектуальной поддержки принятия управленческих решений при формировании РЗОП. В задачах фармако-экономического моделирования используют смешанные подходы, предполагающие совместное применение моделей Маркова и деревьев решений. Для повышения качества прогноза отказов при малом количестве поломок в публикации Н. И. Шаханова, И. А. Варфоломеева, Е. В. Ершова, О. В. Юдиной «Прогнозирование отказов оборудования в условиях малого количества поломок» рассмотрен метод деревьев решений (Random Forest). На основе исходной обучающей выборки с возвращением алгоритм строит большое количество решающих деревьев. Для настройки использованы данные об отказах, в ходе обучения модели – сведения, которые соответствуют нормальному режиму работы оборудования. Отказы и аномалии выявлены при помощи разности показаний фактического и прогнозного значений нормального сигнала в последующий интервал времени.

Особенностью предметной области исследования является широкая распространенность поведенческих ФР НИЗ. Модель связывания позволяет эффективно и быстро определить устойчивые причинно-следственные отношения между социометрическими показателями многомерного пространства. Оценочные показатели порогов поддержки и достоверности были предложены при постановке задачи в сотрудничестве со специалистами ВОЦМП, исходя из требований анализа системных связей медицинских активностей населения в части модификации ФР АГ. При этом в задаче оценки медицинских активностей населения в качестве следствия рассматривался отрицательный ответ на вопрос «Является ли повышенное кровяное давление значимым фактором риска?» Утверждение «ФР – повышенное АД = нет» ложно, оно свидетельствует о том, что для интервьюируемого данный ФР не важен. Из всего множества условий, отобранных моделью связывания CARMA при варьировании параметров support (от 6 % до 100 %) и confidence (от 60 % до 100 %), были выделены пять, имеющих отношение к следствию «ФР – повышенное АД = нет», с поддержкой более 90 % и достоверностью выше 97 %, представляющих интерес для анализа (см. таблицу).

Ассоциативная модель связанных событий

 

Consequent (следствие): ФР – повышенное АД = нет

 

Antecedent (условие)

Поддержка (supp.), %

Достоверность (conf.), %

ФР – избыточный вес = нет98,5497,78
Благополучие – никто = нет95,9997,72
Говорите на другие темы о здоровье = не обсуждаю94,5397,68
Программа ЗОЖ в школе нужна = да90,8897,59
Благополучие – собственные действия = нет90,1598,38

С точки зрения организации профилактической работы из числа распознанных как положительные правил можно рассматривать ответы на вопросы: «Нужна ли программа здорового образа жизни в школе?» – ответ «Да» и «Кто или что может повлиять на благополучие и развитие населения?» – вариант «Никто не может повлиять» – ответ «Нет».

Однако остальные три правила являются ложными стереотипами узнавания, свидетельствующими о том, что в сознании анкетируемого искажено восприятие не только следствия в рамках шаблона, но и его условий. Так, на вопрос «Говорите на другие темы о здоровье?» с поддержкой 94,5 % ответом является «Не обсуждаю». Между тем в анкете были перечислены лишь базовые темы ЗОЖ и опущены вопросы формирования духовных качеств, нравственного здоровья, самореализации и личностного роста. Поддержка утверждения, что избыточный вес не является значимым ФР, составляет 98,5 %. Однако суммарный вклад двух из семи ведущих факторов риска сердечно-сосудистых заболеваний (АГ и избыточной массы тела) обусловливает около 48 % преждевременной смертности.

Для вопроса «Кто или что может повлиять на благополучие и развитие населения?» вариант «Мои собственные действия» – ответ «Нет» имеет поддержку в 90,1 % случаев. Это свидетельствует о глубокой пассивности подавляющей части населения. Отрицательные социальные манипуляции по отношению к индивидууму при отсутствии нравственных идеалов в условиях общественной нестабильности ведут к безразличию к себе и окружающим – форме апатии отчаяния в условиях управляемого хаоса.

Выделенные ассоциации образуют набор – поведенческий паттерн. Этот шаблон, наряду с многочисленными другими, выполняет функции регулирования в жизни анкетируемых. Наборы транслируются респондентами в свое окружение. Системный подход предусматривает работу с компонентами шаблона как с единым целым, повышая рентабельность мероприятий по профилактике заболеваний. Визуализация связей расширенного набора ассоциативных правил для переменных с поддержкой выше 90 % отражена на рисунке при помощи сетевого графа.

Иерархическая структура решающих правил в виде дерева решений представлена на рисунке. Целевым параметром выступает принадлежность к группе респондентов, выявленных моделью связывания, построенной с использованием ассоциативных правил (см. таблицу).

 

Визуализация связей расширенного набора ассоциативных правил при помощи сетевого графа

 

Иерархическая структура решающих правил в виде дерева решений

Аудитория влияния при этом представлена лицами в возрасте более 28,5 лет с незаконченным, средним и средним специальным образованием, женского пола. Объем выделенной целевой аудитории составляет 69 %. Для сужения целевой группы необходимо включение дополнительной персональной информации в опросный лист.

Выполнена оценка влияния переменных набора данных на результаты классификации. Определяющий вклад в формирование ложных поведенческих стереотипов, увеличивающих воздействие факторов риска АГ, существенно снижающих эффективность профилактики и качество реализации РЗОП, а также увеличивающих социально-экономическое бремя БСК, вносит образование родителя (51 %). Для целевой группы – это незаконченное, среднее и среднее специальное образование. Оценка значимости возраста родителя составляет 24 %. Пол и степень родства определяют 16 % и 9 % влияния соответственно.

Поскольку суммарный вклад двух факторов риска (АГ и избыточной массы тела) обусловливает около 48 % преждевременной смертности, можно утверждать, что низкий образовательный статус не только снижает качество жизни и блокирует возможность самоактуализации личности, но и вносит существенный вклад в преждевременную кардиоваскулярную смертность.

Верификация модели позволяет выполнить проверку достоверности полученного знания. Точность классификации прогностической модели была определена при помощи процедуры анализа на основе таблицы сопряженности дерева решений. Результаты показывают, что 75,55 % значений, предсказанных моделью, соответствуют фактическим значениям, что вполне достаточно для практических приложений.

 

Выводы

Для решения задачи обнаружения связанных событий в данных социологического опроса был использован метод машинного обучения CARMA Algorithms. На основе ассоциативных правил выявлены психосоциальные характеристики, сопоставленные с поведенческими факторами риска НИЗ. Для фактора риска «Повышенное артериальное давление» выделен шаблон из пяти логических правил с поддержкой не менее 90 % и достоверностью не ниже 97 %, который отражает закономерности исследуемой области профилактической медицины. Для подавляющей части респондентов характерна социальная пассивность. Визуализация связей расширенного набора ассоциативных правил выполнена на основе сетевого графа. При помощи метода деревьев решений C&RT Algorithms сформированы решающие правила и выявлен целевой сегмент лиц – носителей негативных социокультурных поведенческих установок – для последующей коррекции их здоровьесберегающих активностей и модификации ФР. Целевая группа представлена респондентами в возрасте более 28,5 лет с незаконченным, средним и средним специальным образованием, женского пола. Объем выделенной целевой аудитории составляет 69 %. Определяющий вклад (более 50 %) в формирование выявленного негативного социокультурного поведенческого паттерна вносит образование родителя. Его низкий уровень существенно влияет на преждевременную кардиоваскулярную смертность.

Дальнейшие перспективы работы связаны с геоинформационным моделированием заболеваемости и смертности от БСК на основе метода пространственных ассоциативных правил. Результаты исследования использованы для интеллектуальной поддержки принятия решений в задачах повышения эффективности профилактики, коррекции здоровьесберегающих активностей и факторов риска в ходе выполнения региональной программы развития здравоохранения.

Актуальность

Сердечно-сосудистые заболевания (ССЗ) продолжают оставаться наиболее актуальной проблемой здравоохранения большинства стран мира, в том числе и в Российской Федерации. Согласно данным Всемирной организации здравоохранения, ежегодно в мире от сердечно-сосудистых заболеваний (ССЗ) погибает более 17 млн. человек, из них от ишемической болезни сердца (ИБС) – более 7 млн.

В течение последних 30–40 лет было достигнуто многократное снижение заболеваемости и смертности от ССЗ, в том числе от ИБС. Эта положительная тенденция связана не только с высоким уровнем лечения ИБС, но и в первую очередь с проведением мероприятий первичной профилактики.

Научной основой профилактики ССЗ является концепция факторов риска (ФР), которые были выявлены в эпидемиологических исследованиях. И с 1961 г., после опубликования первых результатов Фрамингемского исследования (ФИ), началась эра изучения ФР, а ИБС названа в качестве ведущей причины смерти в США. В этой работе авторы впервые показали, что риск развития ИБС связан с артериальной гипертонией (АГ), повышенным уровнем общего холестерина (ОХС) и электрокардиографическими признаками гипертрофии левого желудочка. В последующем были разработаны другие шкалы сердечно-сосудистого риска, основной из которых в Европе и у нас в стране стала шкала SCORE, получившая общемировое признание и повсеместное использование.

Одним из важнейших достижений эпидемиологии неинфекционных заболеваний в настоящее время следует признать переход от оценки отдельных ФР к оценке общего, или суммарного, риска. Иными словами – к созданию прогностических моделей. Результаты, полученные в ФИ, позволили разработать методику многомерного моделирования риска развития ССЗ и их осложнений. С помощью метода логистической регрессии уже в 1976 г. была создана первая система прогнозирования суммарного риска развития ИБС. Определение общего риска развития ИБС в ранних крупных эпидемиологических исследованиях вызвало интерес к возможности определения индивидуального риска развития ИБС у пациентов с целью предупреждения этого заболевания.

Прогнозирование риска ССЗ становится все более важным в принятии клинических решений с момента их введения на международном уровне в последние руководящие принципы.

В то же время прогнозирование риска ИБС на основании анализа традиционных факторов риска сопряжено с рядом проблем. Во ФИ при наблюдении в течение 26 лет выявлено значительное совпадение групп лиц без установленной ИБС и людей, у которых развивается ИБС. По уровню традиционных ФР, было отмечено совпадение уровня ОХС (3,9–7,8 ммоль/л) между группами. Отмечено значительное совпадение групп больных ИБС и здоровых мужчин по уровню традиционных ФР (ОХС, ХС ЛПНП, курению, АГ, ИМТ) и достоверное различие по ХС ЛПВП, ТГ и отношению ХС ЛПНП/ХС ЛПВП. В проспективном исследовании NPHS2 сравнивалась предсказательная способность алгоритмов для оценки сердечно-сосудистого риска Framingham и Procam. Оба эти алгоритма имели ложноотрицательный результат >85%.

Низкая точность предсказания сердечно-сосудистых событий имеет ряд причин. Во-первых, оценка суммарного риска должна быть адаптирована в зависимости от национальных и региональных особенностей. Во-вторых, с учетом дизайна входящих в разработку шкал исследований, в них часто не учтены существенные для наступления сердечно-сосудистого события клинические состояния (сахарный диабет I и II типа, хроническая болезнь почек или очень высокие уровни отдельных факторов риска). В-третьих, данные, которые были использованы для составления шкал, были получены 30–50 лет назад и могут не соответствовать современным реалиям. В-четвертых, математические методы расчета рисков также имеют погрешности и ограничения по применимости. Таким образом, мы можем уверенно говорить о проблеме недостаточной точности результатов расчета сердечно-сосудистого риска на основании общепринятых шкал.

Машинное обучение дает хорошие возможности решить эту проблему и существенно повысить точность прогнозирования сердечно-сосудистых заболеваний и их осложнений в сравнении с использованием существующих методик, за счет учета нелинейных взаимосвязей их точной настройки между факторами сердечно-сосудистого риска и проявлением заболеваний. В последнее время расчет число исследований и разработок в этой области.

Цель и дизайн исследования

Целью нашего исследования было повышение точности предсказания рисков развития сердечно-сосудистых заболеваний на основе Фрамингемской шкалы путем применения машинного обучения для разработки собственной математической модели.

В рамках поставленной цели последовательно были решены следующие задачи:

1. Формирование дата-сета для исследования, представленного данными по пациентам с необходимыми и достаточными признаками для расчетов риска по Фрамингемской шкале, а также достаточное количество пациентов как с наличием, так и отсутствием ССЗ за период не менее 10 лет.

2. Проведение оценки рисков развития ССЗ для данного дата-сета на основе использования классического калькулятора Фрамингемской шкалы.

3. Создание модели расчета рисков ССЗ для данного дата-сета с использованием методов машинного обучения.

4. Сравнение полученных результатов по двум способам расчетов, используя оценки точности и качества моделирования ROC-статистического анализа.

Формирование исходных данных

Концептуальная схема исследования, показывающая описанные шаги, представлена на рисунке ниже. Для проведения исследования была выбрана база данных из 2236 пациентов, имеющих и неимеющих ССЗ.

Когорта располагала полными данными по основным базовым переменным (пол, возраст, курение, систолическое артериальное давление, диастолическое артериальное давление, общий холестерин, холестерин липопротеидов высокой плотности, сахарный диабет, прием антигипертензивных препаратов и другие), используемых в обучаемой модели прогнозирования. Состав данных представлен в таблице ниже.

Базовая выборка имеет средний возраст 60.2 ± 8.29 лет, с 44 до 81 года. Число пациентов, имеющих случаи сердечно-сосудистых заболеваний, составило 523 пациента.

Исходная дата наблюдения была установлена 1 января 2005 года, что позволило всем пациентам в когорте находиться под наблюдением в течение 10 лет, дата конца периода наблюдения была определена как 1 января 2015. Лица, имеющие в анамнезе сердечно-сосудистые заболевания, наследственные нарушения липидного обмена или вне возрастного диапазона были исключены из анализа.

Модель на основе машинного обучения

В качестве методов машинного обучения использована модель искусственной нейронной сети с двумя скрытыми слоями.

Популяция исследования была разделена в наборе данных на «обучающую» выборку (75% из общей извлеченной когорты), в которой были получены алгоритмы риска ССЗ и выборку «валидация» (оставшиеся 25%), которая применялась для тестирования и оценки алгоритмов.

В качестве модели использована последовательная модель с одним входным, тремя скрытыми и одним выходным слоем. Для предотвращения переобучения используется исключение («dropout»). На каждом слое используется функция «dense» для полного соединения слоев друг с другом. В скрытых слоях используется функция активации «relu».

Концептуальная схема исследования
Описание используемых исходных данных для исследования

В качестве оптимизатора алгоритма, который изменяет веса и смещения во время обучения, используется «rmsprop». В качестве функции потерь («loss») используется бинарная кросс-энтропия, в качестве метрики оценки – точность.

Эти алгоритмы были реализованы с помощью открытой библиотеки с исходными текстами scikit-learn, Tensorflow и Keras для языка программирования Python. Гиперпараметры каждой модели определяли с помощью алгоритма поиска GridSearchCV (из той же библиотеки scikit-learn) и 10 K-Fold перекрестной валидации на обучающей когорте для определения значений, которые привели к лучшей производительности.

Результат обучения нейросети показан на рисунках ниже:

Зависимость точности модели (accuracy) от количества итераций (epoch) в сравнении для обучающей и тестовой выборок
Зависимость функции потерь (loss) от количества итераций (epoch) в сравнении для обучающей и тестовой выборок

Результаты сравнительной оценки моделей

Параметры точности моделей оценивались по методу ROC анализа, основная концепция которого сводится к задаче классификации, чтобы относить ранее неизвестные моделируемые случаи ССЗ с фактическими болезнями.

В результате классификации может наблюдаться четыре различных ситуации:

• истинно-положительный результат (true-positive, TP) – пациент больной, диагноз положительный;
• ложно-положительный результат (false-posi-tive, FP) – пациент здоров, диагноз положительный;
• истинно-отрицательный результат (true-nega-tive, TN) – пациент здоров, диагноз отрицательный;
• ложно-отрицательный результат (false-negative, FN) – пациент больной, диагноз отрицательный.

Четыре возможных выхода могут быть сформулированы и оформлены в виде матрицы сопряженности:

Confusion matrix [[TP FP]
[FN TN]]

Значение Se=TP/(TP+FN) – доля истинно положительных случаев или способность алгоритма правильно определять больных, называется чувствительностью.

Значение Spe=TN/(TN+FP) – доля истинно отрицательных случаев или способность алгоритма не принимать здоровых за больных, называется специфичностью.

Экономический эффект от этих ошибок разный: ложно-отрицательный больной придёт с запущенной болезнью, а на дообследование ложно-положительного будут потрачены ресурсы.

Значение Accuracy=(TP+TN)/(TP+FP+FN+TN) – это точность модели, которая характеризует способность модели правильно определять истинно больных и истинно здоровых пациентов.

Полученные оценки для модели на основе нейронной сети:

Confusion matrix [[493 18]

[124 36]]

Accuracy = 78,84%

Se = 0,79, Sp = 0,67

Для Фрамингемской шкалы прогнозирования риска аналогичные показатели:

Confusion matrix [[134281] [3891432]] Accuracy = 70.0%

Se = 0,25, Sp = 0,83

Как показывают сравнительные оценки анализа результатов моделей, Фрамингемская шкала способна наиболее точно определять здоровых пациентов (специфичность выше, чем у нейросети), но при этом чувствительность шкалы (Se = 0,25) низкая для определения истинно больных пациентов.

Полученная нами с помощью машинного обучения нейронная сеть показала высокую чувствительность (Se = 0,79) и повысила точность моделирования Accuracy по сравнению с базовой шкалой на +8,84%.

На рисунке ниже представлены Roc-кривые зависимости показателя чувствительности модели от ее специфичности, и площадь AUC под ROC-кривой показывает качество модели. Чем выше показатель AUC, тем выше качество модели.

Полученные показатели AUC:

– для Фрамингемской шкалы: 0,59 (неудовлетворительное качество модели);
– для нейросети: 0,84 (приемлемое качество модели).

Roc-кривые для результатов моделирования, полученных для Фрамингемской шкалы и модели на основе машинного обучения (нейросеть)

Как показывают результаты оценки точности и качества, модель на основе нейронной сети улучшает результат моделирования по сравнению с Фрамингемской шкалой.

Таким образом, наиболее эффективным и точным способом расчета риска ССЗ является математическая модель на основе нейронной сети с использованием данных для обучения, собранных в популяции, на которой она будет использована.

Выводы

1. Расчет суммарного сердечно-сосуди