Перспективы использования методов машинного обучения для предсказания сердечно-сосудистых заболеваний

Статья посвящена изучению методов машинного обучения при коррекции поведенческих факторов риска в профилактике сердечно-сосудистых заболеваний (ССЗ). Выполнен мониторинг процессов здоровьесберегающих педагогических вмешательств в структуре региональной системы организации медицинской профилактики. При помощи компьютерного моделирования построена модель правил связывания на основе метода ассоциативных правил (Association Rules). Для фактора риска (ФР) «Повышенное артериальное давление» (АД) выделен шаблон из 5 логических правил. На основе метода деревьев решений сформированы решающие правила и определена целевая аудитория влияния для адресной коррекции ФР. Выполнен анализ и получена оценка достоверности прогностической модели. Результаты анализа использованы для поддержки управленческих решений в региональной системе медицинской профилактики.

Введение

Целенаправленное воздействие на сложный прикладной объект исследования с целью повышения эффективности его функционирования основывается на анализе системных связей с учетом закономерностей исследуемой области. Оптимизация программы развития профилактической деятельности на территориальном уровне предполагает разработку проблемно-ориентированных систем принятия решений в управлении региональным развитием с использованием современных методов анализа данных и обработки информации. Актуальными проблемами являются формирование единого регионального здоровьесберегающего образовательного пространства (далее – РЗОП) на основе проектного подхода, развитие системы выявления приоритетных проблем медицинских активностей населения и организации профилактики в региональных образовательных учреждениях на основе алгоритмов и методов машинного обучения. В социологических исследованиях широко применяется метод ассоциативных правил, позволяющий обнаружить связанные события, образующие поведенческий паттерн. При помощи алгоритмов машинного обучения с использованием деревьев решений могут быть получены решающие правила и выделена целевая группа влияния.

Практическая значимость исследования определяется результатами компьютерного моделирования на основе методов машинного обучения при формировании РЗОП и снижения социально-экономического ущерба от преждевременной кардиоваскулярной смертности населения. Цель работы состоит в изучении возможностей применения методов машинного обучения в ходе компьютерного моделирования при анализе данных медицинских активностей населения в части модификации факторов риска (далее – ФР) артериальной гипертензии (далее – АГ). Анализ данных социологического опроса позволяет определить устойчивые причинно-следственные связи в отношении населения к общепризнанным ФР, выделить шаблоны и выполнить оценку медицинских активностей, что обусловливает новизну работы. Информационно-аналитическая поддержка и адаптивная коррекция поведенческих ФР при помощи компьютерного моделирования позволяет повысить эффективность кардиоваскулярной профилактики при создании здоровьесберегающего пространства региона.

Основная часть

Формирование РЗОП является условием повышения эффективности реализации Государственной программы развития здравоохранения Вологодской области. Создание единой профилактической среды предполагает формирование культуры здорового образа жизни (ЗОЖ) школьников и активную вовлеченность в процесс учителей и родителей. Многоуровневая по структуре, объемам, образовательным и воспитательным ресурсам система РЗОП представляет собой масштабный по охвату населения здоровьесберегающий социально-педагогический мультипроект, в котором важное место занимает эффективное адаптивное управление развитием приоритетных направлений. Мероприятия по сохранению и укреплению здоровья граждан, реализуемые государством и обществом на национальном, региональном и муниципальном уровнях, требуют постоянно действующей системы интеллектуальной поддержки решений на всех ступенях управления, включая межведомственную. Методы машинного обучения показали свою высокую эффективность в решении задач регионального здравоохранения.

Артериальная гипертензия в силу своей распространенности и медико-социальной значимости находится в центре общественного внимания. В Вологодской области внедрена система раннего выявления пациентов с АГ на поликлиническом этапе. Чем лучше выявляемость АГ на ранних стадиях, тем ниже уровень смертности от связанных с ней инфаркта миокарда и мозгового инсульта. Благодаря работе врачей первичного звена число выявленных больных АГ увеличилось.

Кардиоваскулярная смертность была стабилизирована (без ее существенного снижения). Заболеваемость населения АГ (на 100 тыс. чел.) в динамике изменения для 2008–2010 гг. для муниципальных образований области представлена на рисунке ниже.

Географическоераспределениепоказателя заболеваемости артериальной гипертензией в разрезе муниципальных образований области (2008–2010 гг.)

 

Межведомственную работу по формированию регионального здоровьесберегающего пространства регулирует ряд нормативно-правовых актов. Болезни системы кровообращения (далее – БСК) занимают первое место по причинам смерти в Вологодской области и за период 2009–2014 гг. в 1,18–1,28 раза превосходят показатели по РФ. В ходе реализации Государственной программы к 2020 г. ожидается снижение уровня смертности от БСК до 649,4 случаев на 100 тыс. населения. Это значение соответствует уровню 2014 г. по РФ в целом. Коррекция медицинских активностей населения предполагает формирование осознанного отношения к общепризнанным факторам риска АГ и хронических неинфекционных заболеваний (далее – НИЗ), стимулирование самосохранительного поведения граждан и проведение эффектив-ной немедикаментозной терапии2. Вологодский областной центр медицинской профилактики (далее – ВОЦМП) совместно с Государственным научно-исследовательским центром профилактической медицины осуществляет регулярный мониторинг по программе CINDI3. Для оценки влияния родителей на самосохранительное поведение детей был проведен анкетный опрос. Совокупность заполненных анкет содержит различные комбинации 134 признаков, которые появляются с разной частотой. Объем сформированной выборки n = 274 обеспечивает необходимую точность оценки в пределах 0,06 с доверительной вероятностью α = 0,95.

В ходе анализа данных опроса обнаружены устойчивые причинно-следственные связи между показателями анкеты, посвященной отношению населения к ФР АГ, и получена оценка медицинских активностей родителей школьников. Для этого в исследовании были использованы модели связывания на основе метода ассоциативных правил, которые находят структуры в исходных данных и конструируют наборы правил, определяющих эти взаимосвязи. В задачах машинного обучения поиск правил связывания относится к классу обучения без учителя. Необходимо выявить правила, которые представляют собой связанные группы ответов на вопросы анкеты с учетом ограничений. На множестве объектов X задано n бинарных признаков F = {f1, …, fn}, fj : X →{0, 1}. Выборка Xl = {x1, …, xl}⊂ X соответствует набору анкет. Рассматриваются бинарные признаки, которыми являются ответы на вопросы анкеты. Единичное значение признака fj(xi) = 1 говорит о положительном ответе на j-й вопрос в i-й анке-те. При этом каждому набору признаков φ ⊆ F ставится в соответствие предикат φ(x), равный конъюнкции всех признаков из φ:

Для φ(x) = 1 признаки набора φ совместно встречаются у объекта x. Чтобы оце-нить связи количественно, используют показатели поддержки (support) и достовер-ности (confidence). Поддержку набора φ в Xl описывают функцией:


В целях ограничения числа правил используется параметр минимальной под-держки (minsupport) . Набор φ ⊆ F называется часто встречающимся, если ν(φ) ≥ . В проведенном исследовании поддержка supp – это число анкет, содержа-щих как условие, так и следствие относительно их общего количества. Пара непере-секающихся наборов φ, y ⊆ F называется ассоциативным правилом φ → y, если вы-полнены следующие условия:


Левая часть первого из неравенств является достоверностью ассоциативного правила conf. Показатель минимальной достоверности (minconfidence) θ позволяет ограничить число правил. Достоверность используется для оценки точности правила и в исследовании представляет отношение числа анкет, содержащих как условие, так и следствие, к количеству анкет, содержащих только условие. Таким образом, ν(y | φ) рассматривается как оценка условной вероятности. Для ассоциативного правила φ → y справедливо: наборы φ и y совместно встречаются часто – не реже, чем в доле случаев ; если встречается набор φ, то с частотой не менее θ встречается и набор y. Кроме того, для оценки значимости правила используется показатель Lift, представляющий собой отношение частоты появления условия среди объектов, содержащих также и следствие, к частоте появления собственно следствия. Lift рассматривают как обобщенную меру связи признаков. Метод ассоциативных правил используется для сегментации анкетируемых по поведению и анализу предпочтений. Исторически для извлечения набора правил из данных широко применяется алгоритм Apriory. При этом ответы на вопросы анкеты рассматриваются как связан-ные причинно-следственными отношениями «из A следует C»: условие (Antece-dent) → следствие (Consequent). Символ стрелки отображает правило. Ассоциативные правила количественно описывают связи между вопросами анкеты, соответствующие условиям и следствиям. Выделяются правила с максимальным информационным содержимым. Существуют различные рекомендации по выбору пределов поддержки и достоверности.

Модели деревьев решений (Decision tree) позволяют классифицировать будущие наблюдения с использованием набора решающих правил. При проведении исследования перспективным является выделение целевого сегмента лиц (носителей негативных поведенческих паттернов) при помощи деревьев решений. В здравоохранении эти модели часто применяют в ходе анализа заболеваемости. Использование деревьев решений ограничено тем, что они не способны находить наиболее полные и точные правила. В работе использован алгоритм C&RT (Classification and Regres-sion Trees). Он является одним из наиболее популярных и широко применяется в задачах классификации и регрессии автоматического анализа данных. C&RT выявляет шаблоны, отражающие системные связи и закономерности в разнородных исходных сведениях. Результатом его работы служит иерархическая структура правил в виде бинарного дерева решений, где правило является логической конструкцией вида if-then – путь от вершины до конечного узла дерева (листа). В случае бинарного дерева узел имеет двух потомков.

Рекурсивная дихотомия делит исходное множество на два подмножества таким образом, что записи в каждом являются более гомогенными. Очередное разбиение проводится по переменной, которая делает его лучшим. Правилом разбиения выступает индекс Gini g(t). При помощи данного статистического критерия можно выполнить оценку «расстояния» между распределениями классов. Индекс g(t) равен нулю для случая, когда все записи в узле относятся к одной и той же категории. Для вероятности класса j (p(j)) в текущем узле t индекс определяется следующим образом:

Часто в качестве результата работы алгоритма предстает сложное дерево с большим количеством узлов и ветвей, не пригодное для интерпретации. Ценность правила уменьшается при снижении числа объектов, для которых оно справедливо. Следует избегать переобучения модели. На практике предпочтительным является результат разбиения, когда малому количеству узлов отвечает большое количество объектов. Глубину дерева ограничивают, используя оценку целесообразности дальнейшего разбиения. Однако «ранняя остановка» приводит к ухудшению классификации. В связи с этим вместо остановки используют отсечение. Точность метода определяется отношением правильно классифицированных объектов к общему числу объектов. При этом отсечение или замена применяются для ветвей, относительно которых ошибка распознавания не увеличивается. Из последовательности деревьев выбирается лучшее. Применяется тестирование на выборке с перекрестной проверкой. Отсечение в C&RT обеспечивает компромисс между оптимальным размером дерева и точной оценкой вероятности ошибочной классификации.

Ознакомление с литературой и ее анализ позволили выполнить сопоставление целей и методов данной работы с аналогичными источниками. Исследование М. Г. Асеева и В. А. Дюка «Применение системы Deep Data Diver для решения задачи анализа рыночных корзин» посвящено применению технологии поиска ассоциативных правил, основанной на модифицированном аппарате линейной алгебры с использованием процедуры самоорганизации данных. Применяется эффект информационного структурного резонанса. Найдены высокоточные ассоциации элементов исходного множества транзакций с заданным элементом. Н. М. Жилина, А. Е. Фадеева, Г. И. Чеченин в работе «Анализ смертности населения г. Новокузнецка на основе электронной базы данных за период 1999–2007 гг.» рассматривают поиск ассоциативных правил при анализе смертности. Обнаружено, что в более чем 90 % всех случаев закупорка и стеноз передней мозговой артерии распространены в пределах одного района города. В работе Г. Г. Рапакова, Р. А. Касимова, Г. Т. Банщикова, В. А. Горбунова «Распознавание и анализ социокультурных поведенческих паттернов на основе метода ассоциативных правил» ассоциативные правила ис-пользованы для выделения поведенческих шаблонов в целях дальнейшей коррекции здоровьесберегающих активностей и модификации ФР БСК. Монография Г. Г. Рапакова, Р. А. Касимова «Методы и алгоритмы машинного обучения при принятии управленческих решений в региональной системе медицинской профилактики (опыт Вологодской области)» обосновывает применение методов и алгоритмов интеллектуальной поддержки принятия управленческих решений при формировании РЗОП. В задачах фармако-экономического моделирования используют смешанные подходы, предполагающие совместное применение моделей Маркова и деревьев решений. Для повышения качества прогноза отказов при малом количестве поломок в публикации Н. И. Шаханова, И. А. Варфоломеева, Е. В. Ершова, О. В. Юдиной «Прогнозирование отказов оборудования в условиях малого количества поломок» рассмотрен метод деревьев решений (Random Forest). На основе исходной обучающей выборки с возвращением алгоритм строит большое количество решающих деревьев. Для настройки использованы данные об отказах, в ходе обучения модели – сведения, которые соответствуют нормальному режиму работы оборудования. Отказы и аномалии выявлены при помощи разности показаний фактического и прогнозного значений нормального сигнала в последующий интервал времени.

Особенностью предметной области исследования является широкая распространенность поведенческих ФР НИЗ. Модель связывания позволяет эффективно и быстро определить устойчивые причинно-следственные отношения между социометрическими показателями многомерного пространства. Оценочные показатели порогов поддержки и достоверности были предложены при постановке задачи в сотрудничестве со специалистами ВОЦМП, исходя из требований анализа системных связей медицинских активностей населения в части модификации ФР АГ. При этом в задаче оценки медицинских активностей населения в качестве следствия рассматривался отрицательный ответ на вопрос «Является ли повышенное кровяное давление значимым фактором риска?» Утверждение «ФР – повышенное АД = нет» ложно, оно свидетельствует о том, что для интервьюируемого данный ФР не важен. Из всего множества условий, отобранных моделью связывания CARMA при варьировании параметров support (от 6 % до 100 %) и confidence (от 60 % до 100 %), были выделены пять, имеющих отношение к следствию «ФР – повышенное АД = нет», с поддержкой более 90 % и достоверностью выше 97 %, представляющих интерес для анализа (см. таблицу).

Ассоциативная модель связанных событий

 

Consequent (следствие): ФР – повышенное АД = нет

 

Antecedent (условие)

Поддержка (supp.), %

Достоверность (conf.), %

ФР – избыточный вес = нет98,5497,78
Благополучие – никто = нет95,9997,72
Говорите на другие темы о здоровье = не обсуждаю94,5397,68
Программа ЗОЖ в школе нужна = да90,8897,59
Благополучие – собственные действия = нет90,1598,38

С точки зрения организации профилактической работы из числа распознанных как положительные правил можно рассматривать ответы на вопросы: «Нужна ли программа здорового образа жизни в школе?» – ответ «Да» и «Кто или что может повлиять на благополучие и развитие населения?» – вариант «Никто не может повлиять» – ответ «Нет».

Однако остальные три правила являются ложными стереотипами узнавания, свидетельствующими о том, что в сознании анкетируемого искажено восприятие не только следствия в рамках шаблона, но и его условий. Так, на вопрос «Говорите на другие темы о здоровье?» с поддержкой 94,5 % ответом является «Не обсуждаю». Между тем в анкете были перечислены лишь базовые темы ЗОЖ и опущены вопросы формирования духовных качеств, нравственного здоровья, самореализации и личностного роста. Поддержка утверждения, что избыточный вес не является значимым ФР, составляет 98,5 %. Однако суммарный вклад двух из семи ведущих факторов риска сердечно-сосудистых заболеваний (АГ и избыточной массы тела) обусловливает около 48 % преждевременной смертности.

Для вопроса «Кто или что может повлиять на благополучие и развитие населения?» вариант «Мои собственные действия» – ответ «Нет» имеет поддержку в 90,1 % случаев. Это свидетельствует о глубокой пассивности подавляющей части населения. Отрицательные социальные манипуляции по отношению к индивидууму при отсутствии нравственных идеалов в условиях общественной нестабильности ведут к безразличию к себе и окружающим – форме апатии отчаяния в условиях управляемого хаоса.

Выделенные ассоциации образуют набор – поведенческий паттерн. Этот шаблон, наряду с многочисленными другими, выполняет функции регулирования в жизни анкетируемых. Наборы транслируются респондентами в свое окружение. Системный подход предусматривает работу с компонентами шаблона как с единым целым, повышая рентабельность мероприятий по профилактике заболеваний. Визуализация связей расширенного набора ассоциативных правил для переменных с поддержкой выше 90 % отражена на рисунке при помощи сетевого графа.

Иерархическая структура решающих правил в виде дерева решений представлена на рисунке. Целевым параметром выступает принадлежность к группе респондентов, выявленных моделью связывания, построенной с использованием ассоциативных правил (см. таблицу).

 

Визуализация связей расширенного набора ассоциативных правил при помощи сетевого графа

 

Иерархическая структура решающих правил в виде дерева решений

Аудитория влияния при этом представлена лицами в возрасте более 28,5 лет с незаконченным, средним и средним специальным образованием, женского пола. Объем выделенной целевой аудитории составляет 69 %. Для сужения целевой группы необходимо включение дополнительной персональной информации в опросный лист.

Выполнена оценка влияния переменных набора данных на результаты классификации. Определяющий вклад в формирование ложных поведенческих стереотипов, увеличивающих воздействие факторов риска АГ, существенно снижающих эффективность профилактики и качество реализации РЗОП, а также увеличивающих социально-экономическое бремя БСК, вносит образование родителя (51 %). Для целевой группы – это незаконченное, среднее и среднее специальное образование. Оценка значимости возраста родителя составляет 24 %. Пол и степень родства определяют 16 % и 9 % влияния соответственно.

Поскольку суммарный вклад двух факторов риска (АГ и избыточной массы тела) обусловливает около 48 % преждевременной смертности, можно утверждать, что низкий образовательный статус не только снижает качество жизни и блокирует возможность самоактуализации личности, но и вносит существенный вклад в преждевременную кардиоваскулярную смертность.

Верификация модели позволяет выполнить проверку достоверности полученного знания. Точность классификации прогностической модели была определена при помощи процедуры анализа на основе таблицы сопряженности дерева решений. Результаты показывают, что 75,55 % значений, предсказанных моделью, соответствуют фактическим значениям, что вполне достаточно для практических приложений.

 

Выводы

Для решения задачи обнаружения связанных событий в данных социологического опроса был использован метод машинного обучения CARMA Algorithms. На основе ассоциативных правил выявлены психосоциальные характеристики, сопоставленные с поведенческими факторами риска НИЗ. Для фактора риска «Повышенное артериальное давление» выделен шаблон из пяти логических правил с поддержкой не менее 90 % и достоверностью не ниже 97 %, который отражает закономерности исследуемой области профилактической медицины. Для подавляющей части респондентов характерна социальная пассивность. Визуализация связей расширенного набора ассоциативных правил выполнена на основе сетевого графа. При помощи метода деревьев решений C&RT Algorithms сформированы решающие правила и выявлен целевой сегмент лиц – носителей негативных социокультурных поведенческих установок – для последующей коррекции их здоровьесберегающих активностей и модификации ФР. Целевая группа представлена респондентами в возрасте более 28,5 лет с незаконченным, средним и средним специальным образованием, женского пола. Объем выделенной целевой аудитории составляет 69 %. Определяющий вклад (более 50 %) в формирование выявленного негативного социокультурного поведенческого паттерна вносит образование родителя. Его низкий уровень существенно влияет на преждевременную кардиоваскулярную смертность.

Дальнейшие перспективы работы связаны с геоинформационным моделированием заболеваемости и смертности от БСК на основе метода пространственных ассоциативных правил. Результаты исследования использованы для интеллектуальной поддержки принятия решений в задачах повышения эффективности профилактики, коррекции здоровьесберегающих активностей и факторов риска в ходе выполнения региональной программы развития здравоохранения.

Актуальность

Сердечно-сосудистые заболевания (ССЗ) продолжают оставаться наиболее актуальной проблемой здравоохранения большинства стран мира, в том числе и в Российской Федерации. Согласно данным Всемирной организации здравоохранения, ежегодно в мире от сердечно-сосудистых заболеваний (ССЗ) погибает более 17 млн. человек, из них от ишемической болезни сердца (ИБС) – более 7 млн.

В течение последних 30–40 лет было достигнуто многократное снижение заболеваемости и смертности от ССЗ, в том числе от ИБС. Эта положительная тенденция связана не только с высоким уровнем лечения ИБС, но и в первую очередь с проведением мероприятий первичной профилактики.

Научной основой профилактики ССЗ является концепция факторов риска (ФР), которые были выявлены в эпидемиологических исследованиях. И с 1961 г., после опубликования первых результатов Фрамингемского исследования (ФИ), началась эра изучения ФР, а ИБС названа в качестве ведущей причины смерти в США. В этой работе авторы впервые показали, что риск развития ИБС связан с артериальной гипертонией (АГ), повышенным уровнем общего холестерина (ОХС) и электрокардиографическими признаками гипертрофии левого желудочка. В последующем были разработаны другие шкалы сердечно-сосудистого риска, основной из которых в Европе и у нас в стране стала шкала SCORE, получившая общемировое признание и повсеместное использование.

Одним из важнейших достижений эпидемиологии неинфекционных заболеваний в настоящее время следует признать переход от оценки отдельных ФР к оценке общего, или суммарного, риска. Иными словами – к созданию прогностических моделей. Результаты, полученные в ФИ, позволили разработать методику многомерного моделирования риска развития ССЗ и их осложнений. С помощью метода логистической регрессии уже в 1976 г. была создана первая система прогнозирования суммарного риска развития ИБС. Определение общего риска развития ИБС в ранних крупных эпидемиологических исследованиях вызвало интерес к возможности определения индивидуального риска развития ИБС у пациентов с целью предупреждения этого заболевания.

Прогнозирование риска ССЗ становится все более важным в принятии клинических решений с момента их введения на международном уровне в последние руководящие принципы.

В то же время прогнозирование риска ИБС на основании анализа традиционных факторов риска сопряжено с рядом проблем. Во ФИ при наблюдении в течение 26 лет выявлено значительное совпадение групп лиц без установленной ИБС и людей, у которых развивается ИБС. По уровню традиционных ФР, было отмечено совпадение уровня ОХС (3,9–7,8 ммоль/л) между группами. Отмечено значительное совпадение групп больных ИБС и здоровых мужчин по уровню традиционных ФР (ОХС, ХС ЛПНП, курению, АГ, ИМТ) и достоверное различие по ХС ЛПВП, ТГ и отношению ХС ЛПНП/ХС ЛПВП. В проспективном исследовании NPHS2 сравнивалась предсказательная способность алгоритмов для оценки сердечно-сосудистого риска Framingham и Procam. Оба эти алгоритма имели ложноотрицательный результат >85%.

Низкая точность предсказания сердечно-сосудистых событий имеет ряд причин. Во-первых, оценка суммарного риска должна быть адаптирована в зависимости от национальных и региональных особенностей. Во-вторых, с учетом дизайна входящих в разработку шкал исследований, в них часто не учтены существенные для наступления сердечно-сосудистого события клинические состояния (сахарный диабет I и II типа, хроническая болезнь почек или очень высокие уровни отдельных факторов риска). В-третьих, данные, которые были использованы для составления шкал, были получены 30–50 лет назад и могут не соответствовать современным реалиям. В-четвертых, математические методы расчета рисков также имеют погрешности и ограничения по применимости. Таким образом, мы можем уверенно говорить о проблеме недостаточной точности результатов расчета сердечно-сосудистого риска на основании общепринятых шкал.

Машинное обучение дает хорошие возможности решить эту проблему и существенно повысить точность прогнозирования сердечно-сосудистых заболеваний и их осложнений в сравнении с использованием существующих методик, за счет учета нелинейных взаимосвязей их точной настройки между факторами сердечно-сосудистого риска и проявлением заболеваний. В последнее время расчет число исследований и разработок в этой области.

Цель и дизайн исследования

Целью нашего исследования было повышение точности предсказания рисков развития сердечно-сосудистых заболеваний на основе Фрамингемской шкалы путем применения машинного обучения для разработки собственной математической модели.

В рамках поставленной цели последовательно были решены следующие задачи:

1. Формирование дата-сета для исследования, представленного данными по пациентам с необходимыми и достаточными признаками для расчетов риска по Фрамингемской шкале, а также достаточное количество пациентов как с наличием, так и отсутствием ССЗ за период не менее 10 лет.

2. Проведение оценки рисков развития ССЗ для данного дата-сета на основе использования классического калькулятора Фрамингемской шкалы.

3. Создание модели расчета рисков ССЗ для данного дата-сета с использованием методов машинного обучения.

4. Сравнение полученных результатов по двум способам расчетов, используя оценки точности и качества моделирования ROC-статистического анализа.

Формирование исходных данных

Концептуальная схема исследования, показывающая описанные шаги, представлена на рисунке ниже. Для проведения исследования была выбрана база данных из 2236 пациентов, имеющих и неимеющих ССЗ.

Когорта располагала полными данными по основным базовым переменным (пол, возраст, курение, систолическое артериальное давление, диастолическое артериальное давление, общий холестерин, холестерин липопротеидов высокой плотности, сахарный диабет, прием антигипертензивных препаратов и другие), используемых в обучаемой модели прогнозирования. Состав данных представлен в таблице ниже.

Базовая выборка имеет средний возраст 60.2 ± 8.29 лет, с 44 до 81 года. Число пациентов, имеющих случаи сердечно-сосудистых заболеваний, составило 523 пациента.

Исходная дата наблюдения была установлена 1 января 2005 года, что позволило всем пациентам в когорте находиться под наблюдением в течение 10 лет, дата конца периода наблюдения была определена как 1 января 2015. Лица, имеющие в анамнезе сердечно-сосудистые заболевания, наследственные нарушения липидного обмена или вне возрастного диапазона были исключены из анализа.

Модель на основе машинного обучения

В качестве методов машинного обучения использована модель искусственной нейронной сети с двумя скрытыми слоями.

Популяция исследования была разделена в наборе данных на «обучающую» выборку (75% из общей извлеченной когорты), в которой были получены алгоритмы риска ССЗ и выборку «валидация» (оставшиеся 25%), которая применялась для тестирования и оценки алгоритмов.

В качестве модели использована последовательная модель с одним входным, тремя скрытыми и одним выходным слоем. Для предотвращения переобучения используется исключение («dropout»). На каждом слое используется функция «dense» для полного соединения слоев друг с другом. В скрытых слоях используется функция активации «relu».

Концептуальная схема исследования
Описание используемых исходных данных для исследования

В качестве оптимизатора алгоритма, который изменяет веса и смещения во время обучения, используется «rmsprop». В качестве функции потерь («loss») используется бинарная кросс-энтропия, в качестве метрики оценки – точность.

Эти алгоритмы были реализованы с помощью открытой библиотеки с исходными текстами scikit-learn, Tensorflow и Keras для языка программирования Python. Гиперпараметры каждой модели определяли с помощью алгоритма поиска GridSearchCV (из той же библиотеки scikit-learn) и 10 K-Fold перекрестной валидации на обучающей когорте для определения значений, которые привели к лучшей производительности.

Результат обучения нейросети показан на рисунках ниже:

Зависимость точности модели (accuracy) от количества итераций (epoch) в сравнении для обучающей и тестовой выборок
Зависимость функции потерь (loss) от количества итераций (epoch) в сравнении для обучающей и тестовой выборок

Результаты сравнительной оценки моделей

Параметры точности моделей оценивались по методу ROC анализа, основная концепция которого сводится к задаче классификации, чтобы относить ранее неизвестные моделируемые случаи ССЗ с фактическими болезнями.

В результате классификации может наблюдаться четыре различных ситуации:

• истинно-положительный результат (true-positive, TP) – пациент больной, диагноз положительный;
• ложно-положительный результат (false-posi-tive, FP) – пациент здоров, диагноз положительный;
• истинно-отрицательный результат (true-nega-tive, TN) – пациент здоров, диагноз отрицательный;
• ложно-отрицательный результат (false-negative, FN) – пациент больной, диагноз отрицательный.

Четыре возможных выхода могут быть сформулированы и оформлены в виде матрицы сопряженности:

Confusion matrix [[TP FP]
[FN TN]]

Значение Se=TP/(TP+FN) – доля истинно положительных случаев или способность алгоритма правильно определять больных, называется чувствительностью.

Значение Spe=TN/(TN+FP) – доля истинно отрицательных случаев или способность алгоритма не принимать здоровых за больных, называется специфичностью.

Экономический эффект от этих ошибок разный: ложно-отрицательный больной придёт с запущенной болезнью, а на дообследование ложно-положительного будут потрачены ресурсы.

Значение Accuracy=(TP+TN)/(TP+FP+FN+TN) – это точность модели, которая характеризует способность модели правильно определять истинно больных и истинно здоровых пациентов.

Полученные оценки для модели на основе нейронной сети:

Confusion matrix [[493 18]

[124 36]]

Accuracy = 78,84%

Se = 0,79, Sp = 0,67

Для Фрамингемской шкалы прогнозирования риска аналогичные показатели:

Confusion matrix [[134281] [3891432]] Accuracy = 70.0%

Se = 0,25, Sp = 0,83

Как показывают сравнительные оценки анализа результатов моделей, Фрамингемская шкала способна наиболее точно определять здоровых пациентов (специфичность выше, чем у нейросети), но при этом чувствительность шкалы (Se = 0,25) низкая для определения истинно больных пациентов.

Полученная нами с помощью машинного обучения нейронная сеть показала высокую чувствительность (Se = 0,79) и повысила точность моделирования Accuracy по сравнению с базовой шкалой на +8,84%.

На рисунке ниже представлены Roc-кривые зависимости показателя чувствительности модели от ее специфичности, и площадь AUC под ROC-кривой показывает качество модели. Чем выше показатель AUC, тем выше качество модели.

Полученные показатели AUC:

– для Фрамингемской шкалы: 0,59 (неудовлетворительное качество модели);
– для нейросети: 0,84 (приемлемое качество модели).

Roc-кривые для результатов моделирования, полученных для Фрамингемской шкалы и модели на основе машинного обучения (нейросеть)

Как показывают результаты оценки точности и качества, модель на основе нейронной сети улучшает результат моделирования по сравнению с Фрамингемской шкалой.

Таким образом, наиболее эффективным и точным способом расчета риска ССЗ является математическая модель на основе нейронной сети с использованием данных для обучения, собранных в популяции, на которой она будет использована.

Выводы

1. Расчет суммарного сердечно-сосудистого риска является основой первичной профилактики атеросклероза. Используемые шкалы расчета ССР обладают рядом ограничений, которые сказываются на точности прогноза.

2. Использование алгоритмов машинного обучения, включая алгоритмы глубокого обучения, может значительно повысить точность обученных моделей прогнозирования сердечно-сосудистых рисков. Особенностью является использование датасетов для обучения математической модели на основе данных локальной популяции, что в конечном счете тоже способствует увеличению точности прогнозирования.

3. Встраивание подобных моделей в СППВР позволяет более быстро и точно получить результат расчета сердечно-сосудистого риска.

4. Выявление пациентов из группы высокого риска в молодом возрасте позволит оптимизировать профиль ФР в среднем возрасте и предупредить или отсрочить развитие ССЗ. Современная стратегия профилактики ССЗ основана на определении суммарного, или общего, риска развития ССЗ и их осложнений. Вместе с тем очевидна необходимость развития данного направления, продолжения исследований по изучению механизмов реализации риска и внедрения новых технологий, разрабатываемых на основе новых знаний и технологий, в профилактическую медицину.

5. Подходы машинного обучения открывают перспективу достижения улучшенной и более индивидуализированной оценки риска ССЗ. Это может помочь движению к персонализированной медицине, лучшей адаптации управления рисками к отдельным пациентам.

Постоянное увеличение объёма информации в кардиологии делает актуальным разработку новых методов анализа данных. Используя существующие подходы оценки риска, невозможно спрогнозировать около половины эпизодов острого коронарного синдрома. Машинное обучение больших данных может привести к улучшению результатов диагностики и лечения при более низких затратах. Индуктивный подход позволяет выявлять закономерности, возникающие в результате анализа данных и разрабатывать алгоритмы, способные учиться самостоятельно. Несмотря на то, что модели оценки сердечно-сосудистого риска, полученные на основе методов машинного обучения превосходят традиционные калькуляторы риска, до настоящего времени не было проведено ни одного крупномасштабного исследования с применением машинного обучения для доказательства прогностической роли в общей популяции с использованием рутинных клинических данных. Кроме того, нет чётких рекомендаций, какой из алгоритмов будет работать лучше в той или иной ситуации. Использование эмпирического подхода при выборе метода машинного обучения и принцип «чёрного ящика» затрудняют проведение крупных исследований и внедрение методов машинного обучения в клиническую практику. Данный обзор литературы знакомит исследователей с новыми направлениями, перспективами и трудностями при использовании методов машинного обучения для прогнозирования сердечно-сосудистого риска.

В связи со старением населения, растущей урбанизацией, глобализацией, сердечно-сосудистые заболевания (ССЗ) остаются ведущей причиной инвалидности и преждевременной смерти во всем мире. Исследования в области сердечно-сосудистой медицины привели к терапевтическим достижениям и снижению темпов роста сердечно-сосудистой смертности за последние 50 лет. Несмотря на усилия по совершенствованию профилактики, диагностики и лечения, уровень смертности и заболеваемости ССЗ растет из года в год. Исследования показали, что приблизительно 80% смертей, связанных с ССЗ, случаются в странах с низким и средним уровнем дохода, и ожидается, что к 2030 году их число возрастет до 23,3 миллионов.

В последнее время в кардиологии наблюдается некоторая стагнация в развитии новых методов лечения. Считается, что традиционная парадигма, основанная на крупномасштабных исследованиях конкретных патологий недостаточна для снижения бремени ССЗ. Актуальна разработка новых форм сердечно-сосудистых исследований, способных экономически эффективно анализировать большие объемы информации. При этом, большие данные могут предложить альтернативу традиционному дедуктивному подходу. «Эра больших данных» в здравоохранении только начинается. Распространение электронной истории болезни, повышение доступности цифровых медицинских данных из таких источников, как приложения, биосенсоры и различные коммуникационные технологии способствовали увеличению доступности больших данных. Эти постоянно растущие массивы данных позволяют применять аналитические методы, такие как машинное обучение (machine learning (ML)), для выполнения сложных итерационных операций и разработки алгоритмов прогнозирования. Использование инструментов анализа больших данных в кардиологии может привести к улучшению результатов лечения при более низких затратах. В настоящее время количество наряду с качеством данных определяют точность полученного результата. Следовательно, анализируемые данные указывают исследователям на наиболее перспективное направление. Помогают в решении поставленных задач хранилища оперативных данных, облачные сервисы, которые периодически извлекают, реорганизуют данные для оперативного запроса и обеспечивают мгновенный доступ к информации. По мере того, как сбор информации становится проще и дешевле, можно ожидать увеличения количества исследований, основанных на объединении данных. Однако, данные часто собираются после выписки больного из стационара частично или полностью вручную из медицинской карты, что является ограничением для их сбора в рамках регистра. Швеция и Великобритания одними из первых стали собирать данные по больным с острым коронарным синдромом (ОКС) в национальном масштабе. В ряде стран электронные медицинские записи в организациях здравоохранения хранятся на центральных серверах, что позволяет осуществлять разработку новых алгоритмов за пределами учреждения здравоохранения с использованием программного обеспечения для облачных вычислений. Такие подходы имеют индуктивные элементы. При этом, генерация гипотез не перекладывается на машины, а закономерности, возникающие в результате анализа данных, принимаются в качестве полезных подсказок. Дальнейший шаг – принятие клинических решений, при котором алгоритмы будут иметь возможность учиться самостоятельно.

Основой сердечно-сосудистой эпидемиологии является прогнозирование риска негативных событий на относительно длительные периоды времени (5-10 лет). Тема прогноза имеет важное значение в кардиологии, закладывая основу для принятия клинических решений. Точная стратификация риска для пациента с ОКС остаётся сложной задачей, играющей важную роль в доказательной медицине. Эпидемиологические исследования, организуемые для получения таких прогностических моделей, часто содержат сотни или тысячи переменных. Поэтому, методы ML эффективны в качестве средства выявления наилучших предикторов из большого количества точек фенотипических данных. Коронарная болезнь сердца – многофакторное заболевание, требующее персонализированного подхода к лечению, что усложняет проведение эффективных лечебных и профилактических мероприятий. С помощью ML можно охватить сложность, присущую механизмам заболевания и выявить наиболее подходящие фенотипы для эффективного патогенетического лечения. Считается, что даже высокоэффективные методы лечения имеют неоднородный эффект на индивидуальном уровне. Исходя из этого, большие данные могут быть основой персонализированной медицины, когда алгоритмы ML предсказывают индивидуальный риск для пациента и более точно определяют точки приложения конкретных методов лечения. Многомерные данные, извлеченные такими технологиями, в сочетании с потенциалом для двухстороннего взаимодействия в реальном времени между пациентами и врачами, обещают более детальную и динамичную индивидуализированную помощь.

МL является новым разделом в области инновационной медицины, который все чаще используется в клинических исследованиях с целью улучшения прогностического моделирования и выяснения новых предикторов негативного исхода. Стимулирующим фактором для использования ML в кардиологии явилось появление беспрецедентно большого числа клинически значимых признаков и высокоспецифичных диагностических тестов. Однако, несмотря на очевидные перспективы, использование ML в обработке больших данных вызывает много вопросов. На сегодняшний день не было проведено ни одного крупномасштабного исследования с применением ML для доказательства прогностической роли в общей популяции с использованием рутинных клинических данных. В последние годы появилось много данных, но не больше доказательств возможности клинического применения ML. Без таких доказательств потенциал больших данных и машинного обучения в сердечно-сосудистой медицине не может быть реализован.

Концепция больших данных была впервые выдвинута в 1997 году. Под этим термином понимают наборы данных, которые являются слишком большими или сложными для традиционной статистики. Не существует согласованного определения и признанного порога больших данных. По мнению некоторых авторов, для определения размера больших данных предложен log (n×p) превосходящий или равный 7 (например, 100000 больных, имеющих 100 признаков). Помимо размера, проблема больших данных заключается в их сложности, основанной на гетерогенности, многомерности и том факте, что они являются динамическими (все предыдущие отдельные измерения динамически связаны). Наиболее популярное описание больших данных было предложено D. Laney в 2001 году и известно в академическом мире как “3Vs”: volume, variety, velocity (объем, разнообразие, скорость). Искусственный интеллект (ИИ) определяется как теория и разработка компьютерных программ и систем, способных выполнять сложные задачи, требующие человеческого уровня интеллекта. ML – это подмножество искусственного интеллекта, которое использует алгоритмы, автономно получающие знания путем извлечения шаблонов из данных. МL относится к семейству алгоритмов, имеющих общую способность итеративно выяснять закономерности (обучаться), с целью оптимизации задач прогнозирования или классификации. МL это союз между математикой и информатикой, который обусловлен уникальными вычислительными задачами построения статистических моделей из больших наборов данных. Кроме того, ML – это программное решение на основании больших данных с возможностью делать прогнозы без предварительного программирования. Искусственная нейронная сеть (НС) имитируют структуру нервной системы человека и являясь непараметрической методикой с хорошо известной способностью к обобщению. НС может предсказывать отдалённые исходы с заранее выбранными уровнями чувствительности и специфичности. Глубокое обучение – это тип машинного обучения, который включает в себя нейронные сети, предназначенные для моделирования высокоуровневых абстракций из множественных слоев обработки данных с часто чередующимися линейными и нелинейными преобразованиями.

Существует множество моделей, оценивающих риск ближайших и отдалённых осложнений при ОКС. Многие из них получены на основании небольших когортных исследований и не используются на практике, потому что врачи считают их неудобными и трудоемкими. Традиционные статистические подходы, такие как логистическая регрессия или модель рисков Кокса позволяют делать выводы об ассоциациях между ограниченным числом линейно связанных переменных без полной характеристики системы. Появление новых данных в традиционных алгоритмах вызывает необходимость в их пересчете. При таком подходе устанавливаются многочисленные критерии исключения, вводятся заранее определенные переменные, с предполагаемой связью с исходом. Как правило не учитывается потенциальная прогностическая ценность взаимодействия между несколькими факторами риска и первичным результатом. Кроме того, традиционные модели построены на статических особенностях пациента и пренебрегают влиянием динамической информации о лечении. Вследствие таких ограничений существующие алгоритмы обычно демонстрируют скромную прогностическую эффективность. Сердечно-сосудистых риск в настоящее время прогнозируют статистическими моделями, полученными на основании исследований 25-30-ти летней давности. Учитывая, что риск больных ОКС в данных исследованиях был выше, чем в настоящее время и, принимая во внимание возможное изменение роли отдельных факторов риска, диагностическая точность ранних статистических моделей снижается. Это особенно важно в связи с тем, что в последнее время произошли значительные изменения в эпидемиологии инфаркта миокарда (ИМ), характеризующиеся сдвигом в структуре заболеваемости, улучшением краткосрочных методов ведения и вторичной профилактики, снижением ранней смертности, переходом от инцидентов к рецидивам и от догоспитальной смертности к госпитализированным ИМ, а также увеличением бремени заболеваемости и смертности от некардиальных причин. Используя существующие подходы оценки риска, невозможно спрогнозировать около половины эпизодов ОКС. Кроме того, традиционные оценки риска улучшили определение начальной терапевтической стратегии при ОКС, однако они не предназначены для учета последствий стационарной терапии или оценки риска более мягких исходов. Такой подход оказался менее точен в оценке риска отдельных пациентов. В тоже время, ряд больных получают ненужное профилактическое лечение на основании таких прогнозов. Указанные обстоятельства побуждают исследователей искать новые подходы к моделированию и предсказанию риска.

Недостатком когортных исследований является чрезмерное упрощение модели для удобства использования в клинической практике. Поэтому, некоторые взаимосвязи не оцениваются, что потенциально приводит к менее удовлетворительным прогнозным характеристикам. В целом, использование традиционных статистических методов может быть затруднительным или нецелесообразным с учетом сложного характера больших данных. Кроме того, включение основных (традиционных), но нелинейно связанных факторов риска в такие модели снижает их прогностическое значение. По этой причине всё чаще применяются новые статистические методы, такие как ML. Если традиционная статистика оценивает и объясняет данные, то ML нацелено на достижение практического прогнозирования, на основе имеющихся данных. Алгоритмы ML, благодаря свойству обучаться, адаптируются к различным изменениям, каждый раз применяя новые данные для поиска решения поставленной задачи. С помощью методов ML можно идентифицировать больных после ОКС как с повышенным риском клинических событий, так и с высокой нагрузкой неконтролируемых факторов риска. Модели с ML, использующие большие данные, обеспечивают долгосрочные прогнозы с точностью, сопоставимой или превосходящей хорошо проверенные оценки сердечно-сосудистого риска.

Сравнение прогностической точности оценки сердечно-сосудистого риска традиционными моделями и ML

 

Автор, страна

Количество больных, источник данных: иссле-дование, база данных, EHR 

Методы ML, модель оценки риска

Факторы негативного исхода, длительность наблюдения, AUC метода
Motwani М., США10300 CONFIRMLogitBoost, LRсмертность 5 лет LogitBoost=0,79 LR=0,64
 

Kakadiaris I.A., США

 

6459

MESA и FLEMENGHO

 

SVM

MACE 13 лет SVM=0,94, калькулятор риска

ACC/AHA= 0,72.

 

Pieszko K., Польша

 

5053 EHR

 

XGBoost, GRACE 2 (LR)

смертность 1 год XGBoost=0,72, калькулятор GRACE =0,71
 

VanHouten J.P., США

 

20078 EHR

 

RF, нейросеть, RR, TIMI, GRACE (LR)

смертность 30 дней RF=0,85, Нейросеть=0,82 RR=0,81, TIMI=0,74 GRACE=0,62.
 

Wallert J., Швеция

 

51943 SWEDEHEART/RIKS-HIA

LR, Boosted C5.0 (ансамбль решений), RF, SVMсмертность 2 года LR=0,83, Boosted=0,81 RF=0,842, SVM=0,845
 

Weng S.F., Великобритания

 

383592 CPRD

LR, RF,

XGBoost, нейросеть

развитие ССЗ 10 лет LR=0,760, RF=0,745, XGBoost=0,761, нейросеть=0,764
 

Ahmad T., Швеция

 

44 886 SwedeHF

k-NN, модель СН в Сиэтле,

MAGGIC

СН после ОКС 1 год k-NN=0,83 модель СН в

Сиэтле=0,73 MAGGIC=0,74

 

Al’Aref S.J., США

 

479 804, PCIRS

 

AdaBoost, XGBoost, RF, LR.

Внутрибольнич смертность AdaBoost=0,923, XGBoost=0,906, RF=0,892 LR= 0,908
 

Ambale-Venkatesh B., США

 

6814 MESA

 

RF, регрессия Кокса

MACE 12 лет RF=0,86, регрессия Кокса=0,8
 

Blom M.C., Швеция

 

120940 Шведский регистр ОКС,

EHR

 

LR, SVM, кNN, AdaBoost, RF, MLP.

Смертность 30 дней LR=0,94, SVM=0,94,

k-NN=0,92, AdaBoost=0,5, RF=0,93, MLP=0,87

 

Duan H., Китай

 

2930 EHR

LR, Boosted-RMTM,

mix model, CNN

MACE во время госпитализации LR=0,64, Boosted=0,7,

mix model=0,68, CNN=0,713

Kwon J.M., Южная Корея 

25977 KorMI

 

DL, RF, LR

 

Смертность 6 месяцев DL=0,87, RF=0,85, LR=0,84

Примечание: EHR – электронная медицинская карта; большие сердечно-сосудистые события (MACE); площадь под ROC-кривой (AUC); GRACE, TIMI – модели на основе регистров ОКС; сердечная недоста-точность (СН); LogitBoost – ансамблевый метод: сочетание логистической регрессии (LR) и boosting; экстремальный градиентный boosting (XGBoost); random forest (RF); свёрточная нейронная сеть (CNN); многослойный перцептрон (MLP); глубокое обучение (DL); градиентный бустинг (Boosted-RMTM), смешанная модель (mix model); гребневая регрессия (RR).

Кардиология является одной из областей медицины с наибольшей перспективой применения машинного обучения для извлечения закономерностей из больших данных. В последнее время в кардиологии всё чаще используются методы ML для прогнозирования выживаемости пациентов и для оценки эффективности различных лечебных стратегий. Не существует универсального алгоритма для решения конкретной задачи. Наиболее популярные алгоритмы, используемые в машинном обучении: линейная и логистическая регрессия, линейный дискриминантный анализ, деревья принятия решений, наивный Байесовский классификатор, к-ближайших соседей (k-nearest neighbors algorithm, k-NN), метод опорных векторов (support vector machine, SVM), бэггинг (вootstrap aggregating) и random forest, boosting и аdaptive вoosting (AdaBoost), нейросети. Существуют и сочетанные алгоритмы, использующие сильные стороны каждого: например, логистическая регрессия и нейросетевой анализ. В некоторых исследованиях выявляются более высокие показатели точности методов ML.

Как видно из представленной таблицы, методы ML имеют преимущества над традиционными статистическими методами и моделями. В отдельных исследованиях, сравнивающих методы машинного обучения больших данных с традиционными статистическими методами, не показано значимого преимущества при оценке прогноза.

Основные виды машинного обучения: классическое (контролируемое и неконтролируемое), обучение с подкреплением, ансамблевые методы и нейросети. Контролируемое обучение осуществляется на основе помеченных данных и обычно используется для оценки риска. Типичными задачами, решаемыми при обучении под наблюдением (контролем), являются классификация и регрессия. Лучший пример контролируемого обучения в кардиологии – Framingham Risk Score при ишемической болезни сердца. Неконтролируемое обучение выводит структурные отношения и зависимости из данных без каких-либо предварительных знаний или ограничений. В данную группу входят кластеризация, поиск правил и уменьшение размерности (обобщение). Эти модели используются главным образом для получения новых сведений о структуре данных, что позволяет развивать прецизионное фенотипирование и дифференцированный подход к лечению различных подтипов сердечно-сосудистых заболеваний. В обучении с подкреплением модель учится принимать решения, получая вознаграждение за свои действия. В настоящее время существует большое разнообразие алгоритмов машинного обучения и моделей данных. При этом нет чётких рекомендаций, какой из алгоритмов будет работать лучше в той или иной ситуации. Эмпирический подход состоит в том, чтобы попробовать несколько алгоритмов, что может занять много времени. Специалисты по машинному обучению имеют набор инструментов для извлечения функций и предварительной обработки, а также подмножество контролируемых и неконтролируемых алгоритмов обучения, которые они привыкли использовать. Нейросетевые модели считаются «черными ящиками» и, как правило, дают мало информации о том, что и как они изучают. CNN представляют собой эволюцию традиционных нейронных сетей и в настоящее время являются самыми популярными моделями. CNN сильно не зависят от местоположения и масштаба объекта и требуют меньше вычислительной мощности. Модель, которая хорошо обучена на одной большой исходной задаче, может быть использована для быстрого успеха для решения другой. Рекуррентные нейронные сети (RNN) могут быть использованы для изучения и прогнозирования последовательных данных, таких как электрокардиограмма, непрерывные измерения артериального давления и кривые перфузии. Вместо типичных сетей прямой передачи они не обрабатывают данные на определенном временном интервале, а отслеживают предшествующие данные и изменения данных с течением времени.

Несмотря на оптимизм, нужно осознавать недостатки и потенциальные угрозы, которые присущи таким мощным инструментам, как искусственный интеллект. Существенным фактором, затрудняющим внедрение машинного обучения в медицине, является потребность в больших данных, которые не всегда доступны. До настоящего времени подавляющее большинство медицинских карт предназначены не для исследований, а для отчётов страховым компаниям. Кроме того, при глобализации регистров нужно учесть существующие различия в рекомендациях. Качество моделей прогнозирования зависит от набора данных. При низком качестве исходных данных существует возможность распространения дезинформации, что может привести к неверной интерпретации данных и ненужном вмешательстве. Принцип «чёрного ящика» может привести к неточности прогноза, величина которого будет увеличиваться при дальнейшем смещении данных. Кроме того, отсутствуют доказательства возможности интеграции полученных данных в клиническую практику. Эти непредвиденные последствия являются общими для любой новой технологии и должны быть тщательно рассмотрены перед внедрением моделей в больших масштабах. Нужны большие сравнительные исследования, которые позволят доказать преимущества технологии ML. Существуют различные проблемы, тормозящие процесс внед