Применение методов машинного обучения к расчету рентабельности собственного капитала банка по кредитному договору

Требования к более точной оценке индивидуального риска заемщика усложнились с введением Базель II и IFRS 9. Все более часто такую оценку риска производят с помощью построения скоринговых моделей, однако, как правило, критерием качества построенных моделей выступает коэффициент Gini, и совсем не исследуется влияние моделирования на финансовую составляющую, а именно на рентабельность капитала, которая выступает базой для ведения бизнеса в области кредитования. В связи с этим в статье предлагается методика оценки рентабельности капитала без учета риска и ее усложнение за счет принятия ко вниманию индивидуального риска заемщика. Само построение динамической модели оценки кредитного риска в статье рассматривается на основании моделей выживания, построенных методами машинного обучения. Проблема учета цензурированных данных решается с помощью специфического построения переменных для модели и методов, которые учитывают цензурирование: логистической регрессии, модели пропорциональных рисков Кокса, модели случайного леса выживаемости. На примере данных регионального коммерческого банка оценивается рентабельность собственного капитала и производится их сравнение в зависимости от выбора модели оценки риска. В результате исследования делается вывод о необходимости применения методики расчета рентабельности собственного капитала с учетом риска, оцененным методом машинного обучения.

Оценка индивидуального риска заемщика, основанная на применении скоринговой карты, на практике дает возможность ранжировать кредитные заявки по риску конечных потерь, однако не учитывает финансовые показатели кредитного договора, такие как сумма кредита, ставка кредитования, длительность кредита. Поскольку для высокорискованных кредитов, как правило, банки предлагают более высокие ставки кредитования, для банка может быть выгодно выдача более рискованных и одновременно более доходных кредитов. При этом эффективность кредитного договора определяется маржой банка, вычисляемой как предполагаемый процентный доход банка по кредиту в год за минусом трансфертных платежей и рискмаржи, рассчитанной из конечных потерь на годовой период. Однако такой подход не учитывает эффективность использования собственного капитала и поэтому требует использования других финансовых показателей.

В этом случае важным показателем эффективности инвестиционных вложений банка является рентабельность собственного капитала (ROE), показывающая размер годовой прибыли, полученной на единицу собственного капитала банка. Существует несколько алгоритмов расчета этого показателя, но наиболее точным является метод, основанный на построении потока возвращаемых сумм, включающих в себя потоки прибыли после выплаты налогов и стоимости привлеченного капитала. При этом при расчете возвращаемых сумм используются внешние для кредитного договора финансовые показатели такие, как структура капитала банка, ставка налога на прибыль и трансфертная цена привлеченного капитала, включающая в себя расходы по привлечению капитала. Одной из проблем применения такого метода является использование довольно продвинутых численных методов для вычисления показателя ROE, что в принципе преодолимо существующими информационными и вычислительными ресурсами.

Другой проблемой, которая возникает при расчете ROE на основе потока возвращаемых сумм, является учет риска потерь по кредитному договору. Поскольку практически невозможно построить неслучайный поток возвращаемых сумм для дефолтных кредитных договоров, одним из возможных подходов к решению этой проблемы является рассмотрение дефолта как страхуемого кредитного события. В этом случае на каждый кредитный договор рассчитывается ожидаемая величина возможных конечных потерь, на сумму которой производится резервирование собственного капитала. За счет этих средств в момент дефолта производится возмещение потерь собственного и привлеченного капиталов. При таком алгоритме расчета является важным достаточно точная индивидуальная оценка вероятности дефолта по кредитному договору в фиксированный момент времени. Поэтому интересным на сегодняшний день является исследование влияния различных методов расчета временной функции вероятности дефолта на оценку рентабельности собственного капитала по индивидуальному договору кредитования.

На текущий момент одной из приоритетных задач в банковском секторе является управление кредитным риском, для оценки которого все чаще применяются скоринговые модели, позволяющие индивидуально оценить риск заемщика на основе имеющейся информации. При этом в соответствии с развитием банковского сектора и наличием законодательной основы в виде рекомендаций Базель II и IFRS 9 становится интересным вопрос оценки кредита не только на первый год жизни кредита, а на весь срок его жизни, учитывая факт того, что с течением жизни кредита происходит изменение индивидуальной вероятности выхода в дефолт. Однако зачастую для моделирования значения PD используются только те кредиты, которые прожили год и более от даты оценки риска. В этом случае кредиты, которые были закрыты (вне зависимости от причины закрытия: наступление срока погашения по договору, досрочное погашение, реструктуризация при одновременной выдаче нового кредита и др.) в течение рассматриваемого года не учитываются при моделировании либо считаются не дефолтными. Таким образом, часть полезной информации, способной дать положительный эффект на качество модели, теряется или используется в ненадлежащем виде. Для того чтобы получить наиболее корректную оценку индивидуального кредитного риска на весь срок его жизни, необходимо использовать в том числе «неполные» данные, которые называются цензурированными. В случае с кредитным скорингом имеет место цензурирование справа: на конец периода наблюдения известен факт возникновения дефолта каждого клиента, однако произойдет ли дефолт за пределами исследования неизвестно. Методика построения моделей методами машинного обучения с учетом цензурированных данных была исследована ранее, где выбор модели производился на основе ROC-кривой и значения коэффициента Gini. Однако, помимо оценки качества модели как таковой, отдельный интерес представляет влияние способа моделирования на рентабельность капитала, особенно при усложнении модели и учете цензурированных данных, что и послужило целью настоящего исследования.

Определим денежный поток по отдельному договору кредитования. Пусть – сумма выдачи по кредиту, величина основного долга в момент выдачи (руб.), – длительность кредита (месяцев), — ставка по договору (% годовых). Обозначим через ( ) поток возвращаемых сумм основного долга в месяц t (руб.), = 0,1,…, . Тогда ( ) — величина основного долга в конце месяца t (руб.), = 0,1,…, рассчитывается по формулам: (0) = − (0), ( ) = ( − 1) − ( ), = 1,…, . Соответственно, поток договорных процентов на основной долг ( ) (руб.), = 1,…, вычисляется как ( ) = ⋅ ( − 1). В итоге ( ) — поток возвращаемых сумм по кредиту (руб.), = 0,1,…, , определяется следующим образом:

С(0) = (0), С( ) = С ( ) + ( ), = 1,…, .

Для расчета рентабельности собственного капитала без учета риска построим денежные потоки возврата собственного капитала и чистой прибыли по следующему алгоритму.

В начале рассматриваемого кредитного договора первичная сумма долга (0) считается инвестиционным капиталом, из которого собственный капитал банка составляет ⋅ (0), а привлеченное фондирование – (1 − ) ⋅ (0), где – доля собственного капитала в структуре капитала банка. В каждый месяц из возвращаемой суммы ( ) основного долга по кредитному договору выделяется сумма на возврат собственного капитала пропорционально доли. Таким образом, строится поток возврата собственного капитала ( ) = ⋅ ( ). Поскольку оставшаяся сумма идет в погашение привлеченного капитала, долг по привлеченному капиталу к концу месяца составит (1 − ) ⋅ ( ).

Для расчета потока чистой прибыли строится поток трансфертных процентов, определяемый по формуле ( ) = ⋅ (1 − ) ⋅ ( − 1), где – трансфертная ставка (% годовых). Чистая прибыль из получаемых процентов определяется как получаемые проценты по договору за минусом трансфертных процентов и налога на прибыль: ( ) = (1 − ) ⋅ ( ) − ( ) , где — ставка налога на прибыль (% годовых).

Для расчета рентабельности капитала строится денежный поток (0), (1), (2),…, ( ) по следующему правилу: (0) = − ⋅ (0) , ( ) = ( ) + ( ) , = 1,…, . Расчетная величина рентабельности собственного капитала находится как внутренняя ставка доходности денежного потока (0), (1), (2),…, ( ), умноженная на 12, и является решением уравнения:

 

Для расчета рентабельности собственного капитала с учетом риска ключевым параметром выступает оценка функции вероятности дефолта. В отличие от классического подхода под дефолтом будем понимать выход в просрочку более 15 дней по кредитному договору. Тогда основные функции, необходимые для оценки показателя ROE, будут следующие: ( ) – вероятность первого выхода в дефолт на t-том месяце жизни договора, ( ) – вероятность невыхода в дефолт в течение t месяцев.

На каждый месяц ( = 1,…, ) определяется ( ) – размер условной страховой выплаты в момент, погашающей долг по собственному капиталу и привлеченному капиталу с начисленными трансфертными процентами: ( ) = ( − 1) ⋅ 1 + (1 − ) ∙ . С учетом вычисленных вероятностей рассчитывается средняя величина Y выплат по рисковому событию дефолта, дисконтированных на момент выдачи кредита:

= (1) ⋅ (1) ⋅ + (2) ⋅ (2) ⋅ + ⋯+ ( ) ⋅ ( ) ⋅ ,#(2)

где = ( ) ⁄ – дисконтирующий множитель, – трансфертная ставка (в годовых). Соответственно, резервируемая на момент выдачи сумма ожидаемых потерь по кредитному договору равна = ⋅ , где – коэффициент уровня потерь при дефолте.

Для расчета рентабельности собственного капитала с учетом риска строится усредненный де-нежный поток (0), (1), (2),…, ( ) по следующему правилу: (0) = (0) − , ( ) = ( ) ⋅ ( ) + ( ) ⋅ ⋅ ( − 1), = 1,…, . Расчетная величина рентабельности капитала с учетом риска находится как внутренняя ставка доходности денежного потока (0), (1), (2),…, ( ), умноженная на 12, и является решением уравнения:

( ) ∙ 1 + 12 = 0.#(3)

Как видно из выписанного, применение построенной методики расчета рентабельности капитала с учетом риска требует адекватной оценки кредитного риска, рассчитанной индивидуально по каждому заемщику. Как показывает практика, существует несколько методов, позволяющих оценить риск с учетом цензурированных данных. В рамках настоящего исследования рассмотрим логистическую модель, модель Кокса и случайный лес выживаемости.

Логистическая регрессия

Для логистической регрессии формула расчета скорингового балла основывается на вычислении логарифмов отношения шансов дефолтного и не дефолтного кредитов. На основе найденного с помощью логистической регрессии значения PD для применения формулы расчета рентабельности капитала с учетом риска к оценке кредитного риска важной является оценка вероятностей дефолта ( ) на каждый момент времени t. Согласно исследованию, статистические данные о выходах в дефолт (просрочку более 15 дней) показывают, что распределение случайной величины месяца выхода в дефолт адекватно моделируется геометрическим распределением. Тогда следующие величины определяются так: = – вероятность выхода в 15+ в течение года, = (1 − ) ⁄ – вероятность невыхода в 15+ в течение месяца, ( ) = (1 − ) ⋅ – вероятность выхода в 15+ на t-том месяце жизни договора, ( ) = – вероятность невыхода в 15+ в течение t месяцев.

Модель пропорциональных рисков Кокса

Модель пропорциональных рисков Кокса является моделью анализа выживаемости, для которого функция выживания однозначно определяется функцией риска ℎ( | ), в рассматриваемом случае кредитного скоринга понимаемая как условная вероятность того, что событие дефолта произойдет в бесконечно малом интервале , + , при условии того, что на момент t событие дефолта не произошло. Тогда взаимосвязь между вероятностью выживания ( ) и уровнем риска ℎ(t | ) записывается следующим образом: (0) = 1 – вероятность того, что до момента = 0 дефолта не случилось, (1) = 1 − ℎ(1) – вероятность того, что до момента = 1 дефолта не случилось, … ( ) = ( − 1) 1 − ℎ( ) = 1 − ℎ(1) ∙ …∙ 1 − ℎ( ) – вероятность того, что до момента дефолта не случилось, или ( ) – вероятность невыхода в 15+ в течение t месяцев. Тогда ( ) = 1 − ℎ(1) ∙ …∙ 1 − ℎ( − 1) ∙ ℎ( ) – вероятность того, что дефолт в 15+ случится на t-том месяце жизни договора.

Случайный лес выживаемости

Одним из методов реализации анализа выживаемости является случайный лес выживаемости, который показывает вероятность наступления события, а также вероятностные характеристики времени до его наступления. Случайный лес выживаемости представляет собой ансамбль деревьев решений, как и случайный лес, однако для расщепления промежуточных узлов дерева применяется логранговый критерий. Среднее значение функции риска по всем деревьям является усредненным ответом по всему ансамблю деревьев. Тогда: ( ) = ( | ) – вероятность выхода в 15+ на t-том месяце жизни договора, ( ) = ( ) ∙ 1 − ( ) – вероятность невыхода в 15+ в течение t месяцев, где ( | ) – ответ каждого отдельного дерева при заданных параметрах и , а – число деревьев.

На основе описанных методов расчета оценки риска применим методику расчета рентабельности собственного капитала на базе регионального розничного банка, для этого предварительно построим модели оценки PD. В качестве исходных данных для построения служат данные по кредитному портфелю по состоянию на последнее число месяца за период с 2012-01-01 по 31-10-2016 с учетом факта дожития кредита до каждого исследуемого среза. Построение модели производится на наиболее свежем срезе портфеля: состояние портфеля на срез 31-10-2016 и его последующей фактической оценкой по состоянию на 31-10-2017, то есть целевой функцией служила оценка выхода в дефолт 15+ в течение последующих 12 месяцев от даты среза. Для каждой даты среза был сформирован портфель действующих кредитов: открытых кредитов по состоянию на дату среза и с текущей оценкой бинарного признака дефолта по кредиту. Для указанной выборки на основе кредитной истории были рассчитаны переменные, а также произведено разделение выборки на обучающую и валидирующую. Качество построенных моделей оценивалось с помощью расчета площади под ROC-кривой и коэффициента Gini.

Графики ROC-кривых для построенных моделей следующие:

Графики ROC-кривых для моделей логистической регрессии, модели Кокса, случайного леса выживаемости

Соответствующие значения коэффициента Gini для обучающей выборки, валидирующей выборки и тестовой выборки представлены в таблице ниже:

Gini на обучающей выборкеGini на валидирующей выборкеGini на тестовой выборке
Логистическая регрессия0.68320.68830.6949
Модель Кокса0.46870.43990.4479
Случайный лес выживаемости0.75440.75380.7570

Значения коэффициента Gini для моделей логистической регрессии, Кокса и случайного леса выживаемости

Графики зависимости ROE от оценки риска, рассчитанной моделью логистической регрессии, моделью Кокса, моделью случайного леса выживаемости

По графикам ROC-кривых и значениям коэффициентов Gini можно сделать вывод, что наиболее точной и в то же время стабильной является модель случайного леса выживаемости. При это модель Кокса дает наихудшую оценку, что связано с тем, что основным предположением модели Кокса является пропорциональность в изменении риска с течением времени, что оказалось не верным в случае оценки кредитного риска. Однако интерес представляет не только оценка качества самой модели, но и расчет рентабельности капитала с учетом риска.

Для каждого отдельного кредита определим его индивидуальную рентабельность с учетом риска, расчеты произведем на наиболее свежем срезе портфеля: открытые кредиты на 31-10-2018. Всего в выборку попало N=39260 кредитов, которые были выданы с 01-01-2012 по 31-10-2018. По каждому договору кредитования имеются описанные ранее входные параметры модели, а также индивидуальные данные заемщика. В соответствие с целевой функцией сравним полученные оценки показателя в зависимости от вероятности того, что произойдет выход в дефолт 15+ в течение следующего года, которая была оценена логистической моделью, моделью Кокса и моделью случайного леса выживаемости.

Графики зависимости ROE от оценки риска, рассчитанной моделью логистической регрессии, моделью Кокса, моделью случайного леса выживаемости

Наблюдается явная зависимость: при увеличении риска по кредиту увеличивается рентабельность собственного капитала. При оценке моделями Кокса и случайного леса выживаемости для высокорискованных кредитов ROE увеличивается вплоть до значений близких к единице, что действительно возможно за счет более высоких процентных ставок по кредиту, однако неверно с точки зрения оценки риска, так как данные кредиты, вероятнее всего, станут дефолтными или вовсе невозвратными. При этом по модели случайного леса выживаемости для высокорискованных кредитов рентабельность собственного капитала также растет, но менее быстрыми темпами и при этом положительна, что более объективно оценивает инвестиционную эффективность кредитного договора.

Таким образом, данный подход позволяет наглядно оценить размер рентабельности собственного капитала в зависимости от модели оценки риска, а в дополнении к критерию качества Gini обосновывает необходимость использования более сложных моделей машинного обучения для оценки кредитного риска и является дополнительным инструментом для выбора окончательной модели. Дальнейший интерес данного исследования заключается в оценке кредитных договоров с досрочным погашением и их влиянием на общую рентабельность капитала.

Андрей Никитенко
Андрей Никитенко
Задать вопрос эксперту
Понравилась статья? Поделить с друзьями: