Обзор методов и моделей кредитного и поведенческого скоринга

В представленной статье рассмотрены основные методы кредитного скоринга. Кредитный скоринг подразумевает применение алгоритмов, полученных с использованием математических и статистических методов, для деления потенциальных кредитных операций на непересекающиеся группы риска. В статье описаны преимущества и ограничения различных моделей и алгоритмов, используемых в кредитном скоринге, а также перспективы дальнейшего развития данного способа оценки кредитных рисков.

Кредитные отношения являются неотъемлемой частью современной экономики. Благодаря кредитованию большее число домашних хозяйств имеет возможность поддерживать удовлетворяющий их уровень потребления, улучшать бытовые условия, а в случае предприятий возникают дополнительные возможности для инвестирования.

В зависимости от целей и задач кредитных учреждений механизм формирования ставок по кредиту и степень влияния на них отдельных факторов различны. Чтобы не устанавливать ставки слишком высокими, поддерживая конкурентоспособность и привлекательность для потенциальных клиентов, банки проводят оценку рисков и разрабатывают программу по их минимизации.

Четыре категории по оценке кредитных рисков:

Одним из основных рисков является невозврат заемщиком суммы кредита в полном объеме или в указанный срок, т.е. нарушение обязательств. Оценка кредитных рисков потенциального заемщика называется кредитным скорингом (от англ. credit scoring).

Говоря о кредитном скоринге, как правило, имеют в виду анализ рисков по кредитованию физических лиц, хотя методы оценки надежности организаций также существуют.

Оценка кредитных рисков в соответствии с преследуемыми целями может быть разделена на 4 категории:

application scoring ‒ оценка кредитоспособности заемщиков для выдачи кредитов;
behavioral scoring ‒ оценка динамики состояния кредитного счета заемщика и кредитного портфеля в целом;
collection scoring ‒ определение приоритетных дел и направлений работы с проблемными заемщиками, мониторинг
задолженности и выбор оптимального коллекторского воздействия;
fraud scoring ‒ своевременно выявление мошенничества со стороны клиентов-заемщиков.

Кредитный скоринг состоит в применении алгоритмов, полученных с использованием математических и статистических методов, с тем, чтобы разделить потенциальные кредитные операции на непересекающиеся группы риска, хорошие и плохие. Плохие риски подразумевают бóльшую вероятность нарушения обязательств заемщиком, поэтому необходимо выявлять факторы кредитного риска, их значимость и взаимозависимость. Предполагается, что созданные модели могут выявлять закономерности, так что кредитные операции в будущем будут иметь такой же исход, как и операции со схожими характеристиками, для которых известна принадлежность к одному из рисков.

Факторы, учитываемые при кредитном скоринге

Факторы, учитываемые при кредитном скоринге могут отличаться в зависимости от алгоритмов и целей скоринга. К таким факторам можно отнести демографические данные (семейное положение, возраст и др.) и характеристики занятости заемщика (тип занятости, должность, информацию о кредитной истории и предыдущих отношениях с кредитором, характеристики предоставляемой услуги, данные о финансовом благополучии клиента. Следует,отметить, что использование некоторых данных в кредитном скоринге может быть ограничено законодательно. Так,например, в США, согласно Федеральному Закону «Об отчете о кредитным операциям» и Законе «О равных кредитных возможностях», запрещено учитывать семейное положение, расу, религиозные убеждения и пол в качестве признаков в кредитом скоринге и принятии решений о выдаче кредита в целом.

Для оценки рисков не менее важны и характеристики запрашиваемого кредита (например, кредиты в иностранной валюте, как правило, считаются более рискованными).

Алгоритмы кредитного скоринга

Для разработки алгоритмов кредитного скоринга применяются самые различные методы: классические основанные на статистическом дискриминантном и регрессионном анализах, деревья решений, методы, основанные на нейронных сетях.

Регрессии, как линейные, так и логистические, достаточно распространены в кредитном скоринге. Поскольку перед банком стоит задача отобрать лучших заемщиков, не обязательно действовать в рамках задачи классификации: вместо нее может быть реализована задача ранжирования, для которой подходят и линейная, и логистическая регрессии (так как могут предсказывать вероятность принадлежности к одному из бинарных классов, по которой и будут упорядочены потенциальные заемщики). Стоит заметить, что регрессионный анализ может быть использован не только непосредственно для кредитного скоринга, но и для предшествующего ему отбора признаков для построения моделей. Хотя логистическая регрессия и не является самым эффективным методом для классификации, она значительно менее чувствительна к размеру выборки и соотношению плохих и хороших рисков в ней по сравнению со многими другими методами, применяемыми для классификации вообще и кредитного скоринга в частности.

Наряду с упомянутыми выше методами для классификации плохих и хороших кредитных рисков используются деревья решений. Вне зависимости от алгоритма построения дерева метод имеет некоторые достоинства, среди которых простота в интерпретации и понимании, меньшая необходимость в предобработке данных (может работать одновременно с переменными, измеряемыми по разным шкалам, не требует шкалирования, нормирования или заполнения пропусков в данных). Между тем, задача построения оптимального дерева вычислительно затратная, а сами деревья склонны к переобучению. Проблема переобучения в частности может быть решена подбором гиперпараметров, таких как критерии останова (прекращение построения дерева, при выполнении некоторого условия, например, достижение определенной глубины), «стрижкой» деревьев, а также композицией нескольких алгоритмов или созданием комитета решающих деревьев, усредняющего ошибку и улучшающего обобщающую способность модели.

Для нахождения нелинейных зависимостей в данных часто используют нейронные сети. Применимы они и в задачах кредитного скоринга, и зачастую показывают лучшие результаты, чем традиционные статистические модели. Однако у них имеются некоторые ограничения, связанные с тем, что они долго обучаются, работают значительно хуже, если в данных имеются нерелевантные атрибуты или если сеть обучена на недостаточно большой выборке данных. Хотя полученная модель сложна для интерпретации, алгоритмы кредитного скоринга, работающие на базе нейронных сетей, реализованы во многих коммерческих решениях для банков.

С развитием различных интеллектуальных методов все больше из них находят свое приложение в деятельности банков. Например, анализ профилей заемщика в социальных сетях при помощи интеллектуального анализа текстов (text mining).

Работа с данными сложна еще и потому, что характеристики заявителей и заемщиков описаны как при помощи количественных, так и при помощи качественных признаков. Из-за этого, например, возникает проблема классификации заемщиков в пространстве разнотипных признаков. В таких условиях,например, могут нарушаться некоторые существенные предположения о характере распределения случайных величин, что делает заведомо невозможным применение ряда алгоритмов классификации.

Модели кредитного и поведенческого скоринга

Поведенческий скоринг (behaviour scoring) — динамическая оценка состояния кредитоспособности существующего заёмщика, основанная на данных об истории трансакций по его счетам (график погашения задолженности, оборот по текущим счетам, запрос новых кредитов и т.п.). По результатам оценки может определяться текущий лимит кредита для заёмщика; меры, принимаемые в случае задержки платежей; маркетинговые ходы, которые могут быть направлены на клиента.

При построении модели скоринга также могут использоваться данные различных видов, и здесь можно провести следующее разделение.

Априорный скоринг — построение модели по статистическим данным (макроэкономические показатели, государственная статистика, результаты переписи и т.п.). Эти данные используются для оценки параметров модели заёмщика, которая в свою очередь применяется для определения его кредитоспособности.

Апостериорный скоринг — построение модели по историческим данным о клиентах кредитной организации. Такие данные обычно представляют собой таблицу, в которой для каждого из клиентов, получившего кредит, указаны данные его заявки, а также исход — погашение долга, досрочное погашение или дефолт. Таким образом, производится построение модели, по возможности лучше предсказывающей исход на основании анкетных данных.

Система скоринга может использоваться не только на стадии продажи кредитного продукта, но и при его проектировании, поскольку с её помощью можно определить проанализировать кредитоспособность группы потенциальных заёмщиков, под которую проектируется продукт, и, выделив основные качества заёмщиков, способствующие снижению риска, направить основные маркетинговые усилия именно на таких заёмщиков.

Математические модели кредитного скоринга

Байесовский подход. Предположим, что известны следующие функции и величины:

• pG — доля «хороших» клиентов, и, соответственно, pB = 1−pG — доля «плохих» клиентов;
• p(x|G), p(x|B) — вероятности того, что соответственно «хороший» и «плохой» клиент дадут ответы x;
• L — потери от того, что «хороший» клиент будет классифицирован как «плохой»;
• D — потери в случае дефолта, т.е. от классификации «плохого» клиента как «хорошего».

По формуле полной вероятности можно тогда вычислить p(x) = p(x|G)pG+p(x|B)pB — вероятность того, что клиент даст ответы x, и затем по теореме Байеса определить


то есть вероятности того, что клиент с данными ответами будет «хорошим» или «плохим».

Средние потери в расчёте на одного клиента составляют

EL = L XB q(G|x)p(x) + D XG q(B|x)p(x) = L XB p(x|G)pG + D X p(x|B)pB,
x∈A                      x∈A                      x∈A                  x∈AG

и являются минимальными при выборе

AG = {x | Dp(x|B)pB 6 Lp(x|G)pG}.

Если далее предположить нормальность распределений p(x|G), p(x|B) с общей ковариационной матрицей, то получается линейное правило

AG = {x | w1x1 + … + wnxn > c}.

Такое правило фактически означает, что каждому набору ответов x присваивается «счёт» s(x) по формуле s(x) = w1x1 + … + wnxn,
и означает, что в s(x) содержится достаточно информации для различения класса клиента. Таким образом, размерность задачи уменьшается с n, с распределениями p(x|G), p(x|B), до 1 с распределениями p(s|G), p(s|B). Нахождение правила классификации сводится к поиску оптимального порога c из задачи оптимизации

LXp(s|G)pG + D Xp(s|B)pB → min.
s<c              s>c

Множественная регрессия. Другой способ получить линейную скоринговую функцию — использовать одну из разновидностей линейной регрессии. В простейшем варианте определяется зависимая переменная Y , принимающая значения 1 в случае «хорошего» клиента и 0 в случае «плохого», и затем используется метод наименьших квадратов для нахождения весов wi, обеспечивающих наилучшее предсказание значения Y.

При использовании линейной регрессии фактически делается попытка связать вероятность дефолта p со значениями ответов на вопросы линейной функцией:

p = w0 + w1X1 + … + wnXn.

Здесь есть очевидное несоответствие: левая часть представляет собой вероятность и должна изменяться от 0 до 1, тогда как правая может принимать любые значения. Для преодоления этой трудности само значение вероятности заменяется некоторой функцией от него, так чтобы эта функция была монотонной принимала все вещественные значения.

Логистическая регрессия заменяет вероятность дефолта на логарифм шансов дефолта:


Таким образом, счёт связан здесь не с вероятностью дефолта p(B|x), а с отношением p(B|x)/p(G/x):


Другим примером является пробит-анализ:

Φ−1(p) = w0 + w1X1 + … + wnXn,

где Φ(x) — функция стандартного нормального распределения.

Дискриминантный анализ. Используя линейные скоринговые функции, можно оценить вероятность принадлежности клиента тому или иному классу, определив

s1(x) = w01 + w11X1 + … + wn1Xn, s2(x) = w02 + w12X1 + … + wn2Xn,

… sm(x) = w0m + w1mX1 + … + wnmXn.

Далее необходимо просто выбрать тот класс, которому соответствует больший счёт. В случае двух классов это даёт тот же самый результат, что и линейная регрессия.

Линейное программирование. Ещё один способ получить линейную скоринговую функцию заключается в использовании линейного программирования. Пусть есть набор данных, включающий в себя ответы на вопросы xi1,…,xin для каждого из N клиентов и индикаторы наличия дефолта Yi. Идеально было бы найти линейную функцию s(x), которая бы полностью разделяла «хороших» и «плохих» клиентов. Однако поскольку это обычно невозможно, будем искать s(x) из соображений минимизации ошибки ai в каждом конкретном случае:

Здесь минимизация производится по переменным (w1,…,wn,c,a1,…,aN). Можно также минимизировать максимальную возможную ошибку, заменив все ai на одну переменную a.

Преимущество метода линейного программирования состоит в возможности включить в программу дополнительные ограничения. Например, если кредитный продукт направлен на людей молодого возраста, можно наложить дополнительное ограничение на соответствующий вес wi > wi0, так что скоринговая функция будет отдавать предпочтение людям этого возраста.

Генетические алгоритмы представляют собой метод оптимизации, не накладывающий стандартных ограничений на целевую функцию (гладкость, выпуклость и т.п.). В применении к задаче скоринга генетический алгоритм состоит в генерации начального множества скоринговых функций, с последующим применением к функциям из этого набора операций «скрещивания» и «мутации», а также отбрасыванием наименее пригодных функций.

Деревья классификации. В отличие от предыдущих методов, классификационные деревья (иначе — рекурсивные алгоритмы разбиения) не предназначены для построения линейной скоринговой функции. Вместо этого они последовательно разбивают клиентов на группы по одной из переменных, так чтобы эти группы насколько возможно отличались по величине кредитного риска. Процесс разбиения продолжается до тех пор, пока оставшиеся группы не становятся настолько малы, что следующее разбиение не приведёт к статистически значимому различию в уровне риска. Каждому листу дерева затем приписывается определённая категория клиентов. На рисунке изображён пример дерева классификации:

Дерево классификации

Модификацией деревьев классификации являются деревья моделей, где каждому листу соответствует не определённая категория, а своя линейная регрессионная модель. Это позволяет сначала достаточно грубо разделить клиентов на основные группы, а потом для каждой группы воспользоваться регрессионной моделью.

Метод ближайших соседей является примером подхода «ленивого обучения», когда обучение фактически сводится к добавлению нового случая в базу данных. На пространстве анкетных данных выбирается некоторая метрика, которая затем используется для нахождения ближайших исторических анкетных данных к данным нового клиента. При этом клиент классифицируется в зависимости от того, к какому классу принадлежат большинство его соседей по этой метрике.

Преимуществом метода ближайших соседей является исключительная простота обучения модели: при поступлении новых данных их необходимо просто добавить к существующим, а по прошествии времени можно удалять старые данные, чтобы учитывать изменения, происходящие с течением времени.

К недостаткам следует отнести необходимость полного просмотра базы данных при классификации нового клиента (что может занимать довольно много времени в случае больших объёмов информации, скажем, более 105–106 записей). Кроме того, выбор хорошей метрики также является нетривиальной задачей, и если производить его на основе исторических данных, то теряется основное привлекательное свойство алгоритма — отсутствие необходимости предварительного анализа данных и построения модели.

Нейронные сети могут рассматриваться как метод нелинейной регрессии и показывают очень хорошие результаты в задаче кредитного скоринга. Они чаще применяются для скоринга компаний, когда имеется меньше данных, чем для скоринга частных лиц.

Недостатком нейронных сетей является то, что веса связей, определённые в результате обучения, не имеют никакой интерпретации в терминах кредитного риска. Следовательно, практически невозможно объяснить предсказание, полученное с помощью нейронной сети, а также провести анализ чувствительности, чтобы выделить наиболее значимые параметры.

Байесовские сети позволяют представлять многомерные распределения p(x|G), p(x|B) в виде комбинации нескольких распределений более низкой размерности. При этом в ходе построения модели могут быть учтены причинно-следственные связи (благодаря чему они широко распространены в таких областях как медицинская диагностика, поиск технических неисправностей и т.п.). Хотя в кредитном скоринге и других задачах классификации как правило рассматриваются переменные, которые не связаны друг с другом причинно, однако можно предположить существование скрытых переменных, обуславливающих ту или иную условную зависимость или независимость. Более подробно этот подход описан в п. 2.6.

Безусловным преимуществом байесовских сетей является возможность вывода по неполным данным. Если информация о потенциальном заёмщике не является полной, то алгоритм вывода по байесовской сети вычислит вероятность дефолта, основываясь лишь на доступных данных (что эквивалентно усреднению по переменным, чьи значения неизвестны).

Байесовский подход позволяет также относительно легко производить интеграцию системы апостериорного скоринга с другими используемыми моделями, в частности, с системой априорного скоринга, чтобы учесть изменения в распределении дефолтов, связанные с изменением экономической ситуации.

Логико-вероятностный подход основан на сочетании методов математической логики и теории вероятностей. Этот подход можно рассматривать как специальный вид нелинейной регрессии. В качестве параметров модели здесь выступают вероятности наступления дефолта, связанного с тем или иным ответом на вопрос анкеты.

Оцениваемая величина — вероятность дефолта. Для идентификации значений параметров используется специально адаптированные алгоритмы оптимизации (основной трудностью является то, что целевая функция — количество правильно классифицированных случаев — является целочисленной, поэтому не работают стандартные алгоритмы оптимизации типа наискорейшего спуска).

Информация на выходе системы скоринга

В зависимости от используемой модели система скоринга может выдавать на выходе следующие данные.

Класс клиента. В самом простом случае — «хороший» или «плохой»; первым кредит выдается, вторым — нет. В более сложных случаях может быть ещё несколько промежуточных классов — кредит выдается, но на других условиях (больший процент, меньший срок, или дополнительные гарантии), либо кредитоспособность оценивается вручную, с использованием дополнительной информации.

Апостериорное распределение класса клиента. Для каждого класса указывается вероятность, с которой данный клиент принадлежит этому классу. Можно выбрать класс с наибольшей вероятностью, либо усреднить какие-либо показатели по каждому классу. Данный вариант предпочтительнее первого, поскольку в распределении содержится существенно больше информации. Например, если классов всего два, то в первом варианте клиент будет считаться «хорошим» как при распределении 90%/10%, так и при 55%/45%. Очевидно, однако, что во втором случае степень уверенности в кредитоспособности существенно ниже, чем в первом.

Вероятность дефолта. Для принятия решения остаётся только сравнить эту вероятность с пороговым значением допустимой вероятности дефолта. Последняя определяется так, чтобы с учетом этой вероятности и процентной ставки банк в среднем не терпел убытков в случае выдачи кредита.

Счёт (score) — количественная оценка кредитоспособности потенциального заёмщика (чем больше счёт, тем последняя выше). Обычно счёт пропорционален вероятности или шансам успешного возврата кредита, поэтому либо по счёту определяется вероятность дефолта и на этом основании принимается решение, либо, в зависимости от того, в какой промежуток попал счёт, определяется класс клиента и на основании этого — условия выдачи кредита.

Если скоринговая система так или иначе определяет вероятность дефолта заёмщика pдеф, то необходимо установить пороговую (допустимую) вероятность дефолта. Это можно сделать, вычислив средние потери от дефолта, и введя ограничение, что эти потери не могут быть больше дохода в случае успешного возврата кредита.

Потери в случае выдачи кредита неплатежеспособному заёмщику, потери в случае отказа «хорошему» клиенту образуют так называемую матрицу штрафов (misclassification costs matrix). В этой матрице столбцам соответствуют фактические (реальные) классы клиентов, а строкам — предсказанные. На диагонали находятся нули (т.е. за правильно предсказанный класс штраф отсутствует), а во всех остальных ячейках указывается штраф за предсказание одного класса (строка), если на самом деле клиент принадлежит другому классу (столбец). Например, в случае матрицы:

good bad
good 0 5 bad
1 0

штраф составляет 1 единицу за отказ «хорошему» клиенту и 5 единиц за выдачу кредита «плохому» клиенту. Как видно, в случае двух классов матрица штрафов содержит два значения — штрафы за ошибки первого и второго рода.

Элементы матрицы могут быть определены исходя из порогового значения вероятности дефолта p∗ (выше которого кредиты выдаваться не должны).

Примем, что штраф за отказ хорошему клиенту равен 1, а n — штраф за приём плохого клиента.

Тогда:


Для матрицы, приведённой выше,


Матрица штрафов используется в ходе оценки качества используемых моделей, а также является частью входных данных некоторых алгоритмов (например, при построении деревьев классификации).

Выбор и оценка скоринговых моделей

Кратко опишем общую методология оценки моделей добычи данных, следуя работам Y. Liu .

Выбор модели. Процесс построения скоринговой системы можно условно разбить на три этапа:

1. Формулировка задачи и подготовка данных. С помощью экспертов в конкретной области формулируется задача скоринга, производится сбор и предварительная обработка данных.

2. Анализ данных и построение модели. Производится поиск оптимальной модели для решения поставленной задачи. Необходимо оценить точность работы различных моделей и выбрать наилучшую из них.

3. Применение и валидация модели. Модель применяется для реального принятия решений, при этом производится оценка её точности на фактических данных. По прошествии времени модель должна перестраиваться, чтобы отражать произошедшие изменения.

Несмотря на то, что кредитный скоринг предназначен для автоматического принятия решения по выдаче кредитов, сам процесс построения модели для скоринга не может обходиться без непосредственного участия человека на каждом из этапов.

Точность классификации. Наиболее очевидным критерием точности является процент неверной классификации, или интенсивность ошибок:

Для задачи классификации с двумя классами это число должно быть между нулём (все случаи классифицированы корректно) и интенсивностью ошибок классификации по умолчанию (присваивающей во всех случаях класс, которому принадлежит большинство клиентов). По ряду причин построенная модель должна иметь меньшую интенсивность ошибок, чем классификация по умолчанию, при этом в реальных приложениях не существует моделей с нулевой интенсивностью ошибок.

Реальная интенсивность ошибок (true error rate) определяется тестированием модели на настоящих данных. Она не может быть определена до тех пор, пока модель не будет протестирована на большом количестве реальных случаев. Следовательно, в ходе построения модели этот показатель необходимо как-либо оценить.

Собственная интенсивность ошибок (apparent error rate) определяется как интенсивность ошибок на наборе данных, который был использован для обучения модели. Однако она не является надёжной оценкой реальной интенсивности, поскольку низкое её значение может означать, что модель является просто-напросто «подгонкой» (overfitting) результата классификации под данные в обучающем наборе (например, у метода ближайших соседей всегда будет нулевая собственная интенсивность ошибок). В этом случае можно ожидать весьма посредственных результатов при применении модели к реальным данным.

Для оценки собственной интенсивности ошибок применяется метод «удержания» тестовых данных: исходный набор данных разделяется на «обучающий» (использующийся для построения модели) и «тестовый» (используемый для оценки точности) наборы. Предполагается, что тестовый набор выделяется случайным образом, независимо от самих данных. Определённая таким образом интенсивность ошибок называется тестовой интенсивностью ошибок. Обычно величина тестового набора составляет около 30% от всех данных. При величине тестового набора в 1000 записей тестовая интенсивность ошибок уже является статистически точной оценкой реальной интенсивности.

Представляет также интерес точность классификации при условии изменений, происходящих в населении с течением времени. Для этого имеющиеся данные упорядочиваются по дате заполнения анкеты, и затем в качестве обучающего набора используется первая часть списка, а в качестве тестового — вторая. Это также отчасти решает проблему излишней «подгонки» под обучающие данные.

Отметим, что сравнение результатов точности классификации различными методами показывает, что они практически совпадают. Это можно объяснить эффектом «плоского максимума»: существенные изменения весов в окрестности оптимальной скоринговой функции приводят к незначительным отклонениями в точности прогнозов.

Критерии применимости. Хотя точность классификации и является важным критерием выбора скоринговой модели, необходимо также принимать во внимание ряд других качеств.

Скорость работы. Необходимо оценить время, требуемое для обучения и для принятия решения в соответствие с моделью. Приведём два крайних примера. С одной стороны, метод ближайших соседей исключительно быстр в обучении (просто добавляется ещё одна запись), но для принятия решения требуется полный перебор случаев в базе данных, что может занять много времени. Напротив, нейронные сети требуют минимальных вычислений для классификации одного случая, но при этом их обучение является NP-трудной задачей, поэтому алгоритмы обучения требуют экспоненциального времени.

Прозрачность и интепретируемость. Прозрачность моделей становится важной, когда модель необходимо объяснить кредитным аналитикам. Часто счёт, выдаваемый системой, используется как один из критериев принятия решения квалифицированным кредитным офицером, поэтому модель должна быть в достаточной мере понятной. Наиболее прозрачными моделями являются, по всей видимости, основанные на линейной скоринговой функции. Напротив, нейронные сети действуют как «чёрный ящик» и не предоставляют никаких объяснений результатов классификации, что препятствует использованию таких систем на практике, когда кредиторам требуется объяснять, почему они не выдали тот или иной кредит.

Простота модели. Следует предпочитать наиболее простую модель при одном и том же уровне точности. Это имеет влияние как на скорость работы модели, так и на её понятность. Кроме того, более простые модели как правило являются более робастными.

Типы ошибок. Введём следующие обозначения:

• a — количество «плохих» клиентов, предсказанных верно.
• b — количество «хороших» клиентов, предсказанных верно.
• c — количество «плохих» клиентов, предсказанных как «хорошие».
• d — количество «хороших» клиентов, предсказанных как «плохие».

Точность классификации можно описать одним числом — общей интенсивностью ошибок:


однако для систем кредитного скоринга необходимо рассматривать отдельно вероятность ошибок первого и второго рода:


Число ER1 характеризует кредитный риск — процент «плохих» клиентов, классифицированных как «хорошие». Значение ER2 характеризует так называемый коммерческие риск, связанный с отказом «хорошим» клиентам.

Кривая ROC. В том случае, если скоринговая система на выходе выдаёт непрерывное значение счёта, точность классификации зависит не только от самой модели, но и от порогового значения счёта, начиная с которого принимается положительное решение по выдаче кредита. Для сравнения различных моделей в этом случае применяется кривая ROC (receiver operating characteristic), показывающая зависимость (1 − ER1) от ER2. Чем выше проходит такая кривая, тем точнее классификация независимо от порогового значения.

Применяется также численный показатель, обозначаемый AUROC или AUC (area under ROC) и равный площади фигуры между кривой ROC и прямой 1 − ER1 = ER2. Этот показатель изменяется от 0 (бесполезный классификатор) до (абсолютно точный классификатор).


Матрица штрафов. Для того, чтобы выбрать пороговое значение счёта, необходимо задаться штрафами за ошибки первого и второго рода (ср. с матрицей штрафов, описанной ранее). Если обозначить последние за C1 и C2, то поиск порогового значения сводится к минимизации ожидаемого штрафа:

EC = C1 · ER1 · pB + C2 · ER2 · pG → min.

Можно показать, что поиск оптимального порогового значения эквивалентен нахождению касательной к кривой ROC, проходящей под углом arctan(PGC2/PBC1).

Последовательный анализ. Целью последовательного анализа является сравнение набора классификационных моделей, построенных за счёт изменения размера обучающей выборки. Если модели одинакового качества могут быть получены на различных объёмах данных, следует использовать ту модель, которая получена на меньшей выборке.

Графическое представление результатов последовательного анализа — кривая обучения, показывающая зависимость тестовой интенсивности ошибок от размера обучающей выборки или от сложности модели. Результаты экспериментов показывают, что вначале с ростом выборки интенсивность ошибок падает за счёт учёта дополнительной информации. Однако далее интенсивность ошибок стабилизируется и даже может начать возрастать. Это связано с тем, что при больших объёмах данных начинает происходить подгонка под них, либо с тем, что модель достигает предела своих возможностей по извлечению закономерностей из этих данных.


Параметры заявки: дискретные и непрерывные

Среди переменных, описывающих данные кредитной заявки, большую часть обычно составляют дискретные (образование, пол, семейное положение, цель кредита, вид собственности на жилье, род деятельности и т.п.). При этом если некоторые переменные поддаются некоторому упорядочению (например, образование — можно считать, что чем выше уровень, тем больше значение переменной), то для других не существует никакого осмысленного линейного порядка (например, семейное положение или цель кредита). Следовательно, такие переменные нельзя даже приблизительно считать непрерывными, поскольку их значения суть номера ответов на соответствующие вопросы, которые могут располагаться в произвольном порядке.

Если используемая модель скоринга требует использования непрерывных переменных, то можно обойти дискретность переменных, заменив их на большее количество переменных, принимающих значения от 0 до 1.

Пусть:


— исходный набор (дискретных) переменных, каждая из которых принимает r1,…,rn значений соответственно (для упрощения будем считать, что это значения от 1 до ri).

Тогда модифицированный набор будет содержать переменные:


а значения параметров будут определяться по следующему правилу:


Поскольку значения переменных


уже являются упорядоченными, то по ним можно построить, например, модель линейную регрессии, присвоив каждой из переменных некоторый вес wij:

n       rj
Y = X=1 XwijXij. i i=1

Если вернуться к исходному набору переменных {Xi}, то получается, что каждому варианту ответа (j) на каждый вопрос (i) присвоен некоторый вес (wij), а для определения счёта необходимо лишь просуммировать веса выбранных клиентом ответов.

Для некоторых моделей (байесовские сети, деревья классификации), напротив, предпочтительнее использование дискретных, категоризированных данных. В этом случае для каждой непрерывной переменной необходимо разбить область её значений на несколько отрезков, и заменить эту переменную на дискретную, значением которой является номер отрезка, в который попадает значение исходной непрерывной переменной.

Например, если переменная X есть возраст клиента, то её можно заменить на дискретную переменную X¯, принимающую следующие значения от 1 до 4, если возраст попадает соответственно на отрезки [18,25], [25,35], [35,60], [60,100].

Выбор параметров дискретизации можно производить из различных соображений: минимизация энтропии (т.е. получение наибольшего возможного количества информации по значению дискретной переменной), равная частота попадания значений переменной в каждый отрезок, равная длина отрезков, или же использование дополнительной (экспертной) информации. Например, указанное выше разбиение для возраста может быть мотивировано использованием информации о жизненном цикле потенциальных заёмщиков.

Часто имеет смысл замена непрерывных переменных на дискретные и затем обратный переход к переменным, принимающим значения 0 и 1. Известно, например, что зависимость кредитоспособности от возраста существенно нелинейна, поэтому применение, скажем, линейной регрессии приведёт к построению неудовлетворительной модели. Однако эту нелинейность можно учесть, если разбить значения возраста на промежутки и присвоить каждому промежутку свой вес. Таким образом, замена непрерывных переменных на дискретные помогает даже в линейных моделях учесть нелинейные зависимости в моделируемых явлениях.

Отсутствующие данные. Reject Inference

Многие методы скоринга предполагают, что имеются в наличии все значения в историческом наборе данным, используемом при построении модели. Иными словами, в таблице исторических данных не должно быть пропусков. Однако на практике это требование обычно нарушается. Выделяется два основных типа отсутствия данных, которые мы далее рассмотрим.

Случайно отсутствующие данные. Исторические данные действительно могут быть с пропусками. Некоторые заявки могли быть заполнены не полностью, или часть информации просто не была введена в базу данных. Другой вариант — данные получены из нескольких источников с немного различающейся структурой заявки. Наконец, в анкету могли быть внесены изменения (добавлен новый вопрос), тогда в данных до этого изменения значение ответа на вопрос будет полностью отсутствовать.

Во всех этих случаях отсутствие данных не представляет существенных проблем при построении модели (кроме, может быть, некоторого ухудшения качества оценки параметров).

Пусть X — возраст заёмщика, Y — категория заёмщика, Z — случайная величина, принимающая значения 1, если есть информация о возрасте, и 0, если данные отсутствуют. В данном случае можно считать, что случайная величина Z независима с X, Y , поэтому интересующее нас распределение P(Y |X) совпадает с распределением P(Y |X,Z = 1), которое может быть оценено по имеющимся данным.

Для борьбы со случайно отсутствующими данными данными могут применяться следующие методы:

Удаление записей с отсутствующими данными. Если отсутствующих данных относительно немного, то можно просто не учитывать те случаи, в которых есть пропуски данных.

Замена отсутствующих значений на моду. По имеющимся данным определяется распределение отсутствующего параметра, и затем во всех записях, где он отсутствует, проставляется его мода. Можно использовать как распределение одного параметра, так и условное распределение по присутствующим параметрам. Этот способ также хорошо применять, когда отсутствующих данных относительно мало.

Моделирование отсутствующих данных. Как и в предыдущем случае, определяется распределение параметра (простое или условное), но только теперь в каждом случае производится случайный эксперимент с использованием этого распределения, и на место отсутствующего значения записывается исход этого эксперимента.

Замена строки с отсутствующими данными на несколько строк с различными весами. Например, если P(X = 1) = 0,2, P(X = 2) = 0,8, то исходная строка, в которой отсутствовало значение X, заменяется на две строки: в первой строке X = 1, во второй — X = 2, с весами 0,2 и 0,8 соответственно.

Неслучайно отсутствующие данные. Ситуация ухудшается, если данные отсутствует неслучайно. Здесь в свою очередь также возможны два случая:

Во-первых, может отсутствовать часть ответов на вопросы анкеты в случае, если в другой части выбраны определённые параметры. Например, анкета состоит из двух частей, и банк просит заполнять вторую часть клиентов определённого возраста, или клиентов, работающих в определённых отраслях.

В этом случае либо воспользоваться дополнительными данными в виде статистики о том, как могли распределены отсутствующие ответы у соответствующих групп клиентов, либо просто построить разные модели для различных групп клиентов.

Однако самая большая проблема — отсутствие данных по клиентам, по тем или иным причинам не получившим кредит. Пусть, как и раньше, X — один из параметров заёмщика, Y — наличие дефолта. Кроме того, пусть W — вся информация о клиенте, не вошедшая в X. Случайная переменная Z теперь имеет смысл наличия (1) или отсутствия (0) данных о значении Y . Введём еще одну переменную, T: она равна 1, если кредит был выдан, и 0, если в кредите было отказано. Можно считать, что Z = T, то есть имеется информация именно о тех клиентах, которым кредит был выдан, что соответствует реальности — банк не знает, был бы дефолт по клиенту или нет, если кредит не был выдан.

Пусть X имеет два значения, 0 и 1, и значение 0 однозначно означает высокую вероятность дефолта (например, X — наличие «определённого места жительства»). Тогда при X = 0 в большинстве случаев будет T = 0; только в некоторых случаях T = 1, когда значения переменных из W в сумме говорят о достаточной кредитоспособности, несмотря на значение X.

Если банк имеет информацию только о тех клиентах, которым он выдал кредит, то он может по этим данным оценить вероятность pT,0 = P(Y = 1|X = 0,T = 1). Однако она не будет иметь никакого отношения к реальной вероятности p = P(Y = 1|X = 0). Ничто не мешает обстоятельствам сложиться так, что pT=0 = 1%, а p = 99%. Более того, вероятность pT может даже быть меньше pT,1 = P(Y = 1|X = 1,T = 1), поскольку претенденты с X = 0 должны были пройти более тщательный отбор. Таким образом, может появиться ошибочное предположение, что давать кредит бомжам выгоднее, чем всем остальным.

Построение модели несмотря на отсутствие данных по клиентам, не получившим кредит, в западной литературе носит название Reject Inference. Основная проблема заключается в том, что при длительном использовании системы скоринга приходится изменять параметры модели в соответствии со вновь поступающими данными, что приводит к накоплению системной ошибки. Последствия могут быть самые разные: как недооценка риска (см. пример выше), так и переоценка — определённые категории клиентов никогда не получат кредит, у них просто не будет возможности доказать свою кредитоспособность.

К настоящему времени показано, что распределение P(X,W) параметров всех потенциальных заёмщиков не даёт дополнительной информации, которая могла бы быть использована при построении модели. Немногие предложенные методы основаны на использовании дополнительной информации помимо самих исторических данных.

Если в наличии имеются только исторические данные по кредитам, то приведённый выше пример говорит о том, что при построении новой скоринговой модели по данным о кредитах, выданных по решению старой системы или кредитного офицера, необходимо включить в анкету все те вопросы, которые учитывала старая система.

Одним из способов получить статистику по всем клиентам — принимать на короткое время всех клиентов. Так обычно поступают розничные магазины и фирмы, торгующие по каталогам. Банки, напротив, не могут себе этого позволить из-за высоких потерь при дефолте и вынуждены использовать тот или иной метод reject inference.

Для преодоления описанной проблемы можно предложить следующий подход: для клиентов, которым было отказано в кредите, произвести случайные испытания, воспользовавшись данными системы априорного скоринга, и далее использовать исход этих испытаний при построении модели скоринга.

Байесовские классификаторы

Как уже говорилось, байесовские сети позволяют записать многомерное совместное распределение в виде комбинации нескольких распределений меньшей размерности. Более строго, байесовской сетью называется пара N = hG,Θi, где G — ориентированный ацикличный граф (ОАГ), а Θ — набор условных распределений. Каждая вершина графа соответствует одной из переменных X1,…,Xn. Для каждой вершины задано условное распределение θXi|ΠXi = P(Xi|ΠXi), где ΠXi — множество непосредственных предшественников Xi в графе G. Байесовская сеть N определяет следующее совместное распределение:


Если известны реализовавшиеся значение одной или нескольких переменных Xi = xi (i ∈ I, причём возможен случай I = ∅), то известные алгоритмы вывода по байесовской сети позволяют оценить условные вероятности P(Xj|XI) остальных переменных.

В общем случае определение оптимальной структуры сети и вычисление маргинальных вероятностей по имеющимся наблюдениям являются NP-трудными задачами, поэтому используют приближённые алгоритмы обучения и вывода.

Для построения классификатора, основанной на байесовской сети, необходимо вначале найти адекватную структуру графа G, а затем оценить условные распределения Θ. Последняя задача имеет довольно простое решение (при условии отсутствия пропусков в данных), основную же трудность представляет именно поиск оптимальной структуры.

Когда байесовские сети применяются к задаче классификации, граф G условно разделяется на две части: вершина C, соответствующая классу клиента, и все остальные вершины. При этом выделяются следующие основные структуры классифицирующей сети.

1. Наивный байесовский классификатор (na¨ıve Bayes classifier). Из вершины C проведены стрелки во все входные переменные X1,…,Xn, и других рёбер у графа G нет. Обучение классификатора означает оценку условных вероятностей P(Xi|C), а классификация производится простым применением формулы Байеса:


Подобная структура графа означает предположение об условной независимости переменных Xi при заданном классе c.

1. Наивный байесовский классификатор над деревом (tree augmented na¨ıve Bayes classifier, TAN). Условие условной независимости переменных в X ослаблено до требования того, чтобы подграф G, отвечающий переменным из X, образовывал дерево, то есть у каждой переменной Xi в качестве непосредственного предшественника помимо класса C может быть не более одной переменной Xj.

2. Наивный байесовский классификатор над сетью (Bayesian network augmented na¨ıve Bayes classifier). Здесь все переменные Xi имеют в качестве предшественника класс C, но при этом они могут образовывать произвольную байесовскую сеть.

3. Произвольная байесовская сеть. Не накладывается никаких ограничений на условную независимость X и C. При этом вводится понятие марковского ограждения (Markov blanket) вершины C: MC = ΠC ∪ΣC ∪ΠΣC, где ΣC — множество последователей C в графе G. Имеет место условная независимость I(C,X\(C∪MC)|MC), поэтому в конечной модели разумно оставлять только вершины из C ∪ MC.


Структура наивного байесовского классификатора над деревом

Структура байесовского классификатора общего вида

Для каждого из перечисленных типов классификаторов существуют свои алгоритмы определения структуры и вывода. В качестве приближённого метода часто используется MCMC (Markov Chain Monte Carlo), который состоит в последовательной генерации байесовских сетей, причём каждая последующая сеть генерируется марковской цепью с простым распределением вероятностей. После этого можно либо выбрать наиболее вероятную сеть из сгенерированной последовательности, либо применять усреднение по набору наиболее вероятных сетей. Марковское ограждение может быть также построено непосредственно, используя этот метод.

Поведенческий скоринг

Можно выделить следующие основные модели поведенческого скоринга:

• Методы, аналогичные кредитному скорингу — классификация клиентов в зависимости от их предыдущего поведения (фактически, это тот же кредитный скоринг, только в анкету помимо данных о самом заёмщике добавлено описание его поведения).

• Статистические модели, не ставящие целью объяснить природу того или иного поведения заёмщиков, а лишь аппроксимирующие наблюдаемое поведение. Здесь преобладают модели, основанные на марковских цепях. Последние могут быть использованы как для моделирования поведения одного заёмщика, так и для оценки потерь портфеля кредитов в целом.

• Структурные модели, описывающие динамику кредитоспособности и репутации заёмщика. Доступные статистические данные используются здесь для оценки параметров модели.

Скоринговые модели

Системы поведенческого скоринга используют информацию о недавнем поведении заёмщика для оценки вероятности дефолта, при этом используется методология, сходная с применяемой в кредитном скоринге. Подготавливается выборка данных по существующим заёмщикам, включающая в себя информацию о трансакциях по их счетам за определённый период времени. Этот период разбивается на две части: период наблюдения и контрольный период, каждый примерно по одному году. На периоде наблюдения вычисляются различные численные характеристики поведения заёмщика: средний, максимальный и минимальный баланс, оборот по счетам, тренды в платежах и балансе и т.д.

Далее каждый заёмщик классифицируется как «плохой» или «хороший» в зависимости от состояния на конец контрольного периода. Далее теми же методами, что и в кредитном скоринге, строится модель, классифицирующая заёмщиков на «хороших» и «плохих».

Модели, основанные на марковских цепях

Марковские модели основаны на двух предположениях: во-первых, набор состояний действительно описывает всевозможные состояния, в которых может находиться заёмщик, и во-вторых, динамика изменения состояний действительно удовлетворяет марковскому свойству.

В качестве состояний обычно выбираются различные уровни задержки платежей, например, количество месяцев задержки. Переходные вероятности определяются по историческим данным.

Для построения более адекватной модели в состояние могут включаться дополнительные данные (о состоянии счёта, размере долга и т.п.). Другой подход состоит в сегментировании заёмщиков и последующем определении состояний для каждого сегмента.

Далее необходимо проверить справедливость марковского свойства для построенной модели. Для этого вычисляются частоты перехода i → j с частотами переходов i → k → j для любого состояния k, и затем по критерию χ2 проверяется гипотеза о совпадении этих распределений.

Даже если при выборе состояний использовалась дополнительная информация о клиентах или была произведена сегментация, марковское свойство может всё равно не выполняться. В таких случаях следует либо вернуться и определить другие состояния, либо рассмотреть цепь Маркова второго и более высокого порядков. Иными словами, в качестве нового состояния выбирается пара из текущего состояния и состояния на предыдущем периоде.

Это существенно увеличивает число состояний и возможных переходов, но за счёт того, что многие переходы невозможны, матрица переходных вероятностей будет разреженной.

Если и после этого марковское свойство нельзя считать выполненным, это может означать нестационарность моделируемого процесса. В этом случае состояние может зависеть от:

• текущего времени t;
• количества времени, в течение которого заёмщик является клиентом банка (s);
• различные экономические показатели, например, базовая процентная ставка r.

Далее необходимо оценить переходные вероятности pi,j(r,s,t), т.е. вероятность перемещения заёмщика из состояния i в состояние j, когда описанные выше параметры имеют значения r, s, t. Одной из реализованных на таком пути моделей была оценка переходных вероятностей pij(r,t):

pij(r,t) = pij0 + aijt + bijr,
Xpij0 = 1,                                pij0 > 0, Xaij = 0, Xbij = 0,                             pij(r,t) > 0.
j                                  j                                  j

При этом значениям коэффициентов aij, bij можно придать интерпретацию в терминах факторов, вызывающих задержки платежей.

Определение состояний: анализ пуассоновских смесей

Одним из подходов к выделению основных состояний заёмщиков является идентификация параметров смесей распределений, и в частности — пуассоновских смесей.

Предположим, что количество пропущенных платежей для каждого клиента является пуассоновским процессом с интенсивностью λi. Значение λi можно было бы использовать в качестве одной из составляющих, описывающих состояние клиента, если бы только можно было оценить её с достаточной достоверностью. Оценкой максимального правдоподобия является:


Однако такая оценка имеет слишком низкую статистическую значимость. Например, если клиент не пропустил ни одного платежа за 12 месяцев, это ещё не означает, что у него λi = 0. Если взять больший промежуток времени, то оценка становится более точной, но при этом нельзя забывать, что во-первым λi меняется со временем (это состояние заёмщика), а во-вторых, если конечной целью является построение марковской цепи и вычисление переходных вероятностей, то использовать большие промежутки времени для оценки λi не представляется возможным.

Пусть имеется портфель из N заёмщиков, тогда общим распределение числа неплатежей за единичный период времен