Метод построения рейтинговых таблиц

Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.

Самый часто используемый метод построения рейтинговых таблиц

Чаще всего для построения рейтинговых таблиц используется статистический метод логистической регрессии. Однако для объяснения этого подхода стоит начать с простой линейной регрессии, а потом перейти к логистической - как особого случая линейной.
В простейшем случае линейная регрессия пытается найти линейную связь между двумя переменными: X и К Переменная Y, которую пытаются спрогнозировать, определяется как зависимая (поскольку она зависит от X). Переменная X является объясняющей, поскольку она объясняет, почему У меняется от одного индивидуума к другому.
С помощью линейной регрессии пытаются выяснить следующее: если меняется X, то насколько вероятно, что в результате этого также изменится и К Для того чтобы это сделать, необходим набор данных, в котором можно наблюдать множество пар X и соответствующих ему К Когда они будут отложены на плоскости XY и будет получено некое множество, может оказаться, что оно ложится на некую прямую, т.е. есть определенная связь между X и Y, которую можно попытаться аппроксимировать с помощью уравнения:

Y = B_0 + B_1 x X_1

где
B_0 - это величина Y, когда X = 0;
B_1 - наклон прямой линии.

Эти В. являются коэффициентами регрессии. На практике, скорее всего, окажется несколько объясняющих переменных:

Y = B_0 + B_1 x X_1 + B_2 x X_2 + ... + B_n x X_n.

Логистическая регрессия в сравнении с линейной регрессией

При использовании скоринга, как правило, зависимая переменная принимает значения в очень небольшом диапазоне. Чаще всего работают с бинарной переменной, т.е. такой, которая принимает только два целых значения: так, например, по кредиту дефолт или произошел, или нет; клиент, получивший каталог по почте или ответил, или нет. Как правило, в таком случае дефолту приписывают значение 1, а выплаченному кредиту - значение 0.
Модель в итоге должна оценить вероятность дефолта по кредиту (или ответа клиента на каталог).
И хотя линейная модель иногда используется для расчета рейтинговой таблицы, логистическая регрессия оказывается много удобнее, поскольку она специально построена для случаев, когда зависимая переменная - бинарная (т.е. принимает, как мы уже говорили, только два значения).
Линейная регрессия может давать значения вероятности и меньше нуля, и больше единицы, что лишено смысла. Логистическая модель избегает этого, поскольку работает не с самим бинарным значением зависимой переменной, а с вероятностью или шансами (odds), что это значение действительно реализуется. Логарифм отношения вероятности реализации к вероятности нереализации называют логитом (logit), который может принимать любые значения, как отрицательные, так и положительные.

Поэтому для логитов вполне можно использовать модель линейной регрессии (отсюда и название логистическая).
В модели логистической регрессии объясняющие переменные, умноженные на свои коэффициенты, предполагаются линейными по отношению не к Y, как в линейной регрессии, а к логиту - натуральному логарифму отношения шансов:

ln (p/(1 - p)) = B_0 + B_1 x X_1 + B_2 x B_2 + X_2 + ... + B_n x X_n,

где
р - вероятность того, что V произойдет;
р/(1 - р) - отношение шансов.

Шансы и соотношение шансов

Соотношение шансов позволяет сравнивать уровни рисков для разных кредитов. Так, если для одного р1/(1 - p_1) = 0,11, а для другого р2/(1 - р2) = 0,052, то их отношение составит 0,46, т.е. риск невозврата по одному кредиту составляет чуть меньше половины риска невозврата по второму кредиту.
Самые важные выводы из этого следующие: необходимо получать сами шансы и их отношения для разных кредитов из логистических регрессий, т.к. только так удается прямо сопоставить и учесть как влияние отдельных характеристик на уровень риска, так и относительный риск одного кредита по отношению к другому. Попытки обойтись одной рейтинговой таблицей не позволяют оценить рисковость одного кредита относительно другого в силу возможного влияния характеристик, которые были учтены для одного и не учтены для другого.

Вычисление относительных весов отдельных характеристик рейтинговой таблицы

Построив и оценив логистическую модель, можно подставить величины X для любого заявителя или кредита и вычислить счет (score), используя уравнение:

счет = В_1 х Х_1 + ... + В_n х Х_n.

Однако этот счет представлен в шкале натуральных логарифмов, что неудобно для интерпретации. Поэтому счет переводится в линейную шкалу, где определенное число баллов выбирается так, чтобы это число обеспечивало удвоение шансов того, что определенное событие произойдет. Для этого необходимо умножить счет на множитель, равный числу баллов, которое должно представлять удвоение шансов, а затем поделить на 1n(2):

счет по линейной шкале = (В_1 х Х_1 + ... + В_n х Х_n) х (20/1n(2)),

если желаемое число баллов, необходимое для удвоения шансов, равно 20.
Иначе, если надо узнать, сколько именно баллов дает каждая характеристика, можно умножить каждое В_1 на (20/(1n(2)), а затем умножить на значение параметра X_1.

Использование КС-статистики для оценки полученной рейтинговой таблицы

Скоринговая таблица конструируется так, чтобы ранжировать различные кредиты в терминах шансов по отношению к определенному событию. Необходимо, чтобы такая скоринговая таблица приписывала кредитам, с которыми происходит некое событие, и кредитам, с которыми оно не происходит, различные счета.
Например, кредитная скоринговая таблица (скоринговая карта) приписывает меньший счет тем кредитам, которые впоследствии испытают серьезные трудности с возвратом или перейдут в дефолт, так что в целом группа плохих кредитов должна иметь меньшие счета, чем группа хороших кредитов.
Для определения качества полученной таблицы строятся графики - кривые распределения процентов хороших и процентов плохих кредитов (от соответствующего общего числа хороших и плохих) в зависимости от величины счета, и качество скоринговой таблицы (карты) характеризуется тем, насколько эти две кривые разделяются.
Именно для численного определения качества разделения и используется статистика Колмогорова-Смирнова (K-S statistics), которая дает числовую меру этого разделения. Статистика КС вычисляется просто: это максимум разности между кумулятивным процентом распределения хороших и кумулятивным процентом распределения плохих. Теоретически статистика КС может принимать значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица;
61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то неправильно*(128).
Следует отметить, что качество скоринговых моделей следует постоянно проверять и мониторинг является обязательной процедурой в процессе эксплуатации. Со временем могут меняться как экономические условия, так и поведенческие особенности заемщиков, и только своевременная подстройка или даже замена скоринговых моделей обеспечат эффективное управление кредитными рисками.

Скоринг и мошенничество

Скоринг помогает не только в управлении рисками невозврата в случае дефолта клиента, но он также используется для задач выявления и предотвращения мошенничества.
Следует подчеркнуть, что (по доступным оценкам) примерно половина невозвратов обусловлена дефолтом, и для контроля этих рисков используются методы кредитного скоринга, а другая половина - мошенничеством, и для снижения этих рисков также используются скоринговые методы.
Мошенничество при кредитовании можно разделить на две категории:
1) мошенничество при попытке получить кредит (происходящее при подаче заявления);
2) мошенничество, происходящее в процессе использования и погашения кредита.
Второе чаще связано с кражей или самой карты, или ее данных для последующего использования в преступных целях. Соответственно методы и выявления, и предотвращения при рассмотрении заявления отличаются от методов, используемых для контроля использования карты и выполняемых по ней транзакций.
Мошенничество, происходящее во время подачи заявления на кредит, подразделяется на мягкое (soft) и жесткое (hard).
В случае мягкого мошенничества заявители, как правило, используют свое настоящее имя, чаще всего они уже подавали заявки на кредит, но получили отказ, зачастую из-за их неспособности расплатиться. И они манипулируют своими данными так, чтобы выглядеть более основательно (старше, выше доход, более продолжительное проживание по данному адресу; сокрытие адресов, по которым они проживали, когда у них были проблемы - например с выплатой).

Интересные записи

Содержание раздела

Главная сайта