Сервисы
Моя страница
|   Банковские новости  |   Видео-новости  |   Статьи и аналитика  |   Релизы банков  |   Новости рынка  |   Архив новостей  |   Интернет-конференции  |

06-01-09 Курс НБУ  
USD 100 770.00 0.000 0.00%
EUR 100 1045.81 -39.732 -3.80%
10 2.62 -0.001 -0.04%



 

Новости рынка

 

 

Рейтинг Видео-новостей

 

 

Финансовая аналитика

Анализ отклоненных заявок в кредитных операциях: теория и методы

 

 

В данной главе рассматривается проблема анализа отклоненных заявок в процессе выдачи кредита. Основное внимание уделено вопросу о том, как правильно учесть клиентов, которым ранее было отказано в кредите, например при попытке построения новой скоринговой карты.

Анализ отклоненных заявок — важный этап в приложениях кредитного скоринга. Имеющаяся скоринговая карта с течением времени ухудшается (по мере роста генеральной совокупности заявителей, под действием новых маркетинговых стратегий, изменений в конкурирующих продуктах и т. д.), поэтому ее необходимо обновлять. Однако база данных, находящаяся в распоряжении для разработки новой карты, неполная. Она состоит из сведений по всем заявителям, но выходной показатель «хороший/плохой» доступен только по тем клиентам, которым был выдан кредит, — в случае если их сумма баллов превысила некоторое пороговое значение в предыдущей скоринговой карте или они были выбраны по решению эксперта, пересмотревшего низкий балл скоринговой карты. Достаточно очевидно, и данный факт подтверждается некоторыми исследованиями, что построение скоринговой карты лишь на основе сведений по выданным кредитам
с большой степенью вероятности приведет к погрешностям при ее применении ко всей генеральной совокупности заявителей. С другой стороны, отсутствие информации о принадлежности заявителей, которым было отказано в кредите, к классу «хороший» или «плохой» не дает возможности установить взаимосвязи между характеристиками, необходимыми для создания скоринговой карты, и значение целевой переменной «хороший/плохой». Такая дилемма способна привести к серьезным последствиям.
Ниже описаны методы решения данной проблемы. Акцент намеренно сделан на основной задаче без учета осложняющих факторов, таких как клиенты, получившие одобрение на выдачу кредита, но пока не воспользовавшиеся им; клиенты, взявшие кредит, но не достигшие конца срока погашения (то есть будучи хорошими на текущий момент, могут стать плохими в дальнейшем), и т. д. На практике скоринговую карту необходимо создавать с учетом перечисленных факторов.
В первой части главы обсуждаются модели, используемые в кредитном скоринге, и типы данных, в отношении которых они применяются.
МОДЕЛИ
Главная модель, лежащая в основе решения касательно выдачи кредита или отказа в нем, понятна: информация, доступная из формы заявки или записей о поведении клиента в прошлом, сравнивается с подобными сведениями о предыдущих заявителях, результат по которым известен. Обычно данные о них обобщаются в прогнозирующей статистической модели — скоринговой карте. Применение модели в отношении известной информации о новом потенциальном клиенте дает возможность оценить вероятность того, что связанный с ним риск (или определенная сумма баллов, связанная с этой вероятностью) будет оправданным. Решение принимается через сопоставление такого предположительного скоринга кредитоспособности с некоторым пороговым значением. Анализ подобных моделей в рамках кредитного скоринга предложен Розенбергом и Глэйтом (Rosenberg, 1994), Хэндом и Хэнли (Hand, 1997) и Томасом (Thomas, 1998); обзор методов в целом приведен в исследовании Хэнда (Hand, 1997).
C целью анализа применяются разные статистические методы: классические — линейный дискриминантный анализ, множественная линейная регрессия и логистическая регрессия, а также более новые — нейронные сети, методы рекуррентного разбиения (на основе дерева решений) и непараметрические методы ближайшего соседа. Результаты сравнительных исследований публикуются редко, однако наличие коммерческих ограничений свидетельствует о том, что они проводятся достаточно часто. Практический опыт сравнительного анализа моделей кредитного скоринга показывает, что более сложные современные методы обычно не обладают значительным преимуществом по сравнению со старыми и более простыми (однако данное обобщение не всегда применимо в ситуациях, отличных от кредитного скоринга). Некоторые исследования говорят о том, что комплексные и гибкие методы работают лучше, в то время как другие утверждают обратное. Подобные результаты заставляют задуматься, что именно в данных кредитного скоринга подрывает теоретические преимущества сложных современных (обычно компьютеризированных) инструментов.
Существует несколько объяснений. Первое состоит в том, что во многих случаях просто невозможно провести четкое разделение классов хорошего и плохого уровней риска, то есть в настоящий момент поведение клиента не склоняется к совершенной крайности, его можно отнести к обеим категориям. Более подробно данный вопрос рассмат­ривается ниже. Второе объяснение заключается в том, что специалис­ты работают с кредитными сведениями много лет, характеристики и их комбинации, разделяющие два класса, хорошо известны, поэтому практически не существует неизвестной информации, которую новые методы могли бы открыть. Но исключения все же есть. Тот факт, что незначительное улучшение прогнозной способности может вылиться в большие суммы денег, подчеркивает важность продолжения экспериментальной работы.
ДАННЫЕ
Многие классические работы по статистике основаны на идеализированной модели, которая использует «чистые» совокупности данных
небольшого размера, полученные путем случайного отбора. Кредитные сведения, как правило, далеки от идеальных. Обычно наборы данных объемны и вмещают сотни тысяч или миллионы записей, что вызывает определенные трудности. Некоторые проблемы — организационного плана (как удобнее хранить и получать доступ к данным), другие носят фундаментальный характер (как получить оценки, если не вся информация может поместиться в памяти компьютера; что делать со статистически чрезвычайно важными эффектами, которые, тем не менее, очень слабо выражены).
Кредитные наборы данных обычно не отличаются «чистотой» и могут включать аномальные значения или эффекты, которые тяжело объяснить. К примеру, возможна ситуация, когда характеристика, включенная в скоринговую карту, вообще не прослеживается ни по одному заявителю в определенном году (при этом запись гласит: «не задано»). Маловероятно, что все заявители отказались предоставить сведения. Ошибка привела к разнице в несколько баллов по значению скоринговой карты для клиентов в том году, причем эта разница посчиталась серьезной теми, кто использовал данную карту, что могло повлечь за собой отказ некоторым заявителям, которые должны были получить кредит.
Кредитные данные редко являются статичными. Зачастую они со временем увеличиваются, изменяются посредством введения сведений по новому клиенту и удаления старых данных. В большинстве работ по статистическому прогнозирующему моделированию исходное условие заключается в том, что задача модели — спрогнозировать качества (в данном случае кредитоспособность) новых субъектов, подчиненных тому же закону распределения (и независимых), что и заем­щики, по которым была построена скоринговая карта. Однако цель работы с кредитами — предсказать свойства субъекта, которые будут получены в будущем. В случае когда распределение значительно изменяется со временем, модель может деградировать, если не принять данный факт к сведению. Таким образом, скоринговая карта усложняется за счет членов более высокого порядка и динамических составляющих, которые редко рассматриваются в статистических моделях.
Данный феномен более подробно описан Келли, Хэндом и Адамсом (Kelly, 1999). Они отметили, что смещение генеральной совокупности может происходить в трех направлениях. Пусть х обозначает вектор переменных, описывающий клиента (к примеру, х может быть информацией в стандартном заявлении на кредит), i — это класс, принимающий значение gдля хороших и bдля плохих клиентов. Тогда структура генеральной совокупности может измениться, поскольку, во-первых, меняются соотношения плохих и хороших (изменятся вероятности f(i)); во-вторых, меняются распределения хороших и плохих (изменятся условные вероятности f(x|i)); в-третьих, меняются апостериорные вероятности членства в классе в зависимости от определенных характеристик клиента — f(i|x).
Эти три распределения вероятностей взаимосвязаны: ни одно не может преобразоваться, не затронув других. Однако в рамках кредитного скоринга значимы только перемены в f(i|x).
Одно из следствий рассмотренного выше явления выражено в том, что если все переменные, влияющие на кредитоспособность, включены в х, то изменения в распределении х не повлияют на f(i|x). Ценность данного наблюдения ограничена, поскольку на практике невозможно гарантировать, что х включает все подобные переменные. Отметив это, Келли, Хэнд и Адамс (Kelly, 1999) представили несколько наборов реальных данных по персональным кредитам без обеспечения, в которых смещение распределения х значительно, а смещение f(i|x) мало. По всей видимости, реальное и достаточно заметное смещение генеральной совокупности может не оказывать сильного влияния на аппарат кредитного скоринга.
Выделение отдельных категорий демонстрирует степень наложения распределения хороших и плохих классов друг на друга. Особенность кредитных данных, которую часто недооценивают, состоит в том, что классы задаются путем разделения одного или нескольких основных непрерывных показателей. К примеру, категория «плохие» может включать клиентов, имеющих задолженность по погашению кредита более 4 месяцев. В данном случае продолжительность срока существования задолженности разбивается для определения двух классов. Следующие примеры приведены Келли и Хэндом (Kelly, 1999), а также Хэндом, Ли и Адамсом (Hand, 2000). Если переменные х не обладают достаточной прогнозирующей способностью по отношению к основным непрерывным переменным, то категории, выделяемые на основе их разделения, будут значительно перекрываться.
Наконец, наборы кредитных данных редко бывают получены посредством случайного отбора на основе какой-либо хорошо определенной генеральной совокупности существующих или потенциальных клиентов. Нередко используется вся генеральная совокупность, к примеру все клиенты, подавшие заявку на кредит за определенный период времени. В данном случае возникает вопрос о процессе построения статистической модели. Проблема заключается не в распространении результатов, полученных по выборке, на всю генеральную совокупность (и на отдельных индивидуумов в данной совокупности), а в прогнозировании.
Тот факт, что доступные для анализа наборы информации могли быть получены посредством какого-то специального и неслучайного отбора из генеральной совокупности, которую необходимо проанализировать, лишь усложняет процесс. К примеру, Хэнд, МакКонвей и Стангеллини (Hand, 1997) описывают исследование по опросу потенциальных клиентов путем почтовых отправлений, на которые отреагировали не все. Те, кто ответил, оценивались на предмет кредитоспособности, в результате чего некоторым из них предоставлялся кредит. Получившим высокие баллы поступило предложение о кредите, на что одни клиенты согласились, а другие — нет. Далее за теми, кто взял кредит, велось наблюдение с целью оценить их как хороших или плохих. На каждом из описанных этапов бралось подмножество, причем неслучайное. Трудности возникают, когда требуется распространить выводы по доступным сведениям на большую совокупность, из которой были взяты эти данные.
В этом и состоит задача анализа отклоненных заявок. В частности, она характеризует проблему анализа хороших/плохих свойств тех клиентов, кто не получил кредит (кому было отказано в нем). Результатом успешного анализа является описание всей генеральной совокупности людей, подавших заявку на кредит, на основе которого затем можно построить статистические модели для данного набора сведений.
МАТЕМАТИКА АНАЛИЗА ОТКЛОНЕННЫХ ЗАЯВОК
Пусть f(g|x) — вероятность того, что заявитель с вектором характеристик х (например, пункты заявки) находится в категории хороших (банк хотел бы предложить ему кредит). Обозначив событие, состоящее в том, что известен действительный класс клиента (заявка была одобрена на более ранней стадии), как а, а комплементарное событие, состоящее в том, что класс заемщика неизвестен (заявка была отклонена ранее), как r, получим:
f(g|x) = f(g|xaf(a|x) + f(g|xrf(r|x) =
                     = f(g|xa) [1 – f(r|x)] + f(g|xrf(r|x).                    (11.1)
В данном выражении член f(a|x)задает вероятность того, что заявка клиента утверждена более ранней скоринговой картой, следовательно, она может быть оценена по имеющимся данным. Член f(g|xa)также учитывает только информацию о клиентах с заявками, одобренными по более ранней скоринговой карте, которые могут быть охарактеризованы. Однако член f(g|xr)определяет вероятность того, что клиент, которому было отказано в кредите (с вектором характеристик х), является хорошим, а данный факт нельзя оценить по имеющимся сведениям. В этом и заключается трудность анализа отклоненных заявок.
Ниже описываются некоторые способы определения значения f(g|xr). Среди них — предположение, что f(g|xr) = f(g|xa),применение экстремумов всего диапазона возможных значений f(g|xr),а также использование значения разработанной ранее скоринговой карты, которое привело к отклонению заявки. Применение данных методов зависит от конкретной ситуации, ни один из них не является идеальным, у всех имеются серьезные недостатки.
ЭКСТРАПОЛЯЦИЯ И СМЕЩЕНИЕ
В целях четкого разграничения оригинальной и новой, более точной, скоринговой карты необходимо ввести некоторые определения. Оригинальная скоринговая карта — та, которая используется для принятия исходного решения об утверждении или отклонении заявки и благодаря которой становятся известными действительные категории «хороший/плохой» для множества утвержденных, но не отклоненных заявок. Новая скоринговая карта — та, которая разрабатывается в нас­тоящий момент. Пусть Х обозначает набор характеристик, используемых в оригинальной скоринговой карте, а Y — характеристики, которые будут применены в новой скоринговой карте.
Теперь можно продемонстрировать различие между двумя ситуациями. В первой X  принадлежит Y, то есть новый набор параметров включает все характеристики оригинального набора или большее их количество. Во второй X не принадлежит Y,то есть в оригинальной выборке были характеристики, не включенные в Y(например, возраст).
Предполагается, что это нетипичная ситуация, поскольку всегда имеется информация по Х (иначе как могли отклоняться заявки клиен­тов?) и ее можно включить в Y. В действительности, существуют несколько вариантов, при которых может быть X не принадлежит Y. Возможно, ранняя информация просто не сохранялась или при принятии решения точные сведения по характеристике подтверждались незарегистрированными данными. Это происходит, если допускаются пересмотры. К примеру, семейный врач может получить высокий скоринговый балл, таким образом, предполагается, что он кредитоспособен. Однако если доктор находится в тюрьме — информация, которая скорее всего не фигурирует в данных, вносимых в оригинальную скоринговую карту, — то будет иметь место пересмотр. Шумейкер (Shoemaker, 1998) описывает использование рекомендаций банка в дополнение к набору характеристик оригинальной скоринговой карты.
На основе скоринговой карты, построенной на оригинальном наборе характеристик Х, было выведено правило классификации, которое разделило совокупность возможных значений характеристик на два класса: «утвержденные» и «отклоненные». В первой из вышеописанных ситуацийнабор возможных значений для используемых характеристик в новой скоринговой карте также будет разделен, так как X принадлежит Y. Однако во втором случае вероятно, что каждое значение, определенное совокупностью новых характеристик, связано с какими-либо утвержденными (и отклоненными) заявками. То есть в первой ситуации не имеется никакой информации о соотношении хороших и плохих для некоторых значений Y (связанных с предыдущими отказами), в то время как во второй есть сведения о соотношении хороших и плохих для всех возможных значений Y, но только для утвержденных заявок. При этом ничего не известно о соотношении хороших и плохих для значений отклоненных заявок.
В первом случае (X принадлежит Y) можно экстраполировать состояние отклоненных заявок по примеру утвержденных, подкорректировав модель оценки вероятности того, что клиент будет хорошим, для прогноза состояния принятых заявок и распространив ее на множество заявок, которые не были удовлетворены. Эффективность данного подхода зависит от ряда факторов. Методы экстраполяции основаны на непроверяемом предположении, что модель, наблюдаемая в тех областях, где это возможно, распространяется также и на другие сферы. Если существует незначительное число отклоненных заявок, то есть относительно мало заявителей имеют характеристики, приведшие к отказу, то экстраполяция может обладать приемлемой точностью. Если наборы данных настолько малы, что даже при помощи сведений об утвержденных заявках нельзя построить достаточно эффективную модель, то шансы провести точную экстраполяцию для выявления состояния отклоненных заявок невелики.

Комментарии ()

Количество просмотров: 
Рейтинг: 

 

Новости данной категории