Метод бинарной логистической регрессии в банковском скоринге
Размещено на сайте 31.05.2012
В этом номере мы завершаем публикацию, посвященную применению метода логистической регрессии для построения скоринговых моделей1. В прошлый раз речь шла об описании метода, подготовке данных и построении регрессионного уравнения. Во второй части статьи мы остановимся на работе с прогнозами и валидации модели, подробно рассмотрим ROC-анализ для оценки прогностической эффективности модели.
А.В. Груздев, исследовательская компания «Гевисста», директор
Приводятся извлечения из статьи.
Полную версию материала читайте в журнале.
Подписаться
Дискриминантная и регрессионная модели дают в целом схожие оценки кредитоспособности потенциального клиента. Однако на практике это выполняется далеко не для всех наблюдений.
|
По умолчанию лучшей считается та модель, которая корректно классифицирует больший процент наблюдений в обучающей и проверочной выборках. Нужно помнить, что результаты классификации по обучающей выборке могут быть излишне оптимистичными.
|
Всегда важно определять оптимальный уровень точности классификации, при котором возможно наилучшее качество обобщения.
|
ROC-анализ (Receiver Operating Characteristic) — это анализ прогностической эффективности модели. В качестве модели выступает бинарный классификатор. В нашем случае ROC-кривая используется для оценки результатов классификации, выданных моделью логистической регрессии.
|
Достоверность модели включает два компонента: чувствительность и специфичность. Чувствительность (Sensitivity) измеряется долей истинно положительных результатов, специфичность (Specificity) — долей истинно отрицательных результатов.
|
Выбор оптимального порога отсечения (cutoff value) для разделения «хороших» и «плохих» заемщиков зависит от того, какая задача стоит перед кредитным специалистом. Он определяет, какова будет цена совершения ошибки I рода (цена отнесения «плохого» заемщика к «хорошим») и ошибки II рода (цена отнесения «хорошего» заемщика к «плохим»).
|
Метод бинарной логистической регрессии позволил нам построить модель, которая классифицировала заемщиков как «хороших» и «плохих». Точность классификации заемщиков в обучающей выборке составила 82%.
|
Применение ROC-анализа лишний раз демонстрирует нам, что ни один метод анализа практически никогда не даст нам модели со 100%‑ной чувствительностью и 100%‑ной специфичностью. Чем больше чувствительность, тем меньше специфичность, и наоборот.
|