Описание издания | Свежий номер | Архив | Приобрести/Подписаться |
Источники модельного риска в банковском скорингеВ данной статье мы продолжим разговор об источниках модельного риска. Почему вредна категоризация количественных независимых переменных? Какие преобразования переменных допустимы, а какие нет? С какими трудностями сопряжено применение алгоритмов «черного ящика» в банковском скоринге? Какую модель выбрать, когда точность построенных альтернативных моделей одинакова (доверительные интервалы AUC, Gini перекрываются)? Ошибки оцениванияВ предыдущей статье[1] мы рассказали о недостатках метода пошаговой регрессии, применяемого для построения скоринговых моделей. Другой, не менее распространенной, ошибкой оценивания является не всегда оправданная категоризация количественных независимых переменных. Для количественных независимых переменных категоризация[2] — это разбивка диапазона значений переменной на категории. Например, переменную «Возраст» с диапазоном значений от 20 до 70 лет можно разбить на категории: от 18 до 30 лет, от 31 года до 50 лет, от 51 года до 70 лет. Для категориальных независимых переменных категоризация — это переназначение (группировка) исходных категорий переменной. Например, есть переменная «Возраст» с категориями: от 18 до 25 лет, от 26 до 35 лет, от 36 до 45 лет, от 46 до 55 лет, от 56 до 65 лет. Категории можно укрупнить, из пяти категорий сделав три: от 18 до 35 лет, от 36 до 55 лет, 56 лет и старше. Фрэнк Харрелл называет категоризацию количественных переменных «величайшим из всех зол, которые происходят при анализе данных»[3]. Он приводит 13 причин, по которым не следует проводить категоризацию количественных независимых переменных[4]. Выделим главные: — потеря прогностической силы и точности полученных оценок параметров, отношений шансов и т.д.; — некорректность предположения о том, что зависимость между предиктором и откликом внутри интервалов является монотонной (Ф. Харрелл пишет о том, что это предположение еще менее разумно, чем предположение о линейности); — субъективизм категоризации. По словам Ф. Харрелла, если нескольким исследователям предложить категоризировать переменную, они выберут разные границы интервалов. При разбиении всего диапазона значений переменной на интервалы (квантили) первый и последний интервалы будут очень широкими, потому что плотность распределения в них низкая. После биннинга p-значения и доверительные интервалы неизвестно как считать, потому что переменная после биннинга распределена совершенно ненормально, особенно если для выбора границ диапазонов использовалось значение зависимой переменной, то есть информация «из будущего». Вместо категоризации Ф. Харрелл предлагает использовать для предикторов кубические сплайны с ограничениями (регрессионный сплайн, кусочный кубический полином), а также методы категоризации, применяющие стандартные техники проверки статистического вывода на основе p-значений и доверительных интервалов. Одним из таких методов категоризации являетcя алгоритм построения деревьев решений CHAID. Данный алгоритм позволяет получать категории независимых переменных так, чтобы максимизировать их взаимосвязь с целевой переменной. Для этого используется тест хи-квадрат. CHAID выявляет категории входных переменных, которые статистически значимо не отличаются между собой по влиянию на целевую переменную (p > 0,05), и объединяет их. Категории входных переменных, которые статистически значимо отличаются между собой по влиянию на целевую переменную (p < 0,05), рассматриваются как отдельные. Тем не менее, категоризация с использованием CHAID все равно приводит к некоторой потере дискриминирующей способности. Пример 1У нас есть файл bankloan.sav[5]. Он содержит семь количественных независимых переменных (age, employ, address, income, debtinc, creddebt и othdebt) и одну зависимую переменную default. Воспользуемся статистическим пакетом IBM SPSS Statistics и приведем конкретный пример того, как категоризация снижает дискриминирующую способность. Сначала мы построим... Приводятся извлечения из статьи.
Полную версию материала читайте в журнале. Подписаться |