Two-forest jump: комбинированный отбор признаков с использованием двухлесового метода
Размещено на сайте 17.09.2020
Двухлесовый метод отбора признаков по сравнению с регрессионными методами показывает лучшее качество для нелинейных моделей и сопоставимое качество для линейных. При этом двухлесовый метод работает в десятки раз быстрее, что является важным преимуществом для решения современных практических задач моделирования, где используются большие высокоразмерные выборки. В статье описана методика комбинированного отбора признаков с использованием двухлесового метода, которая была разработана в банке «Ренессанс Кредит» и используется для разработки моделей.
Сергей АФАНАСЬЕВ, КБ «Ренессанс Кредит» (ООО), исполнительный директор, начальник управления статистического анализа
Диана КОТЕРЕВА, КБ «Ренессанс Кредит» (ООО), руководитель направления моделирования и оперативного анализа
Анастасия СМИРНОВА, КБ «Ренессанс Кредит» (ООО), начальник отдела разработки и анализа эффективности скоринговых систем
Приводятся извлечения из статьи.
Полную версию материала читайте в журнале.
Подписаться
Главным плюсом методов, основанных на алгоритмах случайного леса и градиентного бустинга, является их высокая точность.
|
Оценка качества данных на стадии моделирования может способствовать улучшению качества и стабильности модели. Методы анализа качества данных: разведочный анализ, анализ пропусков и неполноты данных, анализ аномалий и др.
|
Матрица корреляций хорошо подходит для первичной фильтрации признаков перед многофакторным анализом, в котором используются продвинутые методы.
|
Двухлесовый метод помогает решить проблему скорости и точности отбора признаков для высокоразмерных выборок.
|
Для проверки статистической значимости признаков можно использовать один из тестов: тест отношения правдоподобия, тест Вальда и тест множителей Лагранжа.
|
Несмотря на то что регуляризация сама является встроенным методом для отбора признаков, при хорошо отлаженной схеме предварительного отбора признаков регуляризация почти не влияет на финальное качество модели.
|
Схему отбора признаков можно представить в виде пошаговой воронки, в которой отражается количество оставшихся и удаленных признаков на каждом этапе отбора.
|
Комбинированная схема отбора, используемая в нашем банке, включает в себя проверку качества и стабильности признаков, одномерные методы-фильтры и многомерные методы-обертки.
|