Издания и мероприятия для банковских специалистов:
 
Методический журнал
Риск-менеджмент в кредитной организации
Описание изданияСвежий номер Архив Приобрести/Подписаться
Выходит один раз в квартал
Объем 112 с
Издается с 2011 года
 
 

Two-forest jump: комбинированный отбор признаков с использованием двухлесового метода

Размещено на сайте 17.09.2020
Двухлесовый метод отбора признаков по сравнению с регрессионными методами показывает лучшее качество для нелинейных моделей и сопоставимое качество для линейных. При этом двухлесовый метод работает в десятки раз быстрее, что является важным преимуществом для решения современных практических задач моделирования, где используются большие высокоразмерные выборки. В статье описана методика комбинированного отбора признаков с использованием двухлесового метода, которая была разработана в банке «Ренессанс Кредит» и используется для разработки моделей.
 
Сергей АФАНАСЬЕВ, КБ «Ренессанс Кредит» (ООО), исполнительный директор, начальник управления статистического анализа
Диана КОТЕРЕВА, КБ «Ренессанс Кредит» (ООО), руководитель направления моделирования и оперативного анализа
Анастасия СМИРНОВА, КБ «Ренессанс Кредит» (ООО), начальник отдела разработки и анализа эффективности скоринговых систем
 
 
Приводятся извлечения из статьи. Полную версию материала читайте в журнале. Подписаться
 
 
Главным плюсом методов, основанных на алгоритмах случайного леса и градиентного бустинга, является их высокая точность.
Оценка качества данных на стадии моделирования может способствовать улучшению качества и стабильности модели. Методы анализа качества данных: разведочный анализ, анализ пропусков и неполноты данных, анализ аномалий и др.
Матрица корреляций хорошо подходит для первичной фильтрации признаков перед многофакторным анализом, в котором используются продвинутые методы.
Двухлесовый метод помогает решить проблему скорости и точности отбора признаков для высокоразмерных выборок.
Для проверки статистической значимости признаков можно использовать один из тестов: тест отношения правдоподобия, тест Вальда и тест множителей Лагранжа.
Несмотря на то что регуляризация сама является встроенным методом для отбора признаков, при хорошо отлаженной схеме предварительного отбора признаков регуляризация почти не влияет на финальное качество модели.
Схему отбора признаков можно представить в виде пошаговой воронки, в которой отражается количество оставшихся и удаленных признаков на каждом этапе отбора.
Комбинированная схема отбора, используемая в нашем банке, включает в себя проверку качества и стабильности признаков, одномерные методы-фильтры и многомерные методы-обертки.
 
 
 
 
Другие проекты ИД «Регламент»