Издания и мероприятия для банковских специалистов:
 
Методический журнал
Риск-менеджмент в кредитной организации
Описание изданияСвежий номер Архив Приобрести/Подписаться
Выходит один раз в квартал
Объем 112 с
Издается с 2011 года
 
 

Стратегии проверки моделей в Python

Размещено на сайте 13.08.2019
Мы открываем цикл публикаций, посвященных одной из самых сложных проблем машинного обучения — проверке модели. В статье на практических примерах показано, как формировать обучающую и тестовую выборки, стандартизировать переменные, строить модель логистической регрессии, проводить k-блочную перекрестную проверку при помощи библиотеки scikit-learn.
 
Артем ГРУЗДЕВ, ИЦ «ГЕВИССТА», директор по науке
 
 
Приводятся извлечения из статьи. Полную версию материала читайте в журнале. Подписаться
 
 
Для моделей помимо понятия «параметр» есть понятие «гиперпараметр». Параметры мы находим при обучении модели. А вот гиперпараметры нельзя «выучить» в процессе обучения: их задают перед обучением модели и настраивают на тестовой выборке.
Если при предвари­тельной обработке мы используем операции, предполагающие вычисления по набору данных, мы должны проводить эти операции после разбиения на обучающую и тестовую выборки.
При преобразовании с помощью статистик всегда используйте статистики, вычисленные в обучающей выборке.
Нельзя отдельно вычислить статистики для импутации на обучающем наборе, а затем для импутации на тестовом наборе и использовать эти значения для импутации переменной в соответствующем наборе.
Стандартизация приводит количественные независимые переменные к единому масштабу. Если не привести признаки к единому масштабу, то прогноз будут определять признаки, имеющие наибольший разряд и соответственно наибольшую дисперсию.
Случайное разбиение на обучающую и тестовую выборки можно применять только тогда, когда наша задача заключается в том, чтобы построить базовую модель машинного обучения, не прибегая к оптимизации гиперпараметров.
 
 
 
 
Другие проекты ИД «Регламент»