Стратегии проверки моделей в Python
Размещено на сайте 13.08.2019
Мы открываем цикл публикаций, посвященных одной из самых сложных проблем машинного обучения — проверке модели. В статье на практических примерах показано, как формировать обучающую и тестовую выборки, стандартизировать переменные, строить модель логистической регрессии, проводить k-блочную перекрестную проверку при помощи библиотеки scikit-learn.
Артем ГРУЗДЕВ, ИЦ «ГЕВИССТА», директор по науке
Приводятся извлечения из статьи.
Полную версию материала читайте в журнале.
Подписаться
Для моделей помимо понятия «параметр» есть понятие «гиперпараметр». Параметры мы находим при обучении модели. А вот гиперпараметры нельзя «выучить» в процессе обучения: их задают перед обучением модели и настраивают на тестовой выборке.
|
Если при предварительной обработке мы используем операции, предполагающие вычисления по набору данных, мы должны проводить эти операции после разбиения на обучающую и тестовую выборки.
|
При преобразовании с помощью статистик всегда используйте статистики, вычисленные в обучающей выборке.
|
Нельзя отдельно вычислить статистики для импутации на обучающем наборе, а затем для импутации на тестовом наборе и использовать эти значения для импутации переменной в соответствующем наборе.
|
Стандартизация приводит количественные независимые переменные к единому масштабу. Если не привести признаки к единому масштабу, то прогноз будут определять признаки, имеющие наибольший разряд и соответственно наибольшую дисперсию.
|
Случайное разбиение на обучающую и тестовую выборки можно применять только тогда, когда наша задача заключается в том, чтобы построить базовую модель машинного обучения, не прибегая к оптимизации гиперпараметров.
|