4. Построение модели:
После проведения разведочного анализа данных приходит время строить прогнозные модели с помощью машинного обучения. В наборе данных мы используем признаки-предикторы, чтобы делать прогнозы по целевой переменной.
Цель: зависимая переменная, значения которой нужно предсказать.
Предикторы: независимые признаки в наборе данных, которые используются для предсказания значения целевой переменной. Как только определена цель, все остальные столбцы становятся предикторами.
Здесь мы рассматриваем модель как калькулятор, который получает входные данные и выдает предсказанный результат. В зависимости от задачи может понадобиться построить модель регрессии или классификации.
Алгоритмы регрессии, такие как простая линейная регрессия, множественная линейная регрессия, регрессия на основе решающего дерева и т.п., могут применяться для получения нужных результатов. Такие модели используются, когда цель — числовой признак.
Пример: прогнозирование цен на жилье
Модели классификации применяются, когда цель — категориальный признак; задачи классификации могут быть бинарными или многоклассовыми.
Бинарная классификация: у цели только две возможные категории.
Многоклассовая классификация: у цели больше двух возможных категорий.
Кроме этого, при необходимости можно использовать алгоритмы обучения без учителя, такие как кластеризация и ассоциативные правила.
5. Оценка модели:
Когда модель построена, следующий этап — проанализировать её качество. Оценка модели в разных сценариях и по разным параметрам помогает выбрать «наиболее эффективную» модель для решения поставленной задачи. Обычно используют одну или несколько метрик, чтобы понять, насколько хорошо работает модель.
Для моделей регрессии: среднеквадратичная ошибка (MSE), корень из среднеквадратичной ошибки (RMSE), коэффициент детерминации (R2 Score)
Для моделей классификации: F2-score, матрица ошибок, точность (Precision), полнота (Recall), AUC-ROC
6. Внедрение модели:
Теперь, когда модель построена, протестирована и оценена, её нужно передать заинтересованной стороне. Внедрение модели означает размещение её в реальном приложении для использования по назначению. Это можно сделать, применяя модель в программном приложении, интегрируя её в устройство, строя вокруг неё программный каркас или используя саму модель как «продукт данных».