Проекты Data Science, как видно из названия, содержат научную составляющую. Обычно она выражается в создании модели, которая описывает связь между целевой переменной (стоимость товара, вероятность дефекта, или покупки) и доступными данными (информацией о покупках, качестве исходных материалов и так далее).
Исследование может быть как успешным — создана модель хорошего качества — так и неудачным, когда не удается найти связь между данными и целевой переменной.
Говоря языком бизнеса, быстрое прототипирование снижает риски затрат при неудачном проекте. Это главная, но не единственная задача. Еще одна, хоть и менее заметная, но более важная задача — проверка готовности процессов к использованию модели машинного обучения.
Рассмотрим на примере одного из проектов. Успешно создав прогностическую модель на предприятии и перейдя к эксплуатации, мы столкнулись с проблемой: данные, необходимые для прогноза, недоступны в нужный момент. Это связано с архитектурой хранилища и выгрузками, изменение которых сильно увеличило бы стоимость проекта. Такую проблему можно было выявить гораздо раньше и решить с меньшими затратами, если бы мы знали о ней при создании системы.
Таким образом, список целей для прототипирования включает в себя:
При создании прототипа стоит обратить внимание на следующее:
Создание прототипа — быстрая модель всего процесса — позволяет оценить потенциальный эффект решения и увидеть его слабые места, чтобы впоследствии их скорректировать при реализации проекта.
Построить прототип модели несложно, если поставить бизнес-задачу и учитывать только «хорошие» данные, которые можно объяснить и проанализировать. Кроме того, важно определить сферу применимости системы и условия, которые будут учитываться.
По опыту Softline Digital, быстрое прототипирование занимает от пары дней до недели. Модель строится с учетом необходимых данных. Когда прототип готов — добавляется простая визуализация, чтобы заказчик видел данные, прогнозы и процесс построения графиков.
Для проверки эффективности работы системы предоставляются реальные данные, благодаря чему можно понять, насколько точно работает модель и какие решения можно принять на их основе.
Если система не сразу работает идеально, есть возможность разобраться и что-то доработать. Для этого и используется быстрое прототипирование. Образец работающей модели демонстрирует все возможности системы, что позволяет сделать выводы об ее эффективности.
Прототип дает понять, какие данные важны для корректности вычислений и прогнозов, чтобы проверить адекватность модели и понять, как можно улучшать систему. Таким образом, технология быстрого прототипирования позволяет подойти к процессу внедрения машинного обучения более осмысленно и гарантированно получить успешный результат.