Model-Centric vs Data-Centric подходы в ML Существуют разные — @mltochka

4.3Kпросмотров

25 ноября 2025 г.

Score: 4.8K

Model-Centric vs Data-Centric подходы в ML Существуют разные подходы к улучшению ML-моделей. Предположим, у нас есть классификатор эмоций и мы хотим поднять метрики. Что можно сделать: 📌 Поменять подход к обучению — поиграть с архитектурой, претрейнами, оптимизаторами. 📌 Поработать с данными — проверить датасет, пересмотреть разметку, найти шум и ошибки. 📌 Или в совсем отказаться от классической ML-модели и попробовать скормить всё LLM, надеясь на zero/few-shot способности модели. Большинство инженеров выбирают первые два варианта. Но, как показывает практика, именно поиск ошибок в датасетах и улучшение качества данных даёт наиболее ощутимый прирост. Andrew Ng из DeepLearning.AI в одном из своих выступлений на примере задачи с детекцией дефектов на поверхности показывал, что: 📎 Если улучшать модель или подход к обучению, то мы не заметим улучшение качества, или оно будет минимальным. 📎 Если работать с данными, то мы увидим значимый прирост качества. Поэтому, в ситуации с низкими метриками есть смысл тратить меньше времени на моделирование и эксперименты, и больше — на подготовку данных. В следующем посте — подробнее про асессорскую разметку и оценку её качества.

Другие посты @mltochka