2.2Kпросмотров
30 августа 2023 г.
📷 ФотоScore: 2.4K
Добрый день, друзья! Сегодня на просторах форума Kaggle наткнулся на данное сообщение/материал касаемо кросс-валидации. Это действительно проблема, так как некоторые разработчики недооценивают важность правильной валидации (в частности, кросс-валидации), мол это долго и бесполезно (как написано на фото). В действительности все наоборот:
- Когда вы проверяете модель на разных данных (фолдах), то тем самым вы избегаете переобучения под конкретный "вид" данных. - При кросс-валидации вы можете понять на сколько ваша модель надёжна к разным наборам данных. Ещё пару советов при использование кросс-валидации:
- При шумных данных проверяйте модель на различных сидах.
- Считайте улучшением результатов модели не от среднего, а - по разбиениям (фолдам) независимо, так решается проблема переобучения к конкретному(ым) фолду(ам)
- Чтобы избежать переобучение, считайте улучшением при разности результатов больше чем хотя бы на один пункт. - Если вы участвуете в соревнование, используйте LB как (k+1)ое разбиение.