Добрый день, друзья! Сегодня на просторах форума Kaggle натк — @kaggling

2.2Kпросмотров

30 августа 2023 г.

📷 ФотоScore: 2.4K

Добрый день, друзья! Сегодня на просторах форума Kaggle наткнулся на данное сообщение/материал касаемо кросс-валидации. Это действительно проблема, так как некоторые разработчики недооценивают важность правильной валидации (в частности, кросс-валидации), мол это долго и бесполезно (как написано на фото). В действительности все наоборот: - Когда вы проверяете модель на разных данных (фолдах), то тем самым вы избегаете переобучения под конкретный "вид" данных. - При кросс-валидации вы можете понять на сколько ваша модель надёжна к разным наборам данных. Ещё пару советов при использование кросс-валидации: - При шумных данных проверяйте модель на различных сидах. - Считайте улучшением результатов модели не от среднего, а - по разбиениям (фолдам) независимо, так решается проблема переобучения к конкретному(ым) фолду(ам) - Чтобы избежать переобучение, считайте улучшением при разности результатов больше чем хотя бы на один пункт. - Если вы участвуете в соревнование, используйте LB как (k+1)ое разбиение.

Другие посты @kaggling