267просмотров
21 апреля 2025 г.
Score: 294
Если вы хотите обучать ИИ — начните с правильных данных Unsloth выпустили отличный гайд по тому, как собрать, отформатировать и использовать датасеты для дообучения моделей. Вот короткий разбор для тех, кто уже думает о fine-tuning, но пока не знает, с какой стороны подступиться. 📦 Что важно Определить цель — например, дообучить модель под маркетинг, поддержку, анализ или резюмирование. Выбрать формат данных
– raw text (для дообучения);
– instruct (SFT с задачей и примером);
– conversation (диалоги как в ShareGPT);
– RLHF (если замахиваетесь на ранжирование ответов). Собрать источники
– Hugging Face, Wikipedia, CSV, PDF, сайты — подойдут почти любые, если привести к порядку.
– Можно комбинировать свои данные с открытыми (например, ShareGPT), чтобы добавить «жизни» в датасет. Не забыть про форматирование
– Структура важнее объема.
– Плохой текст → плохая модель. 🛠 В гайде — все на примерах, от json-структуры до мульти-turn диалогов. Если у вас в планах кастомный GPT под свою предметку — вот с чего стоит начать.
Сам читаю в закладках между колл-апдейтами и фарм-кейсами.