Если вы хотите обучать ИИ — начните с правильных данных Unsl — @karonskiy_tut

267просмотров

21 апреля 2025 г.

Score: 294

Если вы хотите обучать ИИ — начните с правильных данных Unsloth выпустили отличный гайд по тому, как собрать, отформатировать и использовать датасеты для дообучения моделей. Вот короткий разбор для тех, кто уже думает о fine-tuning, но пока не знает, с какой стороны подступиться. 📦 Что важно Определить цель — например, дообучить модель под маркетинг, поддержку, анализ или резюмирование. Выбрать формат данных – raw text (для дообучения); – instruct (SFT с задачей и примером); – conversation (диалоги как в ShareGPT); – RLHF (если замахиваетесь на ранжирование ответов). Собрать источники – Hugging Face, Wikipedia, CSV, PDF, сайты — подойдут почти любые, если привести к порядку. – Можно комбинировать свои данные с открытыми (например, ShareGPT), чтобы добавить «жизни» в датасет. Не забыть про форматирование – Структура важнее объема. – Плохой текст → плохая модель. 🛠 В гайде — все на примерах, от json-структуры до мульти-turn диалогов. Если у вас в планах кастомный GPT под свою предметку — вот с чего стоит начать. Сам читаю в закладках между колл-апдейтами и фарм-кейсами.

Другие посты @karonskiy_tut