Ч
что-то на DL-ском
@nadlskom4.3K подп.
2.6Kпросмотров
61.1%от подписчиков
10 марта 2026 г.
🎬 ВидеоScore: 2.9K
🤗Не могу не хвалить команду hf за постоянно появляющиеся интересные блогпосты для образования. В этот раз ресерч по синтетическим данным для претрена. Не просто в виде «вот вам датсасет, мы там записали тех детали. Отстаньте». Это большой очередной playbook в который можно потыкаться на досуге На повестке новый блогпост с 1 триллионом сгенерированных токенов и главным вопросом, на который пытаются ответить что вообще делает датасет синтетических данных хорошим?🤔 Интересные находки: 💛формат промпта важнее модели, которая генерирует (1B достаточно для простых промптов, 4B для сложных, а дальше платишь в 10x GPU времени и получаешь хуже) 💛разнообразие форматов дает эффект лучше, чем один с много токенов на него (FAQ + Math + Table + Tutorial) 💛нужно переформатировать документ, а не генерить синту с нуля 💛датасет не синт данных, который мы подмешиваем в обучение важнее, чем источник данных для синты на рефрейз 💛edu-score бесполезен как прокси для синтетики. Хуже того лучшие промпты активно снижают edu-score потому что классификатор не ожидает таких форматов. 💛исправлять грамматические ошибки промптов не обязательно 💛Пайплайн на datatrove + vLLM с чекпоинтингом держит GPU постоянно загруженными, даже если задачи прерываются на shared кластере Playbook
2.6K
просмотров
1272
символов
Да
эмодзи
Да
медиа

Другие посты @nadlskom

Все посты канала →
🤗Не могу не хвалить команду hf за постоянно появляющиеся ин — @nadlskom | PostSniper