⚙️ Современные языковые модели впечатляют своими возможностя — @AI_point_of_view

260просмотров

6.4%от подписчиков

27 марта 2026 г.

📷 ФотоScore: 286

⚙️ Современные языковые модели впечатляют своими возможностями, но их практическое применение сталкивается с фундаментальной проблемой: мощные модели требуют огромных вычислительных ресурсов, тогда как их компактные версии, предназначенные для работы на периферийных устройствах или в условиях жестких бюджетов, зачастую заметно уступают в точности. Классическое решение — супервайзинговая тонкая настройка (SFT) на доменных данных. Однако практика показывает, что простое увеличение объема выборки не дает пропорционального роста качества. Исследователи Центра ИИ Сколтеха Андрей Гончаров, Даниил Вяжев, Пётр Сычёв, а также руководитель лаборатории прикладных исследований «Сколтех –Сбербанк» (LARSS) Алексей Зайцев предложили способ обойти это ограничение. В своей работе авторы ставят под сомнение идею однородного обучения: почему модель должна тратить одинаковое количество «вычислительных усилий» на простые и сложные вопросы? Исследователи предлагают адаптировать стратегию под сложность каждого примера. Вместо случайного перемешивания данных они разделяют их по признаку внутренней сложности для самой модели, применяя к каждой группе наиболее подходящий метод. 📤 Сложность вопроса оценивает сама модель, ей задают вопрос и просят ответить одним токеном — то есть одной буквой (A, B, C или D), без развёрнутых объяснений. Для этого ответа вычисляется энтропия — показатель того, насколько модель неуверена. Если вероятности распределены равномерно, энтропия высокая — модель колеблется, значит, вопрос сложный. Если один вариант явно доминирует, энтропия низкая — модель уверена, вопрос простой. Авторы сравнили этот метод с альтернативными способами оценки сложности: анализом цепочек рассуждений, а также оценками от больших моделей, когда модель просят определить, сколько логических шагов требуется для ответа. Лучше всего показала себя именно энтропия ответа одним токеном — она точнее других разделяет вопросы на простые и сложные. ➡️ После того как данные разделены по сложности, лёгкие и средние вопросы объединяются в одну группу, а сложные идут отдельно. Далее авторы применяют двухступенчатый подход. Сначала модель-студент обучают на объединённой выборке лёгких и средних вопросов с помощью стандартного SFT - метода, при котором модель доучивают на размеченных примерах. Затем для сложных вопросов генерируют цепочки рассуждений с помощью большой модели-учителя. В работе использовали ансамбль из трёх таких моделей: DeepSeek-V3-0324, Qwen 3 235B и Llama 4 Maverick. После этого модель-студент дообучается уже не на коротких ответах, а на развёрнутых объяснениях от учителя. Как отмечают авторы, стандартного SFT для сложных вопросов недостаточно, и именно дистилляция цепочек рассуждений позволяет получить прирост качества. ◾️Эффективность подхода проверили на трёх моделях-студентах (Qwen2.5-3B, Phi-4-Mini, Llama 3.2 3B) и трёх типах данных: вопросы с множественным выбором (MMLU-Pro), математические задачи (GSM8K) и медицинские вопросы (MedMCQA). Во всех случаях новый метод превзошёл обычную тонкую настройку. Особенно заметен прирост на сложных датасетах: там, где обычное обучение давало низкие результаты (например, 0,13–0,19), новый подход позволил поднять точность до 0,82–0,89. На более простых задачах также есть улучшение. ✔️ При этом по сравнению с классической дистилляцией, когда все данные обогащаются цепочками рассуждений, новый метод использует на 81% меньше токенов, достигая сопоставимых или более высоких результатов. Кроме того, при стандартной дистилляции качество быстро перестаёт расти, а в предложенном подходе улучшения продолжаются дольше, и модель реже переобучается. Метод полностью автоматизирован и не требует ручной разметки. Код и данные опубликованы на GitHub, что позволяет воспроизвести результаты и использовать подход в других задачах.

Другие посты @AI_point_of_view