N
NLP Core Team
@nlpcoreteam3.5K подп.
3.5Kпросмотров
99.9%от подписчиков
3 января 2026 г.
question📷 ФотоScore: 3.8K
🫢🫢🫢40B модель IQuest-Coder-V1 бьёт Sonnet 4.5 на бенчмарках!? Новая модель от IQuestLab из Китая. 40B параметров, на многих бенчмарках показывает лучшие скоры и операжает Sonnet 4.5 и GPT 5.1. Правда сегодня метрики на странице HF уже 76.2 а не 81.4 на SWE-bench. Остальные метрики те же и в техрепорте тоже 81.4 на SWE-bench. Из основного про модель: 🧠 Code-Flow обучение — фокусируется не на статических файлах, а на динамической эволюции кода во времени. Основная идея: научить модель понимать не просто синтаксис, а процесс разработки — как код меняется, почему вносятся правки, как развивается архитектура. Формат данных: (старый_код → патч → новый_код) Источник: реальные коммиты из GitHub. Принцип выбора: коммиты из фазы зрелости проекта (40%-80% жизненного цикла), чтобы избежать нестабильных ранних и фрагментированных поздних изменений. 🔄 LoopCoder — трансформер-декодер с уникальной архитектурой "петли": Одни и те же блоки трансформера используются дважды (2 итерации) с общими параметрами. Это позволяет обрабатывать данные в два прохода, создавая более глубокое понимание контекста при меньшем числе параметров. Как работает архитектура LoopCoder: 📌 Первая итерация • Входные эмбеддинги проходят через трансформерные блоки • Формируются скрытые состояния с позиционным сдвигом • Сохраняются для использования во второй итерации 📌 Вторая итерация Здесь два типа внимания: 1️⃣ Global Attention (Глобальное внимание) Queries из итерации 2 обращаются ко всем key-value парам из итерации 1. Позволяет "уточнить" понимание глобального контекста. 2️⃣ Local Attention (Локальное внимание) Queries обращаются только к предшествующим токенам внутри итерации 2. Сохраняется причинность — модель не видит будущие токены. 🎛 Gating Mechanism (Механизм шлюзования) Оба типа внимания комбинируются через обученный gate: output = gate global_attention + (1 - gate) local_attention Gate (0–1) вычисляется на основе query-представлений. Модель сама учится, когда использовать глобальный контекст, а когда — локальный. Техрепорт HuggingFace
3.5K
просмотров
2058
символов
Да
эмодзи
Да
медиа

Другие посты @nlpcoreteam

Все посты канала →