Вышла третья порция Qwen3.5. В этот раз маленькие dense модельки: 9B, 4B, 2B, 0.8B (доступны как базовые, так и гибридные чат варианты). Из интересного - все модели, даже 0.8B, мультимодальные. Веса
Krist/Blog
Веду свой уютный канал про старые и новые железки и не железки, нейросети и не нейросети и вообще всё, что мне интересно. Вступайте в чатик @kristchat Писать сюда - @kristaller
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
11 из 11Trinity-Large-Preview Американский стартап Arcee-AI совместно с другими американскими стартапами Prime Intellect и Datalogy AI выпускают свою первую большую модель, обученную с нуля. - MoE, 398B-A13B. - Обучена на 17T токенов, поддерживает 11 языков, в том числе и русский, контекст 512 тысяч токенов. - Модель обучалась на 2048 видеокартах Nvidia B300. - Выпущены три чекпоинта: Istruct, Base (после midtrainig) и TrueBase (без midtraining). - На бенчмарках модель уступает Llama-4-Maverick, но это ...
GLM-5 Новая модель от китайского стартапа Z.AI. Краткий обзор: - MoE с высокой разряженностью 744B-A40B. - Обучена на 28.5T токенах. - Использует архитектуру Deepseek с нативной DSA (Deepseek Sparse Attention), которая существенно снижает цену инференса на длинных контекстах. - По бенчмаркам на уровне или лучше моделей от OpenAI, Anthropic и Google. - Веса выложены под лицензией MIT. Блогпост, веса.
StepFun-3.5 Flash Китайский стартап StepFun выпустил новую открутую и быструю модель 3.5 Flash. Короткий обзор: - 200B MoE, 11B активных параметров. - Благодаря "трёхстороннему" Multi Token Prediction (MTP-3) модель работает со скоростью от 100 до 350 токенов в секунду, это позволяет улучшить опыт взаимодействия с агентом для конечного пользователя. - По бенчмаркам модель лучшая в своем размере (кое-где даже догоняет огромную Kimi K2.5). - Специально обучена под кодинг и deepresearch-сценарии. -...
Qwen3.5 на RuQualBench. У Alibaba могут быть проблемы с API, так что результат может быть лучше.
Слухами земля полнится Пока по новостям тухловато, напишу что там в этих ваших интернетах пишут про будущие релизы. - GLM-5. Предположительно доступна на openrouter как Pony Alpha (ruqualbench на скрине, в целом норм). Согласно PR в transformers, использует архитектуру Deepseek V3 с нативным DSA. Будет больше, чем GLM-4. - Qwen-3.5. Есть PR в transformers, llama.cpp, vllm и так далее - скорее всего релиз уже вот вот случится. Известно о двух моделях - 2B dense и 35B-A3B. Модели поддерживают зрен...
Qwen3.5 Новая серия языковых моделей от Qwen. Они любят растягивать релизы, так что пока вышла только самая крупная версия. Короткий обзор: - MoE 397B-A17B, гибридная архитектура на базе Qwen3-Next. - 256К контекста, до 1М через YaRN. - Мультимодальность из коробки. Никаких отдельных VL версий. - По бенчмаркам модель на уровне закрытых SOTA моделей (GPT-5.2, Opus 4.5, Gemini 3) - Список поддерживаемых языков и диалектов расширен до 200. - Благодаря архитектурным изменениям значительно быстрее пр...
Qwen3-Coder-Next Новая модель для кода от Qwen на основе Qwen3-Next. - 80B-A3B, есть базовая и instruct версия (ризонинг не поддерживается). - Основной упор на агентный кодинг. По бенчмаркам модель догоняет Sonnent 4.5 (стоит помнить, что реальная производительность конечно будет хуже). - Модель делает значительно больше шагов, чем другие опенсорсные модели. - Лицензия Apache 2.0 Модель, блогпост
Kimi-K2.5 Обновление модели от китайского стартапа Moonshot AI. Основные моменты: - Модель дообучена на 15Т токенах поверх Kimi-K2-Base. - Мультимодальность, модель понимает картинки и видео. - Улучшенные агентные способности. - По бенчмаркам чуть-чуть…
Mistral 4 Small Новая модель от Mistral: - MoE, 119B-A6B на архитектуре Deepseek V3. - 256К контекста. - По бенчмаркам всё очень слабо: например, на MMLU Pro новый Mistral проигрывает даже Qwen3.5-4B. Правда бенчмарки уже давно ничего не значат. - Разработчики модели делают упор на скорость, эффективность по токенам, мультимодальность и многоязычность. - Веса модели доступны под лицензией Apache 2.0. Блогпост, модель