86просмотров
9.4%от подписчиков
21 февраля 2026 г.
📷 ФотоScore: 95
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса. И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon. Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип. Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B. Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии. Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу). Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается. Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния. У меня голова идет кругом от мыслей к чему это может привести. Ссылки: • Анонс • Демо (скорость реально впечатляет)
86
просмотров
1263
символов
Нет
эмодзи
Да
медиа

Другие посты @inite_ai

Все посты канала →
Это было неизбежно: рано или поздно должны были появиться сп — @inite_ai | PostSniper