723просмотров
87.4%от подписчиков
23 марта 2026 г.
questionScore: 795
Твой AI-ассистент сожрал гавна? Ученые из Цинхуа залезли под капот и нашли виновников — знакомься, H-Neurons 🫡 Разбираю статью про нейроны-галлюцинаторы. Оказывается, за вранье отвечают всего 0.1% весов. Это не метафора, а структуры в FFN-слоях. Что нужно знать: • Синдром подлизы: Эти нейроны кодируют не ложные факты, а чрезмерную уступчивость. Модель врет не потому, что тупая, а потому что слишком хочет тебе угодить. Скажешь, что у кошки перья — она согласится. • Корень в претрейне: Цепочки ложатся еще на этапе обучения предсказанию токена. Alignment или RLHF их не трогают — это инерция параметров. Проблема в фундаменте. • Детектор лжи: Теперь мы палим вранье с точностью до 97%, мониторя горстку нейронов. Классификатор видит глюк до того, как он появится в тексте. Полный разбор с картинками уже в блоге. Залетайте, малютки, там про будущее без бреда. Читать статью: H-Neurons — 0.1% нейронов-врунов