1.0Kпросмотров
41.4%от подписчиков
26 февраля 2026 г.
📷 ФотоScore: 1.1K
«Ты несешь буллшит» - новый бенчмарк оценивает LLM с их возможности выявлять бессмысленные и глупые промпты. Одна из ключевых проблем LLM - поддакивание, даже в абсурдных вещах. Другая проблема - моделей много, бенчей много, каждый вендор LLM показывает, что его модель лучше всех. На мой взгляд этот бенч отражает интеллектуальный разрыв между моделями Anthropic и, как недавно выяснилось, дистиллированными от них китайскими моделями. Ведь критический взгляд - показатель развитого интеллекта. #benchmark #llm @neurovibe_ai