1.1Kпросмотров
20 июня 2025 г.
question📷 ФотоScore: 1.2K
🤔 Как проверить, что LLM не «уходит от ответа»? Выпустили обзор на первый русскоязычный бенчмарк SLAVA для оценки политической и фактологической устойчивости языковых моделей. 🟡 В статье:
– почему ИИ путается в датах и «уходит в туман», когда дело доходит до острых тем;
– как измеряют уклончивость и точность ответов;
– кто из моделей справился лучше;
– как использовать бенчмарк на практике: от QA-аудита до обучения. 🟡 Авторы обзора: магистранты AI Talent Hub Ринат Шарафетдинов и Андрей Четвергов. ➡️ Читаем и обсуждаем на Хабре 😇 Поддержите нас голосом! #AITalentHub #NapoleonIT #ITMO