1.2Kпросмотров
45.5%от подписчиков
5 сентября 2025 г.
storyScore: 1.3K
Я уже не знаю как эти новости объединять, ловите последнюю пачку дайджеста - Google Stax - платформа для тестирования языковых моделей. Google Labs запустила экспериментальный сервис Stax - инструмент для структурированного, автоматизированного оценивания LLM. Stax позволяет разработчикам задавать метрики и сценарии и получать количественные показатели качества модели вместо субъективного “ну вот это вроде збс”. В системе можно проверить ИИ-модель по ключевым параметрам: беглость и правильность ответов, их соответствие инструкциям, безопасность (наличие токсичного или нежелательного контента), скорость отклика, а также долю успешных решений в специально подобранных задачах. Доступны как встроенные авто-тесты (на базе LLM-as-a-Judge), так и полностью настраиваемые проверки - разработчик может загрузить свой набор промптов и эталонных ответов для сравнения. Stax призван заменить тестирование моделей на инженерный подход в стиле unit-тестов: каждый раз при изменении модели или промпта разработчик получает объективные метрики, лучше ли стал ИИ. Инструмент интегрирует наработки DeepMind по eval-бенчмаркам и идеи по визуализации результатов. Пока Stax в экспериментальном доступе. [developers.googleblog.com] - Anthropic Claude в Chrome - агент-ассистент в браузере. Компания Anthropic начала тестирование расширения Claude for Chrome, превращающего ИИ-модель Claude в браузерного ассистента. Выбранные пользователи получили возможность общаться с Claude прямо в сайдбаре Chrome и поручать ему действия на страницах. Агент имеет доступ к контексту открытых вкладок и, с разрешения, может кликать по кнопкам, заполнять формы, перемещаться по ссылкам - фактически выполнять роль помощника, облегчающего рутинные веб-задачи. Такой функционал схож с недавно появившимися AI-агентами в браузерах конкурентов: например, Perplexity выпустила свой браузер Comet с агентом, OpenAI, по слухам, разрабатывает аналогичное решение. Anthropic подчёркивает, что уделяет внимание безопасности: браузерные агенты уязвимы для атак через prompt injection на сайтах, поэтому Claude в Chrome снабжён механизмами фильтрации - в тестах им удалось снизить успех подобных атак примерно с 23,6% до 11,2% (все еще жесть). [techcrunch.com] - VK-LSVD - датасет для рекомендаций на 40 млрд событий.
Ребята из VK AI выложила в открытый доступ массив данных VK-LSVD (Large Short-Video Dataset) - большой публичный датасет взаимодействий пользователей с короткими видео. Он содержит 40 миллиардов обезличенных событий (лайки, дизлайки, шеры, время просмотра и т.д.) от 10 миллионов пользователей по 20 миллионам видеороликов за 6 месяцев 2025 года. Помимо самих интеракций, для каждого пользователя указаны социально-демографические характеристики (без персональных данных), а для каждого видео - атрибуты контента. Пожелаем удачи ребятам, открытые датасеты - это всегда круто. Но просто напомню, что 3 месяца назад появился датасет Yambda, а статью о датасете приняли на ACM RecSys [hf vk-lsvd] - ИИ против болезни Альцгеймера
Билл Гейтс объявил глобальный конкурс AI Solutions for Alzheimer’s, пообещав $1млн команде, которая предложит прорывной подход к исследованию болезни Альцгеймера с помощью ИИ. Инициатива запущена фондом AD Data Initiative при поддержке Gates Ventures и других партнёров. Для Гейтса это личная история - его отец скончался от деменции в 2020 году, и с тех пор он инвестирует в область. Заявки на участие принимаются от инженеров по машинному обучению, биоинформатиков, неврологов, стартапов – всех, кто может предложить нестандартные AI-подходы. Полуфиналистов объявят в декабре 2025, а финал пройдёт в марте 2026 года на профильной конференции AD/PD в Копенгагене. Победитель получит не только приз, но и поддержку в реализации решения - разработанные ИИ-инструменты планируется сделать доступными в открытой научной среде AD Data Initiative. [observer.com] На этом дайджест недели все, регистрируйтесь и приходите к нам на practical ml conf