1.8Kпросмотров
55.7%от подписчиков
17 января 2026 г.
📷 ФотоScore: 2.0K
Привет, Чемпионы! 🏆🚀 Kaggle выкатили Community Benchmarks - новый продукт, который позволяет самому сообществу создавать, запускать и шарить собственные бенчмарки для оценки ИИ. И да, бесплатно 😎 Что это значит на практике: 🧪 Свои eval’ы и задачи - от простых загадок до сложных агентных сценариев 🧩 kaggle-benchmarks SDK - единый API для Gemini, Claude, Qwen, DeepSeek и других 🖼️ Мультимодальность - текст + изображения, структурированные JSON-выходы ⚖️ LLM-as-a-Judge - оценивай креатив, код и рассуждения другим LLM 📊 Оценка на датасетах - прогон по pandas DataFrame с агрегацией метрик 🤖 Agentic-фичи - тулзы, sandboxed Python, игровые циклы И самое важное - публикация прямо на Kaggle 📢 Можно собрать несколько задач в бенчмарк, выложить его, и даже добавить citation для научных работ. Комьюнити уже делает крутые вещи: 🍋 рисование (Lemonasso) 🏥 медицинские и safety-бенчмарки 🌍 кросс-культурный интеллект 🔐 криптоанализ 🏭 инженерные задачи из реального мира Kaggle прямо говорит: evals - это сложно, и без сообщества масштабироваться невозможно. Поэтому теперь бенчмарки — не только от больших лаб, но и от вас 💪 Если вы тестируете LLM, строите агентов или просто хотите мерить не ощущения, а качество - это очень сильный апдейт экосистемы. #kagglenews
1.8K
просмотров
1267
символов
Да
эмодзи
Да
медиа

Другие посты @data_science_winners

Все посты канала →
Привет, Чемпионы! 🏆🚀 Kaggle выкатили Community Benchmarks — @data_science_winners | PostSniper