1.8Kпросмотров
55.7%от подписчиков
17 января 2026 г.
📷 ФотоScore: 2.0K
Привет, Чемпионы! 🏆🚀 Kaggle выкатили Community Benchmarks - новый продукт, который позволяет самому сообществу создавать, запускать и шарить собственные бенчмарки для оценки ИИ. И да, бесплатно 😎 Что это значит на практике:
🧪 Свои eval’ы и задачи - от простых загадок до сложных агентных сценариев
🧩 kaggle-benchmarks SDK - единый API для Gemini, Claude, Qwen, DeepSeek и других
🖼️ Мультимодальность - текст + изображения, структурированные JSON-выходы
⚖️ LLM-as-a-Judge - оценивай креатив, код и рассуждения другим LLM
📊 Оценка на датасетах - прогон по pandas DataFrame с агрегацией метрик
🤖 Agentic-фичи - тулзы, sandboxed Python, игровые циклы И самое важное - публикация прямо на Kaggle 📢
Можно собрать несколько задач в бенчмарк, выложить его, и даже добавить citation для научных работ. Комьюнити уже делает крутые вещи:
🍋 рисование (Lemonasso)
🏥 медицинские и safety-бенчмарки
🌍 кросс-культурный интеллект
🔐 криптоанализ
🏭 инженерные задачи из реального мира Kaggle прямо говорит: evals - это сложно, и без сообщества масштабироваться невозможно. Поэтому теперь бенчмарки — не только от больших лаб, но и от вас 💪 Если вы тестируете LLM, строите агентов или просто хотите мерить не ощущения, а качество - это очень сильный апдейт экосистемы. #kagglenews