Тестирование и оценка ИИ

@testingofai💻 Технологии🇷🇺 Русский📅 март 2026 г.

Канал посвящен тестированию и оценке качества искусственного интеллекта Автор канала - @al_meshkov

📊 Полная статистика 📝 Все посты

1.2K

Подписчики

517,8

Ср. охват

43.1%

Вовлечённость

Постов

~0.6

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

20 из 20

testingofai

9 мар., 08:02

Рад сообщить, что в эти выходные я выпустил новую версию моей библиотеки eval-ai-library 0.5.1 для оценки ИИ систем и в ней теперь есть ряд важных изменений! 1. Самое важно обновление - это возможность через удобный UI интерфейс подключиться к API вашей ИИ системы без необходимости написания кода. То есть теперь вам достаточно, как в postman, создать запрос к API вашей ИИ системы, получить ответ, с помощью JSONPath получить нужные данные и запустить оценку! И это доступно бесплатно через opensou...

👁 728📷 photo

📊 Аналитика

testingofai

24 февр., 09:22

Итак, по результатам нашего мини голосования победила тема - Ключевые навыки для оценки ИИ систем, инструменты, процессы, критерии качества. Открытый вебинар я проведу 05.03 в 19:00 МСК! Более подробная информация по подключению, регистрации на вебинар будет доступна позже!

👁 695

📊 Аналитика

testingofai

23 февр., 08:02

Всем привет! Хочу провести прямой эфир на тему оценки и тестировании ИИ систем, и хочу, чтобы вы помогли выбрать тему для первого открытого вебинара. Ставим 🔥, если вы за первый вариант и ⚡️если за второй. 1. 🔥 Ситуация на рынке ИИ систем, куда развивается, какие сложности, что ждет (рассматриваю рынок общемировой, не РФ) 2. ⚡️Ключевые навыки для оценки ИИ систем, инструменты, процессы, критерии качества Полезная информация: Курс по evaluation AI | Мой фреймворк для оценки AI | С чего начать и...

👁 694

📊 Аналитика

testingofai

27 февр., 10:46

Всем привет! Anthropic приобрела стартап Vercept, и если вы занимаетесь тестированием, эта новость, как мне кажется, заслуживает внимания. Суть в том, что Claude теперь учится работать с компьютером так же, как это делает человек, а именно видеть экран, нажимать кнопки, перемещать мышь и печатать текст, причем без использования API. Чтобы понять, почему это важно, представьте себе стажера, которому вы показываете: “вот сюда нажми, вот тут проверь, а теперь введи данные в эту форму”. Именно так р...

👁 644📷 photo

📊 Аналитика

testingofai

25 февр., 09:45

Всем привет! Есть термины, которые часто могут быть синонимами, но на самом деле отражают разные способы мышления, и такими терминами является тестирование и оценка в контексте ИИ систем. В ИИ сообществе на самом деле уже давно устоялся термин “оценка” и не просто так, а потому что за этим этим стоит важное различие в подходах. В чем именно? Классическое тестирование детерминировано, то есть если вы запустили функцию с одними и теми же параметрами сто раз, то получите сто одинаковых фактических ...

👁 628📷 photo

📊 Аналитика

testingofai

5 мар., 18:55

Сегодня прошел вебинар на тему оценки и тестирования ИИ систем, где мы разобрали какие инструменты и фреймворки помогают оценивать качество ИИ-систем на практике, какие метрики и критерии действительно важны, от точности и полноты до устойчивости и безопасности, и как выстроить процесс, который учитывает недетерминированную природу моделей. Запись вебинара доступна по ссылке: https://eval-ai.com/webinar/testirovanie-ii-sistem-instrumenty-protsessy-kriterii-kachestva Полезная информация: Курс по ...

👁 624📷 photo

📊 Аналитика

testingofai

20 мар., 10:31

Всем привет! Хочу поделиться с вами моей новой работой, которая пока опубликована как preprint, и в которой я исследовал вопрос, связанный с использованием различных подходов к оценке генеративных ИИ систем на базе созданного датасета из 500 запросов/ответов, который я разметил самостоятельно. Полученный данные показали качество оценки различных методов и их корреляцию с экспертной оценкой, а также полученные данные позволили мне формализовать процесс выбора подхода к оценки ИИ систем в зависимо...

👁 606

📊 Аналитика

testingofai

4 мар., 08:01

Всем привет! Собрал 5 ошибок, которые вижу снова и снова, когда команды запускают ИИ систему, прогоняют пару тестов и считают задачу закрытой. А потом на проде все ломается в самый неудобный момент. Первая ошибка - это бенчмарки вместо оценки на своих задачах. Результат на MMLU бенчмарке ничего не скажет о том, как система работает именно у вас. 85% скор на бенчмарке звучит красиво, но это пустая цифра, если ваш AI делает саммари юридических договоров. Вторая - это когда измеряют точность, но иг...

👁 593📷 photo

📊 Аналитика

testingofai

3 мар., 08:27

Итак пару недель я уже ковыряюсь с проектами по автоматизации тестирования с целью получить наиболее эффективное ИИ решение для автоматизации тестов и вот что из этого пока вышло: 1. На первом месте пока Claude code с системой skills + mcp chromium от playwright. Очень удобно с точки зрения работы. Каждый созданный skill отвечает за какую то часть процесса автоматизации тестирования и с учетом хорошей интеграции Claude code с MCP playwright, тест пишется на ходу в открытом браузере, где Claude з...

👁 572📷 photo

📊 Аналитика

testingofai

6 мар., 09:33

Получил сегодня хорошую новость, ISTQB планирует в этом году обновить и выпустить новую версию силлабуса по AI Testing, видимо в начале лета. Подтвержение получил от автора и создателя ISQTB AI Testing, что ж ждем…. Полезная информация: Курс по evaluation AI | Мой фреймворк для оценки AI | С чего начать изучение AI | Инструменты для оценки AI | Инструменты для оценки AI (ч.2)

👁 559📷 photo

📊 Аналитика

Типы хуков

Нейтральный17 | 520 просм.

Вопрос2 | 461 просм.

Статистика1 | 593 просм.

Длина постов

Очень длинные (1000+)12 | 515 просм.

Длинные (500-1000)4 | 614 просм.

Средние (200-500)3 | 418 просм.

Короткие (<200)1 | 467 просм.

Влияние эмодзи

467

С эмодзи (1)

520

Без эмодзи (19)

-10.2% охвата

Типы контента

📷

photo

523 просм.

📝

text

499 просм.

✅ 93/100

Активность естественная

#5780

из 13,328 в Технологии