Рад сообщить, что в эти выходные я выпустил новую версию моей библиотеки eval-ai-library 0.5.1 для оценки ИИ систем и в ней теперь есть ряд важных изменений! 1. Самое важно обновление - это возможность через удобный UI интерфейс подключиться к API вашей ИИ системы без необходимости написания кода. То есть теперь вам достаточно, как в postman, создать запрос к API вашей ИИ системы, получить ответ, с помощью JSONPath получить нужные данные и запустить оценку! И это доступно бесплатно через opensou...
Тестирование и оценка ИИ
Канал посвящен тестированию и оценке качества искусственного интеллекта Автор канала - @al_meshkov
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Итак, по результатам нашего мини голосования победила тема - Ключевые навыки для оценки ИИ систем, инструменты, процессы, критерии качества. Открытый вебинар я проведу 05.03 в 19:00 МСК! Более подробная информация по подключению, регистрации на вебинар будет доступна позже!
Всем привет! Хочу провести прямой эфир на тему оценки и тестировании ИИ систем, и хочу, чтобы вы помогли выбрать тему для первого открытого вебинара. Ставим 🔥, если вы за первый вариант и ⚡️если за второй. 1. 🔥 Ситуация на рынке ИИ систем, куда развивается, какие сложности, что ждет (рассматриваю рынок общемировой, не РФ) 2. ⚡️Ключевые навыки для оценки ИИ систем, инструменты, процессы, критерии качества Полезная информация: Курс по evaluation AI | Мой фреймворк для оценки AI | С чего начать и...
Всем привет! Anthropic приобрела стартап Vercept, и если вы занимаетесь тестированием, эта новость, как мне кажется, заслуживает внимания. Суть в том, что Claude теперь учится работать с компьютером так же, как это делает человек, а именно видеть экран, нажимать кнопки, перемещать мышь и печатать текст, причем без использования API. Чтобы понять, почему это важно, представьте себе стажера, которому вы показываете: “вот сюда нажми, вот тут проверь, а теперь введи данные в эту форму”. Именно так р...
Всем привет! Есть термины, которые часто могут быть синонимами, но на самом деле отражают разные способы мышления, и такими терминами является тестирование и оценка в контексте ИИ систем. В ИИ сообществе на самом деле уже давно устоялся термин “оценка” и не просто так, а потому что за этим этим стоит важное различие в подходах. В чем именно? Классическое тестирование детерминировано, то есть если вы запустили функцию с одними и теми же параметрами сто раз, то получите сто одинаковых фактических ...
Сегодня прошел вебинар на тему оценки и тестирования ИИ систем, где мы разобрали какие инструменты и фреймворки помогают оценивать качество ИИ-систем на практике, какие метрики и критерии действительно важны, от точности и полноты до устойчивости и безопасности, и как выстроить процесс, который учитывает недетерминированную природу моделей. Запись вебинара доступна по ссылке: https://eval-ai.com/webinar/testirovanie-ii-sistem-instrumenty-protsessy-kriterii-kachestva Полезная информация: Курс по ...
Всем привет! Хочу поделиться с вами моей новой работой, которая пока опубликована как preprint, и в которой я исследовал вопрос, связанный с использованием различных подходов к оценке генеративных ИИ систем на базе созданного датасета из 500 запросов/ответов, который я разметил самостоятельно. Полученный данные показали качество оценки различных методов и их корреляцию с экспертной оценкой, а также полученные данные позволили мне формализовать процесс выбора подхода к оценки ИИ систем в зависимо...
Всем привет! Собрал 5 ошибок, которые вижу снова и снова, когда команды запускают ИИ систему, прогоняют пару тестов и считают задачу закрытой. А потом на проде все ломается в самый неудобный момент. Первая ошибка - это бенчмарки вместо оценки на своих задачах. Результат на MMLU бенчмарке ничего не скажет о том, как система работает именно у вас. 85% скор на бенчмарке звучит красиво, но это пустая цифра, если ваш AI делает саммари юридических договоров. Вторая - это когда измеряют точность, но иг...
Итак пару недель я уже ковыряюсь с проектами по автоматизации тестирования с целью получить наиболее эффективное ИИ решение для автоматизации тестов и вот что из этого пока вышло: 1. На первом месте пока Claude code с системой skills + mcp chromium от playwright. Очень удобно с точки зрения работы. Каждый созданный skill отвечает за какую то часть процесса автоматизации тестирования и с учетом хорошей интеграции Claude code с MCP playwright, тест пишется на ходу в открытом браузере, где Claude з...
Получил сегодня хорошую новость, ISTQB планирует в этом году обновить и выпустить новую версию силлабуса по AI Testing, видимо в начале лета. Подтвержение получил от автора и создателя ISQTB AI Testing, что ж ждем…. Полезная информация: Курс по evaluation AI | Мой фреймворк для оценки AI | С чего начать изучение AI | Инструменты для оценки AI | Инструменты для оценки AI (ч.2)