450просмотров
90.0%от подписчиков
25 декабря 2025 г.
Score: 495
Привет-привет! 👋 Ну что, как вы там, живы в предновогодней суете? Вдохновившись коллегами начинаю свой «прогрев» перед участием в конференциях и первым представлю доклад на WriteConf в феврале. Я буду рассказывать про бенчмарк для оценки технической документации, сгенерированной LLM. И, прежде чем вы закроете пост со словами «слишком сложно, до свидания», я поведаю о том, что за зверь этот бенчмарк. Что такое бенчмарк?
Допустим, вы выбираете новый смартфон. Как понять, какой лучше? Через сравнение по критериям: скорость работы, качество камеры, сколько времени батарея держит заряд и т.п. Так вот, бенчмарк — это, по сути, набор тестов и критериев, по которым можно сравнивать и оценивать что угодно.
В нашем случае — тексты, которые генерируют нейросети. А зачем бенчмарк нужен?
Например, вы попросили ChatGPT написать инструкцию по API. Он выдал некую красивую и складную ИИшницу. Но как понять:
🟡Не наврал ли он?
🟡Поймет ли это пользователь?
🟡Логично ли структурирован текст?
🟡Можно ли вообще работать с получившейся ИИшницей? Вот для ответа на эти вопросы и нужен бенчмарк — чтобы оценивать не только «красивость», но и точность фактов, ясность изложения, логичность структуры. На докладе расскажу, как я за вас создал такую штуку и какие модели (GPT-5, Claude, DeepSeek, Llama, Qwen, Gemini) справляются лучше или хуже с разными задачами. Оставайтесь со мной, если вам интересна тема «как оценить то, что нагенерила нейросеть, с разных сторон» и, если будете на конфе, заглядывайте на мой доклад! 🙌 P.S: Сама идея доклада пришла ко мне в самый неожиданный момент: я занимался домашними делами и подумал о том, какие только ИИ-бенчмарки не придумали: бенчмарк для оценки программного кода с точки зрения уязвимости, бенчмарк для оценки медицинских заключений, бенчмарк для оценки бенчмарка… Задавшись вопросом, есть ли бенчмарки для оценки сгенерированной тех. доки, я полез гуглить. Нашел несколько бенчмарков, но они англоязычные и оценивают тех. доку вскользь. Поэтому было решено пилить свой бенчмарк. Такие дела 🙂