Привет-привет! 👋 Ну что, как вы там, живы в предновогодней — @tekhpisovoe

450просмотров

90.0%от подписчиков

25 декабря 2025 г.

Score: 495

Привет-привет! 👋 Ну что, как вы там, живы в предновогодней суете? Вдохновившись коллегами начинаю свой «прогрев» перед участием в конференциях и первым представлю доклад на WriteConf в феврале. Я буду рассказывать про бенчмарк для оценки технической документации, сгенерированной LLM. И, прежде чем вы закроете пост со словами «слишком сложно, до свидания», я поведаю о том, что за зверь этот бенчмарк. Что такое бенчмарк? Допустим, вы выбираете новый смартфон. Как понять, какой лучше? Через сравнение по критериям: скорость работы, качество камеры, сколько времени батарея держит заряд и т.п. Так вот, бенчмарк — это, по сути, набор тестов и критериев, по которым можно сравнивать и оценивать что угодно. В нашем случае — тексты, которые генерируют нейросети. А зачем бенчмарк нужен? Например, вы попросили ChatGPT написать инструкцию по API. Он выдал некую красивую и складную ИИшницу. Но как понять: 🟡Не наврал ли он? 🟡Поймет ли это пользователь? 🟡Логично ли структурирован текст? 🟡Можно ли вообще работать с получившейся ИИшницей? Вот для ответа на эти вопросы и нужен бенчмарк — чтобы оценивать не только «красивость», но и точность фактов, ясность изложения, логичность структуры. На докладе расскажу, как я за вас создал такую штуку и какие модели (GPT-5, Claude, DeepSeek, Llama, Qwen, Gemini) справляются лучше или хуже с разными задачами. Оставайтесь со мной, если вам интересна тема «как оценить то, что нагенерила нейросеть, с разных сторон» и, если будете на конфе, заглядывайте на мой доклад! 🙌 P.S: Сама идея доклада пришла ко мне в самый неожиданный момент: я занимался домашними делами и подумал о том, какие только ИИ-бенчмарки не придумали: бенчмарк для оценки программного кода с точки зрения уязвимости, бенчмарк для оценки медицинских заключений, бенчмарк для оценки бенчмарка… Задавшись вопросом, есть ли бенчмарки для оценки сгенерированной тех. доки, я полез гуглить. Нашел несколько бенчмарков, но они англоязычные и оценивают тех. доку вскользь. Поэтому было решено пилить свой бенчмарк. Такие дела 🙂

Другие посты @tekhpisovoe