Наконец-то запустил бенчмарк по оценке качества извлечения д — @filippovd_ai

594просмотров

26 сентября 2025 г.

📷 ФотоScore: 653

Наконец-то запустил бенчмарк по оценке качества извлечения данных, взял за основу датасет для DeepResearch SealQA Но как я говорил, этап поиска в этом бенчмарке довольно тривиальный - большинство ссылок ведут на Википедию и легко находятся. Поэтому я решил не мучать этим этапом LLM и сейчас подаю контекст страниц напрямую. Но раз я сменил условия игры - мне нужны данные по разным моделькам, чтобы потом сравнивать результаты. Сейчас запустил на десяти модельках - под капотом простой промпт и контекст до 10к токенов (30000 символов). Конечная цель: У меня уже есть результаты модели ❤️ Qwen3-4B, полученные с использованием особого подхода. Теперь мне нужно сравнить их с показателями других LLM, чтобы понять разницу в их способностях к извлечению информации. #LLM #Benchmark #DataExtraction #AI #Qwen #SealQA

Другие посты @filippovd_ai