994просмотров
30 сентября 2025 г.
stats📷 ФотоScore: 1.1K
◀️ Что же по Qwen3-4B, - я его запускал не только в обычном режиме, но и с применением некоторого подхода. Я ожидал увидеть заметный прирост, но результаты оказались почти одинаковыми (не знаю, с чего я так решил, что будет какой-то буст, но ресерч - дело такое). Идея заключалась в том, чтобы помочь небольшой модели справиться с большим контекстом. Вместо того чтобы подавать весь контекст целиком, я разделил его на фрагменты (пробовал размеры от 1500 до 3500 токенов). Идея заключалась в следующем:
1. Модель обрабатывает каждый фрагмент и извлекает из него релевантную информацию.
2. После обработки всех фрагментов извлеченные данные собираются вместе.
3. Отдельным запросом модель суммирует эти данные и дает финальный ответ. Для извлечения данных из фрагментов я экспериментировал с разными форматами и SO и XML. Остановился на XML, мне было не так важно, чтобы ответ идеально парсился – в крайнем случае, я бы передал его как текст. Но что удивительно: за почти 700 запросов Qwen3-4B ни разу не сгенерировал невалидный XML - это прям здорово! Пример ответа LLM на скрине. По тегам: <evaluation_criteria>
LLM анализирует исходный запрос и выделяет несколько ключевых, обязательных условий <reasoning>
LLM сканирует фрагмент и размышляет на тему, какая информация полностью соответствует всем условиям <relevant_data>
LLM аккуратно извлекает и структурирует каждую релевантную запись в виде <data_item> Что по результатам как я и сказал, ощутимого прироста это не дало. На несколько вопросов с таким методом и удалось ответить правильно, но платить за это пятикратным увеличением количества запросов к модели кажется нецелесообразным. ☕️Пока идея не кажется мне совсем безнадежной, но подтверждения ее эффективности я не нашел. Возможно, попробую применить метод фрагментации на крупных моделях и более длинных контекстах.