2.8Kпросмотров
7 января 2025 г.
storyScore: 3.1K
Я сегодня выдумал несложные тест для LLM моделей на умение писать код, и игрался с ним все утро. Мне всегда было сложно оценить, насколько мощна та или иная LLM модель, т.к. большинство задач были либо слишком простые и решались всеми, либо слишком сложными, и не решались никем. В результате я прошу модель написать код, который разбивает слова (и предложения) по слогам, так чтобы пройти 15 тестов из таблицы внизу. И вот все утро я пробую разные варианты, и смотрю, у кого сколько из 15 получается. Тесты закинул в комменты, потом добавлю еще кейсов. Результаты получились такие: upd: по совету @vitalypavlenko попробовал Claude sonnet (claude-3-5-sonnet-20241022) в курсоре с агентами - мгновенно выдал результат 14/15, потом сразу 15/15 ✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅ Claude sonnet (claude-3-5-sonnet) в курсоре с агентами - Мгновенно выдал результат 13/15, потом 14/15, потом 15/15 ✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅
Вчера я потратил с ним час, и он еле добрался до 14/15 Gemini 2.0 flash - Мгновенно выдал результат 13/15
Самый короткий и простой код
✅✅✅✅✅✅✅✅✅✅✅✅✅⛔⛔ ChatGTP O1 - Думал 4:32, результат 13/15
✅✅✅✅✅✅✅✅✅✅✅✅✅⛔⛔ Claude sonnet - Мгновенно выдал результат 4/15 ✅✅✅✅⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔
Но пожаловался, что нагрузка велика, поэтому он выдает плохие ответы ChatGPT 4O в курсоре выдал 4/15, запустил тесты, переделал, запустил тесты, завис, переделал, и попал в странный цикл, где он ничего не менял, но постоянно запускал тесты ✅✅✅✅⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔
Но пожаловался, что нагрузка велика, поэтому он выдает плохие ответы | Word | Hyphenation |-------------------------|-----------
| мама | ма-ма | страна | стра-на | мама, папа | ма-ма, па-па | ёлка | ёл-ка | стрст | стрст | рукавом? | ру-ка-вом? | тропинку | тро-пин-ку | завесила. | за-ве-си-ла. | грустно | груст-но | собеседование | со-бе-се-до-ва-ни-е | инфраструктура | ин-фра-струк-ту-ра | восстановление | вос-ста-нов-ле-ни-е |