214просмотров
18 марта 2025 г.
📷 ФотоScore: 235
Не раз уже признавался в любви к гугловскому семейству нейронок Gemini — PRO и Flash. Я с ними работаю как правило для создания и редактирования текстов. И время от времени кажется, что я упускаю другие мощные нейронки: ChatGPT разных версий, Claude, новые Deepseek и Qwen. Говорят, любовь проверять нельзя, но я все-таки решил проверить, насколько Gemini по-прежнему круты на фоне конкурентов. Gemini, как я писал, у меня через почти бесплатный Vertex. Нормально же пользоваться новыми версиями Claude & ChatGPT бесплатно, как вы знаете, не получится: нужна подписка. Нашел популярный агрегатор нейронок, работающих через API — Openrouter.ai. Вносишь туда от 5 баксов и можешь работать со многими топовыми моделями. Для того, чтобы потестировать — в самый раз. Загрузил туда копирайтерский текст около 5-7 тысяч знаков с тавтологией и смысловой избыточностью, чтобы сравнить, как с его редактированием справятся: ChatGPT-4.5, Claude 3.7, OpenAI-o3, Llama 3.3, Gemma 3 и Gemini 1.5 Pro / 2 Flash / 2 Pro Experimental. Системный промт во всех случаях был одинаковым, температура — дефолтная 1. Вот что вышло: — Claude 3.7. Единичные исправления в сравнении с исходником. А ведь когда-то Claude был у меня в топе! — ChatGPT 4.5. Чуть больше исправлений, но самостоятельно я бы исправил больше. — OpenAI-o3. Частичный игнор системного промта и новые проблемные места в тексте. — Llama 3.3. Ощущение, что исходный текст перевели на английский, а потом обратно на русский. Объем стал только больше, а стилистика — далекой от инфостиля. Впрочем, если бы Llama выдала другой результат, это был бы приятный сюрприз. У нее и раньше было все плохо. — Gemma 3. Неплохой результат, правок больше, чем у Claude и ChatGPT, примерно на уровне Gemini Flash. Радикально не перестраивает предложения, меняет отдельные слова и словосочетания. Только косметические правки. — Gemini Flash 2.0 и Gemini Pro 2.0 Experimental. Примерно на уровне с Gemma 3. Очень жду, когда выйдет Gemini Pro 2.0, чтобы она была круче Gemini 1.5 Pro. — Gemini 1.5 Pro. Мой лидер остался при своем первом месте. Режет исходники, как боженька. Иногда — слишком, особенно для интервью, потому что убирает разные авторские разговорные выражения. Интервью я бы правил Flash, та не будет настолько радикальной. Ну и разные Deepseek и Qwen, а также вся экзотика для работы с текстами на русском не годятся. Для чего другого — да, может быть. Какой ваш топ и для каких целей?