Schema-Guided Reasoning В профильных LLM-каналах начал набирать популярность термин SGR (Schema-Guided Reasoning), но по какой-то причине народ не всегда понимает, что он обозначает, и зачем нужен. Никакого секрета нет, главное запомнить одно уравнение: SGR = SO + COT Из чего складывается Schema-Guided Reasoning: 1️⃣Во-первых, нам нужна модель, которая поддерживает Stuctured Output (SO) - возможность управлять результатом работы LLM, "зануляя" вероятности токенов, не подходящих под описанную нам...
Чуковский
Личный блог про айти от ML инженера. В основном пишу про LLM и все вокруг них
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
14 из 14(продолжение) Как могла бы выглядеть процедура амплификации для больших языковых моделей? Например, можно попробовать разбивать задачу на подзадачи, и заставлять копию языковой модели решать только свой кусочек задания. Тогда список копий модели мог бы выглядеть следующим образом: 1) Модель-координатор - принимает на вход задание, и разбивает его на подзадачи; 2) Рабочие модели - получают от координатора задания и решают их; 3) Модель-агрегатор - получает ответы от рабочих моделей и формирует ре...
(продолжение) Оказывается, OpenAI придумали решение этой проблемы еще в 2018 году. Статья называется Learning complex goals with iterated amplification, популярно её очень емко изложил в своем видео Роберт Майлз. Рекомендую к просмотру как минимум ради прекрасных анимаций. Идея статьи заключается в следующем: 1️⃣ Предположим, что у нас есть какая-то модель, которая решает поставленную перед ней задачу, но делает это недостаточно хорошо. Мы хотим сделать так, чтобы ее ответы стали лучше, но возмо...
SGR на практике: частые ошибки и как их избежать В предыдущем посте не описал, как правильно готовить технику SGR, чтобы результат был хорошим. В этом разберем частотные ошибки и подводные камни, на которые можно налететь в процессе ее реализации. Напомню цель: хотим заставить LLM давать более качественные ответы с помощью комбинации двух техник: - Structured Output (SO) — модель генерирует токены согласно заданной нами схеме. - Chain-of-Thought (CoT) — перед тем, как дать финальный ответ, модел...
Всем привет! Если вы не понимаете, откуда этот канал у вас в ленте - это нормально 😁 Ранее этот канал велся под другим ником, и более регулярно. Сейчас свободного времени стало слегка больше, возможно снова вернусь к написанию постов (хотя регулярность не обещаю) Никто никого не взламывал, просто смена названия)
Новая статья от Anthropic про evals! Пока мы тут с вами откисали на праздниках, Anthropic сделали нам новогодний подарок, и выкатили крутой пост про измерение качества работы агентов. Как всегда, годнота с кучей практических советов, следование которым может сэкономить часы, потраченные на отладку и помочь понять, почему все перестало работать, хотя вчера работало нормально. Многие из них я видел раньше, но настолько лаконичное и одновременно емкое описание evals я вижу впервые. Многое рифмуется...
Token-Oriented Object Notation: экономия на спичках, или все-таки нет? На днях в одном из чатов про LLM увидел новый формат представления данных для промпта. Суть в следующем: давайте выкинем из JSON все ненужные отступы, кавычки и скобки, оставив только самую важную информацию. Меньше токенов потратим, и быстрее ответ пользователю дадим. В теории - идея крутая, надо брать. Но так ли хорошо это будет работать на деле - не вполне понятно, все-таки LLM на этом формате не учились, и могут быть проб...
В нашем мире уже не важно, насколько быстро ты узнал про новую LLM. Важно — насколько глубоко ты встроил её в свою работу. Самый наглядный здесь пример - разработка ПО. Программист, который до сих пор не использует ИИ - птица редкая, возможно даже невыездная. Все остальные можно условно разделить по уровням интеграции (частично навеяно конференцией ai-dev.live - если не смотрели, очень советую): - уровень 1 - Чат-бот в браузере. Полный контроль над результатом, но ограниченные воз...
Карго-культ и инженерия агентных систем Как и в любой быстро развивающейся области, в мире LLM копится опыт — и одновременно теряется способность этот опыт нормально систематизировать. Проблема старая (в классическом ML она тоже была), но сейчас она усугубляется двумя вещами: тотальной непрозрачности современных решений и крайней сложности воспроизводимости. Как проходили соревнования во времена Kaggle: - Решения часто были открыты: можно было посмотреть кернел победителя и понять...
Недавно разлетелась в масс-медиа картинка из исследования, с подписью вида «у России процент внедрения ИИ меньше 10», и постами в тоне, отстали мы навсегда, не будет у нас никакого ИИ. Заявления экстраординарные, и не стыкуются с реальностью, поэтому пришлось пойти проверять, а насколько это правда. В результате получилась хорошее упражнение по фактчекингу, решил и сюда выложить. Первоисточником картинки является материал Майкрософта: https://www.microsoft.com/en-us/research/group/aiei/ai-diffus...