НАДО РАЗОБРАТЬСЯ ‖ заставляем LLM работать

@nado_razobratsya_ai💻 Технологии🇷🇺 Русский📅 март 2026 г.

💭 Выясняем, почему [ ИИ ‖ LLM ‖ агенты ] 🤖 не делают то, о чём мы просим, и делают то, о чём не просим. 🐑

📊 Полная статистика 📝 Все посты

##39

146

Подписчики

166,4

Ср. охват

114%

Вовлечённость

Постов

~0.2

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

15 из 15

nado_razobratsya_ai

28 дек., 13:43

💭 LLM не понимают намерение пользователя? 📄 В статье “Beyond Context: Large Language Models Failure to Grasp Users Intent” авторы исследуют, как LLM работают с глобальным намерением (интентом) пользователя на примерах обеспечения безопасности. Ключевой результат: если локальный запрос формально легален, но в совокупности с глобальным контекстом противоречит требованиям безопасности, модели всё равно дают ответ. В статье приводятся примеры: – подавленное, суицидальное состояние + вопросы о глуб...

👁 263📷 photo

📊 Аналитика

nado_razobratsya_ai

24 дек., 21:58

💭 Как мы оцениваем LLM и агентов? Текстовые бенчмарки — один прогон. Агентные задачи — 1–3 запуска из фиксированного состояния. И после этого делаются выводы о качестве и готовности агентов. Где статистика? Где вероятность отказа? Где границы применимости? При этом агентам уже доверяют конфиденциальные данные и оперативные решения – на основании вывода уровня «вроде работает». 😱 А как же узнать, с какой вероятностью и в каких условиях агент удалит вашу базу данных или положит сервер? Или, напр...

👁 238

📊 Аналитика

nado_razobratsya_ai

17 янв., 13:52

💭 ИИ-модели «боятся» перечить группе. Всем привет! 🖖 Насколько вы подвержены конформизму? 🎦 Есть очень показательный психологический эксперимент «Обе белые» (фильм «Я и другие», 1971). Суть простая: Берут группу подставных лиц (актёров) и одного испытуемого. Перед ними ставят одну белую и одну чёрную пирамидку. По очереди спрашивают, какого они цвета. Актёры уверенно говорят, что обе пирамидки белые. Когда очередь доходит до испытуемого – он тоже отвечает, что обе белые. 🤯 Но дальше группу у...

👁 221

📊 Аналитика

nado_razobratsya_ai

6 янв., 22:46

💭 Всем привет и с наступившим Новым годом! 🎄🎉🎁 🎄🎄🎄🎄🎄🎄🎄🎄🎄🎄 Пусть разбираться с “новым” будет в удовольствие, а ощущение, что вы в контексте, не покидает никогда 🥳🥳🥳 🎄🎄🎄🎄🎄🎄🎄🎄🎄🎄 А сегодня – продолжаем тему “потерянного в середине” (Lost in the Middle). Я наконец-то выложил вторую, более прикладную часть статьи "Антипаттерн LLM-приложений: когда модель игнорирует контекст" на Хабр – про заявленное и эффективное контекстное окно. Что такое “эффективное окно”? 🤷‍♂️ Это разм...

👁 209

📊 Аналитика

nado_razobratsya_ai

29 янв., 14:55

💭 Промпт-инструкции не меняют «идентичность» моделей Мы привыкли «натягивать» на нейросети личности: «Ты – креативный директор» или «Ты – ироничный ассистент». 🗿 Кажется, что мы создаём субъекта, но на деле мы просто меняем «интерфейс». В чем проблема? 📄 Исследование "The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs" показывает: психологическая устойчивость модели – это иллюзия. 1⃣ Разрыв слова и дела: LLM прекрасно описывает себя как «честную и независ...

👁 192

📊 Аналитика

nado_razobratsya_ai

13 янв., 11:45

💭 Как проектировать LLM-приложения, чтобы контекст реально работал (а не ломал ответы) С учётом lost in the middle, позиционных перекосов и деградации на длинном контексте, набор практичных принципов: 1️⃣ Держите контекст минимальным и целевым В промпте – только то, без чего модель точно не ответит. Всё, что “на всякий случай”, выталкивает важное в слепую середину. 2️⃣ Разделяйте “долгую память” и “рабочую память” История/факты/прошлые ответы – во внешнее хранилище (БД/векторы). В промпт – крат...

👁 182

📊 Аналитика

nado_razobratsya_ai

4 февр., 15:52

🚶‍♀️Вдогонку к предыдущим постам: чего вообще мы хотим, когда задаём LLM роль в промпте? «Ты – интеллектуальный ассистент», «ты – senior‑программист», «ты – доменный эксперт»… ⏺️ Обычно мы предполагаем, что модель начнёт отвечать точнее и экспертнее. ❓Но действительно ли это так? Стали бы ответы хуже, если бы мы вообще не задавали роль и оставили «базовую» модель без всей этой ролевой обвязки? 📑Исследование "When “A Helpful Assistant” Is Not Really Helpful" (2024, но всё ещё актуально) показыв...

👁 178

📊 Аналитика

nado_razobratsya_ai

13 янв., 11:00

💭 Сколько текста LLM учитывают эффективно? Исторически для длинного контекста использовали тест Needle-in-a-Haystack (NIAH, "иголка в стоге сена”). Современные модели эту задачу решают практически на 100%. Более показательные бенчмарки: 1️⃣ RULER – нужно извлекать несколько фактов / выбирать правильную “иглу” среди нескольких в зашумлённом контексте. 2️⃣ NoLiMA – ещё сложнее: связи ассоциативные, прямых совпадений слов почти нет. Эффективное окно – это длина контекста, на которой модель удержив...

👁 160📷 photo

📊 Аналитика

nado_razobratsya_ai

20 февр., 14:53

💭 Как управлять поведением LLM через поведенческий профиль? Роль разваливается, деградирует, не повышает эффективности… Звучит безнадёжно. 🫠 Но ведь на практике всё иначе: скажи модели «будь жёстким критиком» — она разнесёт твои аргументы. Скажи «распиши по-пацански» — ещё и объяснит, почему ты «дятел». 😳 Так что, роль всё-таки работает? ❗️Да. Но это не «личность» как глобальный инвариант поведения, а краткосрочный поведенческий профиль. Тебе в моменте говорят: «не будь конформным, не иди за ...

👁 160

📊 Аналитика

nado_razobratsya_ai

29 янв., 10:58

💭 LLM как модель человека LLM часто используют как модель поведения человека при имитации и моделировании социальных явлений: 👩‍👩‍👧‍👧 групповое взаимодействие, коллективный выбор, спрос, реакции на давление и т.п. (вот несколько интересных и относительно свежих статей: 📄 "LLM Social Simulations Are a Promising Research Method", 📄 "Using Large Language Models to Simulate Human Behavioural Experiments: Port of Mars", 📄 "Social science researchers use AI to simulate human subjects") Это удо...

👁 149

📊 Аналитика

Типы хуков

Нейтральный10 | 150 просм.

Вопрос5 | 200 просм.

Длина постов

Очень длинные (1000+)11 | 169 просм.

Длинные (500-1000)3 | 163 просм.

Короткие (<200)1 | 146 просм.

Влияние эмодзи

170

С эмодзи (11)

155

Без эмодзи (4)

+9.7% охвата

Типы контента

📝

text

170 просм.

📷

photo

159 просм.

⚠️ 0/100

Подозрительно высокий охват

#10787

из 13,281 в Технологии