Да-машина: почему ваш AI никогда не скажет что код — отстой Пользователь спросил ChatGPT про бизнес-идею «говно на палке». Ответ: «It’s not just smart - it’s genius». Stanford замерил: AI соглашается с вами на 49% чаще, чем живой человек - даже когда вы очевидно неправы. Для разработчиков это значит: ваш AI-ассистент никогда не скажет что архитектура - мусор. Читать далее #ai #сикофантия #claude #chatgpt #код_ревью #rlhf #stanford | @habr_ai
Хабр / ML & AI
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр. Данный канал не является официальным представительством платформы Хабр. Администратор - @evilfreelancer
Лучшие публикации
20 из 20Как агенты видят веб-страницы Так как типичная LLM обучена работать с текстом, первые попытки были просто давать модели чистый HTML. И как не странно, это даже работало, причём надёжнее, чем ожидалось скептиками. Одновременно в параллельной вселенной существовали E2E тесты, которые имитировали живых юзеров, нажимали на кнопки и заполняли поля. И этим тестам тоже как-то надо было отслеживать изменения на экране. Сравнение скиншотов оказалось крайне не надёжным методом. Тут разработчи...
Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один? Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и...
[Перевод] Как ИИ попал в нашу питьевую воду. И почему никто не знает, что с этим делать В 2025 году DOGE под руководством Илона Маска активно использовала ИИ. Как показали последующие расследования, система неправильно интерпретировала контрактные данные Министерства по делам ветеранов, не разобралась в правилах Министерства жилищного строительства и совершила множество других серьёзных ошибок. И, разумеется, галлюцинировала на каждом шагу. Последствия оказались весьма ощутимыми. И всё же, как н...
Конец преимущества корпораций: как вайбкодинг уравнял малый бизнес с энтерпрайзом в автоматизации Привет! Я Александр Петросян, продуктовый фулстек-разработчик в проектах по автоматизации бизнеса и автор курса по вайбкодингу в Практикуме. Последний год-два воочию наблюдаю как шатаются базовые устои в разработке автоматизации разного калибра. Стабильный, поддерживаемый, расширяемый и безопасный код уже не главный герой — требования бизнеса изменились. Сейчас бизнес хочет быстрее, дешевле и ближе ...
Почему Hyundai смогла сделать из Atlas заводского робота, а другие — нет Boston Dynamics сделали Atlas в 1992 году. За 30 лет он научился делать сальто, бегать по бездорожью и прыгать через препятствия. Три разных владельца — Google, SoftBank, Hyundai — вкладывали деньги, восхищались и снимали вирусные ролики. Но заводским роботом он стал только у третьего. Почему у двух предыдущих не получилось — и что именно сделала Hyundai, чего не сделали другие → Читать далее #boston_dynamics #hyundai_atlas...
ИИ в работе системного аналитика: от промтов до ТЗ Практический разбор на примерах: сбор требований, диаграммы, Use Cases и ТЗ. Плюсы, минусы,подводные камни и промт-чеклист для системного аналитика. Читать далее #ии #системный_анализ #системный_аналитик #промт_инжиниринг #нейросети #chatgpt #искусственный_интеллект #plantuml #use_cases #сбор_требований | @habr_ai
ML/AI в системе мониторинга: прогнозирование и предотвращение инцидентов Привет, Хабр! Меня зовут Павел Степуро, я исполнительный директор ДИТа «Занять и Сберегать» в Сбере. Вы по-прежнему работаете в ИТ, сопровождаете автоматизированные системы и уже ознакомились с моей первой статьёй про путь от создания базовой системы мониторинга к системе автоматизации и принятия решений Именно поэтому вы находитесь здесь… И это продолжение пути. Итак, вы создали систему мониторинга мечты! У вас уже есть по...
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде. Читать далее #p...
Гонка ИИ-моделей в 2026: реальный прогресс, маркетинговый шум и что от этого всем нам Привет, Хабр! Февраль 2026 года. За один месяц вышли: Gemini 3.1 Pro от Google, Claude Sonnet 4.6 и Opus 4.6 от Anthropic, GPT-5.3 и GPT-5.4 от OpenAI (5.4 — через два дня после 5.3, без каких-либо объяснений), Grok 4.20 от xAI, Qwen 3.5 от Alibaba, DeepSeek V4, GLM-5 от Zhipu, Seed 2.0 от ByteDance. Семь крупных лабораторий, десятки моделей, один месяц. И это только верхушка — LLM Stats отслеживает больше...