Attention Sinks: Allowing Attention Not To Pay Attention 🙅♂️ Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks. Recap: Attention Patterns ✍️ Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим). Для...
ML || DL
Код, нотатки, цікаві статті на тему машинного та глибокого навчання. --- З приводу питань звертатися до: @MagnumGrizzly
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
17 из 17Розбираємо цікаву статтю LLMs Can Get Brain Rot 😌 Стаття про те, що моделі теж деградують від думскролінгу. Дослідники з Техасу опублікували дуже цікаву роботу, яка викликала хвилю обговорень. Вони показали, що якщо LLM почати донавчати на низькоякісних даних із соцмереж коротких, популярних, клікабельних постах, то вона починає втрачати свої когнітивні здібності. Приблизно так само, як людина втрачає увагу і пам'ять, коли занадто багато думсерфіть. Чому так: Фактично, експеримент був наступним...
Anthropic тихо випустили Claude Haiku 4.5 Anthropic тихо і без зайового шуму презентували міні-версію Claude нового покоління. Модель одразу додали в Claude Code, Claude для Chrome, в чаті та API. На SWE-bench модель набирає 73,3%. Це більше, ніж у Claude Sonnet 4 (72,7%). Адже цю модель випустили всього півроку тому, і вона довго вважалася SOTA для кодування. Тепер таку ж якість можна отримати втричі дешевше і вдвічі швидше. Модель перевершує Sonnet 4 в метриках на Computer Use. Загалом, це пов...
Вийшла)
Ось і під'їхала технічна карта Gemini 3.0 з бенчмарками😋 Чекаємо на офіційний реліз, має бути цікаво, а зараз деякі метрики з тех.карти: – На багатьох бенчмарках істотно обходить GPT-5.1 і Sonnet 4.5. Особливо виділяється Humanity's Last Exam і ARC-AGI 2. – Круті результати на бенчмарках, пов'язаних з усілякими агентськими здібностями, розумінням зображень, відео та інтерфейсів. Це багатообіцяюче. – У кодуванні як Sonnet 4.5, щодо Gemini 2.5 Pro приріст гарний, але в цілому рівень Sonnet 4.5.
Андрій Карпаті випустив цікавий влог по створенню LLM Council😍 LLM Council — це проста локальна веб-програма з інтерфейсом, як у ChatGPT, але з тією різницею, що запит надсилається через Openrouter декільком LLM. Отримані відповіді перехресно оцінюються і ранжуються, і, нарешті, «модель-голова ради» формує остаточну відповідь. Для використання потрібен API-ключ OpenRouter. На ваші запити відповідає рада з мовних моделей. Ідея полягає в тому, що замість того, щоб задавати питання одній LLM, ви м...
Відійдемо трохи від новин стосовно OpenAI Devday та розглянемо нобелівку з фізики 😜 Цього року присудили за відкриття в галузі квантових обчислень. Нагороду щойно отримали Джон Кларк, Мішель Деворет і Джон Мартініс. У 80-х вони вперше довели, що явища квантової механіки, які зазвичай спостерігаються тільки на мікроскопічному рівні, можуть проявлятися в повнорозмірних системах. Вони встановили, що так зване квантово-механічне тунелювання можливе на макрорівні. У їхніх експериментах використовува...
Прилетіло оновлення для Claude Sonnet 4.5 та Claude Code😌 Claude Sonnet 4.5🫶 Тепер у Anthropic знову SOTA модель для кодування. Модель впевнено обганяє GPT-5 на всіх бенчмарках з програмування, на інших йдуть майже нарівні. Claude Code✌️ – Додали нове розширення для VS Code – Оновили інтерфейс терміналу – Додали команду для швидкого повернення до попереднього чекпоїнту, або на кілька кроків назад і команду для швидкого переходу до розширеного ризонінгу – Тепер агент прямо в терміналі зможе ств...
Кохана, прокидайся, у нас перша українська мультимодальна LLM ☕️ Вийшла MamayLM v1.0 — модель на базі Gemma 3, натренована на датасеті Kobza (писав про нього туточки). Gemma обрали, бо базова модель і так добре знає українську, тож якщо трохи допилити, то взагалі буде бомба 💣 Модель краще за будь-яку іншу знає нашу історію та культуру, а також файно вирішує українське ЗНО — на бенчмарку, який нещодавно вірусився, MamayLM упевнено обходить майже всі опенсорсні моделі, навіть з більшою кількістю ...