NeuralDeep Skills: локальная база агентных навыков под ру-сервисы Всем, кто пользуется агентами, 100% известна такая вещь, как skills.sh. Это огромная база скиллов агентов под любые сервисы. Ставишь – и агент уже умеет с ними работать из коробки. Так вот, в российском сообществе давно напрашивался аналог под локальный стек. И его сделал наш друг и коллега по тг – Валерий @neuraldeep. Он в целом регулярно делает разные практичные штуки для разработчиков, и это как раз одна из них. Итак, встречайт...
Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
15 из 15⚡️ Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый интерактивный тест для эвала агентов В первых двух версиях задачки были статичные. А тут фишка как раз в динамике: бенчмарк полностью состоит из игровых сред. Каждая из игр устроена так, что ее правила, цели и механики неизвестны участнику заранее. Человек справляется с такими задачками легко, с абсолютным скором 100% (требуются только базовые знания). А вот агенты с треском проваливаются и в основном выбивают меньше 1 процента. Вот здес...
Хотя больше интересно, когда опубликуют лидерборд фронтиров
Отрывок из новой статьи Теренса Тао ⬆️ А вот отрывок из сопутствующего блога: Один из аргументов для теоремы 1.4 был предложен мне ChatGPT, так как я ранее не знал о теореме двух констант Неванлинны. <> Затем ChatGPT доказал первое из двух утверждений, лежащих в основе теоремы. Также для нахождения доказательства теоремы 1.4 через лемму 1.1 использовались AlphaEvolve и ChatGPT Pro. Такая вот новая реальность: ChatGPT доказывает утверждения для лучшего математика в мире. Фактически, это чуть не с...
Anthropic скоро выпустят новую модель под кодовым названием Claude Mythos (или Capybara) Fortune опубликовали эксклюзивный материал: они откопали утекшие внутренние документы стартапа, которые случайно оказались в публичном кэше данных компании. В указанных документах говорится, что компания готовится к выпуску новой модели и хочет действовать с особой осторожностью, потому что модель «представляет беспрецедентные риски для кибербезопасности». Как вы помните, в сети уже несколько раз всплывали н...
Google перепридумали квантование: их алгоритм TurboQuant может стать новым стандартом эффективности LLM В современных моделях проблема памяти не только в числе параметров, но и в том, что модель постоянно таскает за собой огромное количество векторов – в…
Вайбкодить теперь можно даже виртуальную реальность Google выкатили Vibe Coding XR – платформу для генерации AR/VR интерфейсов из промпта. Под капотом, конечно, Gemini, но генерирует моделька уже не просто код, а пространство + объекты + физику + интерактивность. На самом деле, операции тут происходят даже не с кодом, а со смысловыми блоками XR Blocks. Так что в строгом смысле слова это не вайбкодинг, а вайб-билдинг. Пока что выпустили в виде исследовательского прототипа (те потрогать нельзя), н...
Хорошая это новость или грустная, судите сами: ARC Invest посчитали, что к концу 2020-х суммарный объем текста, сгенерированного ИИ, превзойдет объем текста, который человечество накопило за последние 500 лет Другими словами, ИИ понадобиться всего 5-10 лет, чтобы нагнать и перегнать человечество в плане количества написанного текста. Оказалось, кстати, что 2025 стал первым годом, когда ИИ сгенерировал больше текста, чем люди. Подсчеты, конечно, очень приблизительные, – но все же.
OpenAI закончила претрейн своей следующей модели, а еще в стартапе появился отдел AGI Deployment The Information получили доступ к нескольким внутренним запискам стартапа и выяснили, что там сейчас происходят довольно большие изменения. Альтман якобы говорит сотрудникам, что в течение нескольких недель у компании будет очень сильная модель, которая "действительно может повлиять на экономику". Речь идет о модели под кодовым названием Spud (картошка), и судя по всему, ее претрейн уже окончен. Вокр...
Meta* представили TRIBE v2 – открытый симулятор человеческого мозга Это модель, которая предсказывает, как будет активироваться мозг человека, когда он что-то видит, слышит или читает. То есть TRIBE v2 – это искусственный макет того, как человек воспринимает мир. Типа API к биологическому мозгу ☕️ Самое удивительное: TRIBE v2 работает точнее МРТ(fMRI). То есть если измерить мозговую активность одного человека, она в большинстве случаев будет менее точно отображать типичную (усредненную по группе...