Помимо ChatGPT 4.1, которую OpenAI добавила в ChatGPT, есть ещё одна громкая новость, но её почти не заметили. Исправляем ситуацию 😬 Компания представила HealthBench — как вы поняли по названию, OpenAI амбициозно именует это главным медицинским бенчмарком всех времён и народов. В его разработке участвовали 262 врача из 60 стран, проведено 5000 реальных бесед докторов с пациентами. HealthBench проверяет, насколько хорошо модели ИИ работают в реалистичных сценариях оказания медицинской помощи, ос...
Никита про LLM
Пишу про главные новости из мира LLM — только самое важное, без инфошума Автор: @nikitayusupov — отвечаю за внедрение LLM и аналитику в крупной EdTech компании, ex. Chatfuel (YC W16), ex. Tinkoff, ex. МФТИ
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
15 из 15🖥 Анализ видео с помощью LLM Если вы хотите добавить видео в контекст LLM, то есть две опции: 1️⃣ Использовать модель, которая из коробки работает с видео. Например, Gemini 2️⃣ Нарезать видео на кадры, и по одному подать в модель, которая работает с фото (большинство современных) Для второго способа появилась удобная автоматизация - Simon Willison, один из создателей Django, выложил плагин llm-video-frames: 🔵 Можете задать количество кадров в секунду. Это напрямую влияет на стоимость анализа �...
🚀 Обновление Gemini 2.5: ещё дешевле запросы + анализ видео до 6 часов На праздниках Google выпустили обновленные версии Gemini 2.5 Pro и Gemini 2.5 Flash. Что нового: 📉 Implicit  caching - похожие запросы автоматически будут дешевле: 🔵 75 % скидка на повторяющийся префикс — без ручной настройки 🔵 Держите системный промпт и контекст в начале, а меняющиеся данные — в конце запроса 🔵 Нужна 100 % гарантия экономии? Явный Cache API остаётся 🎬&#...
📎 MCP — что это и зачем нужен, простыми словами MCP - стандарт, который упрощает взаимодействие LLM c внешними источниками данных. Например, вы хотите чтобы ваша локальная модель имела доступ к актуальному прогнозу погоды. Тогда вам нужен: 1️⃣ MCP-сервер. Это программа, которая должна отдавать данные о погоде в строго определенном формате 2️⃣ MCP-клиент. Это программа, внутри которой "живет" LLM и которая обращатеся к MCP-серверу, чтобы узнать погоду В итоге процесс выглядит так: ▶️ Клиент один...
😎Создание MCP-сервера для анализа фондового рынка Выше разобрали, зачем нужен MCP и где брать готовые реализации MCP-серверов. Сегодня смотрим на гайд от по созданию своего сервера с FastMCP и LangChain. Они значительно упрощают процесс, избавляя от лишнего кода. В примере используется библиотека YFinance для получения данных о фондовом рынке. В видео разобраны: 📎 Сервер 🔘создаём FastMCP-сервер 🔘добавляем функции: квартальные/годовые отчёты 🔘локальный запуск, можно хостить 📎 Клиент 🔘подкл...
YAML vs JSON: Улучшаем результаты Function calling для LLM Ex. рисерчер из Meta обучал LLM для вызова внешних функций и заметил интересный эффект: при использовании JSON модель быстро теряла разнообразие идей из-за строгого синтаксиса (например, кавычки и запятые). Это приводило к entropy collapse — модели становились слишком "зажатыми". В качестве решения он предложил перейти на YAML: 🔵Модель тратит меньше усилий на синтаксис, больше — на содержание (в примере: 64 символа в JSON → 44 в YAML). ...
🐷 Deep Research от OpenAI стал доступен бесплатно Подписчики Plus и Pro тарифов по окончании лимитов Deep research теперь переключаются на Lightweight версию Free юзерам облегченная версия research доступна сразу Ответы будут короче, но сохранят глубину и полноту, к которым вы привыкли - пишут OpenAI. Lightweight работает на основе o4-mini. Она не такая умная, как полная версия, но дешевле, поэтому лимиты больше: 🔵Free-tier – 5 запросов Lightweight в месяц 🔵Plus & Team – 10 Deep research + 15...
😮💨 Почему нельзя доверять Chatbot Arena Ведущие исследователи ИИ из DeepMind и Cohere изучили популярную арену для LLM. Они обнаружили, что из-за предрелизного тестирования модели могут оптимизироваться не под реальные задачи, а под вкусы аудитории арены. Бывший глава АИ в Tesla Андрей Карпатый подтвердил: ☹️ Модель Gemini заняла 1 место — но в реальности была хуже. ☹️ Claude 3.5 — хорош в реальных задачах, но в арене почему-то далеко внизу. ⭐️ Команда LM Arena ответила на эти комментарии: 🔵...
🔥 Теперь можно увидеть, сколько энергии сжигает каждый промпт На Hugging Face появился ChatUI-energy — чат-бот, который показывает, сколько энергии вы тратите на запрос к ИИ. При этом модель и промпты исполняет, и данные по затраченному электричеству выдаёт. Например, на простой дефолтный запрос Write an email from bullet list ушло чуть больше 0,5 Вт/ч. 🔋 Это вообще сколько? 😍 3% заряда батареи среднестатистического современного смартфона 😍 30 секунд работы ноутбука 😍 2 секунды работы элект...
💵 Запускаем LLM уровня o3-mini локально и бесплатно Google изобрели новый способ квантования и выпустили обновленные Gemma 3. Полученные модели не теряют в качестве, а весят значительно меньше исходных. Теперь чтобы запустить Gemma 3 27B, вам понадобится всего лишь 20 GB видеопамяти, при этом вы получите: 🔵Контекстное окно 128к токенов 🔵Поддержка 140 языков 🔵Анализирует изображения Попробовать можно через ollama: ▶️Скачайте приложение ollama ▶️Выполните ollama run gemma3:27b-it-qat в термина...