Написал на Хабре статью: Пример реализации агентного RAG'а В ней разобрал как с помощью marker'а, Qwen3-14B, MCP-сервера, энкодера FRIDA и библиотеки Agno создать несложный агентный RAG. З.Ы. Агентный RAG это такая система, которая может: анализировать сложные запросы, составлять план действий и вызвать внешние инструменты. И все это для выполнения поставленной задачи.
LLM is all you need
LLM, RAG, агенты и вот это вот все... #free #news #теория #RAG #retriever #chunk #prompt_engineering #железо #benchmark #API #inference #chat #мероприятия #contest Курсы -> https://stepik.org/a/231306 и https://stepik.org/a/68260 Для связи -> @slivka_83
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
7 из 7Решил я тут на выходных прокачаться в говновайб-кодинге :) Результатом стала статья на Хабре, в которой я кратко рассмотрел ряд инструментов AI-кодина: 50 оттенков вайб-кодинга
#RAG Мне нравится рассматривать RAG как воронку продаж. Воронка продаж — это маркетинговая модель, которая описывает путь потенциального клиента от первого контакта с продуктом до совершения покупки. Почему именно воронка? Потому что RAG "сужается" по мере своего продвижения словно воронка продаж. Рассмотрим на примере... Допустим у нас есть 100 тестовых вопросов, которые мы пропускаем через RAG: 1. На первом шаге ретривер возвращает 300 чанков (на каждый вопрос). Но, т.к. ретривер у нас не идеа...
Решил тут разобраться в великом множестве локальных UI-клиентов для LLM. Поставил себе 10 штук и опробовал их. Результатом проб стала статься на Хабре: Краткий обзор 10 локальных UI для LLM
Написал на Хабре статью, в которой описал какими способами можно добиться от LLM вывода в строго заданном формате (Structured Output): https://habr.com/ru/articles/978534/
logit_bias это параметр генерации, который позволяет контролировать какие токены и с какой вероятностью должна печатать модель. Как он работает... Рассмотрим такой запрос: Столица Франции? Одним словом.. Скорее всего мы получим ответ: Париж. Но мы хотим "услышать" от модели что-то другое. Сначала выясним из каких токенов состоит слово Париж. from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('/models/qwen/Qwen3-14B') token_ids = tokenizer.encode('Париж') token_text ...
Когда LLM печатает текст она делает это последовательно - токен за токеном. И на каждом шаге модель считает вероятность появления следующего токена (среди всех токенов в словаре). Используя эти вероятности можно посчитать "уверенность" модели в ответе. Через OpenAI API это делается так... Сначала получаем ответ: import os import numpy as np from openai import OpenAI client = OpenAI( base_url='http://192.168.0.108:8000/v1', api_key='any' ) prompt = 'Самая вкусная рыба? Одним предложением.' respon...