Один из моих планов на 2026 год — выступить публично 5 раз. — @Gpt_budni

418просмотров

24 января 2026 г.

statsScore: 460

Один из моих планов на 2026 год — выступить публично 5 раз. Первое выступление уже случилось на ИИ кейс-клубе Альфа-Банка (пришло 3 тысячи слушателей 🤯). Моя тема была "Как LLM работают с разными форматами файлов". Решил также поделится этой информацией с вами. Коротко: Большие языковые модели (LLM), не спроста так называются, они обучались на большом корпусе текстовых данных, поэтому формат текста для них подходит лучше всего. TXT - идеальный формат: текст извлекается напрямую без искажений. Единственный риск - потеря контекста. Например, если загрузить “Братьев Карамазовых” и попросить переписать конкретный фрагмент, первую реплику Дмитрия на суде, модель ответит галлюцинацией. PDF - сложнее, потому что это, по сути, визуальный контейнер. Внутри может быть что угодно: плохие сканы, таблицы, распиленные на разные страницы. PDF - это современное искусство, что окажется внутри ограничивается только фантазией художника. На этапе извлечения информации из файла, конечно же, будут происходить искажения. Один из вариантов, как можно улучшить качество, сделать гибридный подход: извлекаем одну и ту же информацию, используя модель, затем код, сопоставляем построчно. Excel - может работать, когда выстраивается цепочка действий: вопрос -> код -> выполнение кода -> ответ. Если в вашем Excel-файле нет чувствительных данных, вам повезло: современные флагманские модели умеют делать такую цепочку под капотом (за один вызов LLM). MP3/MP4 - надо транскрибировать в текст. Сами по себе LLM не анализируют интонации голоса и эмоции человека. Даже если такой файл можно добавить в LLM, с которой вы работаете, все равно достать больше информации, чем было в тексте, вы не получите.

Другие посты @Gpt_budni