🚀 От старта до "наши дни": Часть 2. Первая обработка данных — @wolfeater

416просмотров

61.4%от подписчиков

7 декабря 2025 г.

🎬 ВидеоScore: 458

🚀 От старта до "наши дни": Часть 2. Первая обработка данных. Думал написать сразу и о данных и о первом опыте написания кода через чат с LLM, но понял что надо делить. Посты под эпосы не подходят😁 🐺 Данные ... Это боль, если честно. Реалии таковы, что хорошо если хоть что-то в компании собирается - база знаний, инструкции, часто задаваемые вопросы и т.д. Но в реальности, в большинстве компаний, нет ничего. Вам на заметку, если захотите внедрять в своем бизнесе любого ИИ ассистента вам 100% понадобятся данные компании. Обычный чат и генерация от LLM никак не подходит для поддержки, продаж, внутренних процессов. Чистая генерация без данных это пользовательская история, в чатах, в которых вы общаетесь с ИИ. Так что собирайте данные уже сейчас, все что можете. Ну, а будете выбирать сервис для поддержки, то конечно же остановите свой выбор на "Ответ: Привет!" :) Или просто напишите мне) Возвращаясь к данным. В компании, с которой начал работать над ИИ ассистентом в начале 2025 года, из прошлого поста, были данные. Собирались пары вопрос/ответ с сайта. Я думал "Аллилуйя", пока не увидел эти "пары": 🐺 Это были огромные таблицы по направлениям с тысячами строк 🐺 Пары вопрос/ ответ были, но... Было еще несколько столбцов совершенно ненужной информации. Для этого есть название "грязные данные" 🐺 Ответы были реальными, от менеджеров тех поддержки. А тааааам ... И отписки, и ошибки в адресах и сообщения типа "отправил вам на почту". Это все грязные данные Тогда я "намотал на ус" это опыт. В сервисе обязательно должен быть этап "Очистки и подготовки данных". В подготовку данных может входить: 🐺 Очистка от ненужных данных 🐺 Желательно перевод файлов в txt или md формат. Как самые простые и легковесные форматы 🐺 Разметка данных с помощью Markdown форматирования. Т.е. разметка с помощью спец символов - заголовков, подзаголовков, списков, разделителей, более важных частей жирным и т.д. Дело в том что LLM изначально обучаются именно на размеченных в Markdown данных и отлично понимают эту разметку. 🐺 Обогащение тегами, дополнительно сгенерированными данными или данными из поиска Это самые первые и простые подходы, их существует множество. Что же сделал я с полученными таблицами: 🐺 Удалил лишние столбцы, оставил только два с Вопросами и Ответами 🐺 Загружал каждую таблицу в чат с Gemini 2 Flash Lite с примерно таким промтом: "Во вложении таблица. В столбце А Вопрос, в столбце B Ответ на вопрос из столбца А. Твоя задача обрабатывать за раз 100 строк и давать мне по 100 пар Вопрос / Ответ. В формате: <<<# Вопрос Ответ>>> После каждых 100 пар останавливайся и жди моей команды <далее> после которой пиши следующие 100 пар вопрос/ответ" 🐺Получал по 100 пар, руками добавлял их в файл txt, генерил новые и опять добавлял. Так обработал все имеющиеся таблицы 🐺 Выяснил у клиента ошибочные контактные данные и на что их надо менять. Заменил через массовую замену в Sublime текст Тогда я еще много не знал и никаких дополнительных инструментов еще не было. Сейчас я бы просто написал скрипт для всех этих действий и обработал все за несколько минут, вместо нескольких дней Вот такие пироги! Собирайте данные, сами их очищайте или обращайтесь к имеющим опыт В следующем посте расскажу о первом опыте программирования с помощью LLM тупо в чате. Добра! 🤟

Другие посты @wolfeater