U
underground
@mlunderground2.2K подп.
9.2Kпросмотров
25 августа 2023 г.
Score: 10.2K
Как работает vcsurf Итак, пришло время рассказать, что может vcsurf и как устроен сервис. 1. Работа с pdf. Когда юзер загружает свой дек для анализа, нужно достать из него весь текст для последующей работы. Это делается с помощью файнтюненой модели на layout + ocr tesseract. 2. Классификация В бэке сервиса есть большое количество моделей, которые помогают определять потенциальные параметры стартапа по его описанию. Модели здесь debertav2 и v3, обучены с нуля на выбранных мной датасетах с достаточно широкими доменами + тюн на деки 1к+ стартапов 3. Работа с текстом дека. Здесь самое сложное. Нужно почистить текст после ocr и не потерять никаких важных деталей. Пока опущу момент как делать это быстро и без заметных потерь. Есть модель саммаризации после этого этапа, лежит на everinfer.ai. 4. Векторные бд. С помощью поиска по ним (насобирал очень много постов и текстов) создается контекст для последующей обработки с помощью LLM конкретно под каждый дек. Работает на удивление приятно, очень быстро можно получить инфу по конкурентам, рынку и тд. Есть парсинг в реальном времени, но пока на него не ориентируюсь, слишком затратно, но иногда очень ценно по данным. Некоторые моменты я пропустил или специально не рассказал, поскольку сейчас активно тестирую и перебираю варианты Лендинг (подробное описание фичей) - hi.vcapp.one Еще кстати у нас закрытая бета, записываться здесь @air_korolev в формате “я занимаюсь X, хочу попробовать vcsurf для Y” Скоро будет лаунч на продактхант для юзеров, готовьтесь)
9.2K
просмотров
1520
символов
Нет
эмодзи
Нет
медиа

Другие посты @mlunderground

Все посты канала →
Как работает vcsurf Итак, пришло время рассказать, что может — @mlunderground | PostSniper