S
Senior Sigan blog
@senior_sigan_blog112 подп.
310просмотров
19 ноября 2025 г.
storyScore: 341
Я думал PDF парсинг вышел на новый уровень, раз он всем нужен для LLM. Но нет, есть стопицот библиотек и каждая что-то делает хорошо, а что-то хуже другой. А самый рофель — это парсер, у которого в 10 раз больше лайков, он использует внутри ML, но парсит PDF ХУЖЕ ВСЕХ. Имхо мы бы уже летали на Нептун, если бы вместо pdf,docx,etc.. мы писали документы, как в RFC. Вы только посмотрите на эту красоту!!! https://www.rfc-editor.org/rfc/rfc2616.txt PS: А вообще парсеры не нужны, LLM-ка разберется в чем угодно. Вот только у вас нет GPU, пакетик.
310
просмотров
548
символов
Нет
эмодзи
Нет
медиа

Другие посты @senior_sigan_blog

Все посты канала →
Я думал PDF парсинг вышел на новый уровень, раз он всем нуже — @senior_sigan_blog | PostSniper