310просмотров
19 ноября 2025 г.
storyScore: 341
Я думал PDF парсинг вышел на новый уровень, раз он всем нужен для LLM.
Но нет, есть стопицот библиотек и каждая что-то делает хорошо, а что-то хуже другой.
А самый рофель — это парсер, у которого в 10 раз больше лайков, он использует внутри ML, но парсит PDF ХУЖЕ ВСЕХ. Имхо мы бы уже летали на Нептун, если бы вместо pdf,docx,etc.. мы писали документы, как в RFC. Вы только посмотрите на эту красоту!!! https://www.rfc-editor.org/rfc/rfc2616.txt PS: А вообще парсеры не нужны, LLM-ка разберется в чем угодно.
Вот только у вас нет GPU, пакетик.