B
BEHOLDERISHERE.сonsulting
@BIHconsulting2.9K подп.
10.3Kпросмотров
2 февраля 2026 г.
📷 ФотоScore: 11.3K
КРИМИНАЛИСТИКА PDF-ФАЙЛОВ #Криминалистика PDF - основной формат цифрового документооборота. Отчеты, презентации, договора, судебные решения, контракты и т.п. в 9 из 10 случаев будут именно таком виде. Сам формат, задумывался Adobe как универсальный формат электронных документов с защитой от изменений и повышенной безопасностью, но всем при этом его можно считать, наверное, самым часто "модифицируемым" для часто не совсем хороших целей. Что же можно сделать, для того чтобы подсмотреть какие секреты он хранит? 🔻 ИССЛЕДОВАНИЕ ИЗОБРАЖЕНИЯ. Чаще всего сканеры (аппаратные и программные) автоматически конвертируют свежеполученное изображение документа сразу в PDF, но, по сути, все графические артефакты свойственные обычной картинке могут остаться. Как работать с всяким скрытым в изображениях, я писал тут ранее. 🔻 ИССЛЕДОВАНИЕ ДОКУМЕНТА. По сути, pdf документ — это сборник различных объектов- страниц, текста, встроенных изображений, геометрических фигур, линий, кривых и т.п. И чтобы удостовериться в целостности документа можно извлечь и изучить все из чего он состоит. Тут и метаданные как самого файла, так и отдельных страниц, информация о встроенных изображения, информацию о используемых шрифтах, и данные о используемых графических элементах. Все это, будет представлено как набор слоев, порядок которых может указывать на порядок их добавления в документ, представляя вам весь таймлайн изменений. Прекрасным подспорьем для этого могут служить инструменты PDFplumber и PyMuPDF 🔻 ПОИСК ПЕРЕКРЫВАЮЩИХ ЭЛЕМЕНТОВ. Самым простым способом убрать какой-то текст или изображение считается перекрытие его простым графическим элементом с заливкой. Инструменты Unredact и X-ray как раз ищут подобное и удаляют ненужное в автоматическом режиме. 🔻 ИЗВЛЕЧЕНИЕ ТЕКСТА. Ну и, разумеется, сам текст. Он может быть рукописным и трудночитаемым, может быть на каком-то неизвестном вам языке, может быть выполнен специфическим шрифтом. Со всем этим вам поможет разобраться (в смысле- распознать и перевести) старичок Tesseract - самый популярный опенсорсный движок для распознавания текста и DocTR, еще одна распозновалка для текста, как нынче модно, со встроенным ИИ. Обратиться за консультацией | Инструментарий
10.3K
просмотров
2215
символов
Нет
эмодзи
Да
медиа

Другие посты @BIHconsulting

Все посты канала →
КРИМИНАЛИСТИКА PDF-ФАЙЛОВ #Криминалистика PDF - основной фор — @BIHconsulting | PostSniper