Работа с PDF-файлами в Python (часть I): чтение и разбор

В эпоху бурной цифровизации Portable Document Format (PDF) — межплатформенный открытый формат электронных документов, изначально разработанный компанией Adobe Systemsએ с использованием ряда возможностей языка PostScriptએ, стал особенно популярным. В первую очередь, он предназначен для представления в электронном виде полиграфической продукции. C 1 июля 2008 года PDF стал открытым стандартом ISOએ 32000. Последняя версия ISO 32000‑2: 2017 впитала …

Работа с PDF файлами в Python (часть II): добавление изображений и водяных знаков

Сегодня мир без Portable Document Format (PDFએ) кажется немыслимым. Этот формат стал поистине самым распространённым из форматов данных для обмена электронными документами. Вплоть до версии PDF 1.4, отображение всех PDF‑документов в соответствующих «читалках» работает нормально, но к сожалению, функции из новых редакций PDF, например, формы сложно реализуемы и всё еще требуют дальнейшей доработки для достижения …

Работа с PDF-файлами в Python (часть III): вставка, удаление и изменение порядка страниц

Эта статья является третьей и завершающей частью серии небольших конспективных статей о работе с PDF‑файлами в Python. В предыдущих статьях вы, надеюсь, познакомились и отрепетировали основные приёмы чтения PDF‑документов, научились манипулировать существующими PDF‑файлами, а также читать и извлекать содержимое, как текст, так и изображения. Кроме того, мы обсудили разделение документов на отдельные страницы, а также …

Как извлечь текст из изображений в файлах PDF

В настоящее время компании среднего и крупного масштаба ежедневно используют огромное количество печатных документов. Среди них — счета-фактуры, квитанции, корпоративные документы, отчеты и пресс-релизы. Для этих компаний использование сканера OCRએ может сэкономить значительное количество времени, одновременно повышая эффективность и точность. Алгоритмы оптического распознавания символов (OCR) позволяют компьютерам автоматически анализировать напечатанные или рукописные документы и подготавливать …