Как конвертировать pdf в текст

Автор:SEO

Как конвертировать pdf в текст

На днях тут возникла одна задачка — нужно было конвертировать большой документ pdf в текстовой формат. Сходу это сделать не получилось. Была альтернатива, либо быстро конвертировать этот pdf документ, любо тупо сидеть набивать все руками, а это больше 50 страниц! Причем под рукой только Linux! Да и платные решения совсем не было желания пробовать или идти туда, где есть Windows и что-то ставить на чужой машине тоже не хотелось.

Исходные данные:

— OpenSuse
— большой документ pdf с картинками и сложной графикой на 13 мегабайт, материал в котором представлен в виде картинок, результат сканирования журнала + обычный pdf документ, информация в котором была представлена в виде текста.
— интернет
— несколько текстовых редакторов на компьютере

Основная задача:

— Получить текст документа

Почему я взял два разных документа, вы наверное уже догадались, так как задачи и методы будут совсем разные. В первом случае предстоит найти средство распознавания картинок и преобразования в текст, во втором случае предстоит простое преобразование текста из одного формата в другой.

Первая пришедшая в голову мысль — интернет сервисы по конвертации pdf файлов. В роли подопытных файлов выступили два документа с разной структурой. Первый был сканом печатного журнала, преобразованного в pdf документ. Второй был настоящим текстовым документом, просто конвертируемым в дальнейшем в формат PDF.

Об авторе

SEO administrator