На днях тут возникла одна задачка — нужно было конвертировать большой документ pdf в текстовой формат. Сходу это сделать не получилось. Была альтернатива, либо быстро конвертировать этот pdf документ, любо тупо сидеть набивать все руками, а это больше 50 страниц! Причем под рукой только Linux! Да и платные решения совсем не было желания пробовать или идти туда, где есть Windows и что-то ставить на чужой машине тоже не хотелось.
Исходные данные:
— OpenSuse
— большой документ pdf с картинками и сложной графикой на 13 мегабайт, материал в котором представлен в виде картинок, результат сканирования журнала + обычный pdf документ, информация в котором была представлена в виде текста.
— интернет
— несколько текстовых редакторов на компьютере
Основная задача:
— Получить текст документа
Почему я взял два разных документа, вы наверное уже догадались, так как задачи и методы будут совсем разные. В первом случае предстоит найти средство распознавания картинок и преобразования в текст, во втором случае предстоит простое преобразование текста из одного формата в другой.
Первая пришедшая в голову мысль — интернет сервисы по конвертации pdf файлов. В роли подопытных файлов выступили два документа с разной структурой. Первый был сканом печатного журнала, преобразованного в pdf документ. Второй был настоящим текстовым документом, просто конвертируемым в дальнейшем в формат PDF.
Об авторе