Кто-нибудь знает о хорошем решении для конвертирования PDF файлов в слова .doc файлы (а не docx) программно? Я пробовал решение SautinSoft, но даже несмотря на то, что он выполняет эту работу, это не лучшее качество.
Мы предлагаем решение под названием EasyConverter SDK, которое вы можете попробовать:
http://www.pdfonline.com/easyconverter/sdk/index.htm
Если вы хотите получить краткое представление о том, как будут выглядеть результаты, прежде чем пытаться оценить версию, вы можете сначала использовать онлайн-конвертер:
http://www.pdfonline.com/pdf2word/index.asp
Есть действительно много соображений при преобразовании в основном статического формата, такого как PDF в Word. EasyConverter SDK прекрасно подходит для большинства бизнес-документов, в то время как маркетинговые документы (которые обычно используют более удобные макеты) обычно более сложны.
Как и в "решении", способ сделать это, возможно, но вам придется самому в этом заглянуть:
Формат файла PDF... очень трудно понять. Прежде всего, его нельзя сравнивать с форматом Word вообще. Этот формат предназначен для последовательного просмотра на всех платформах и принтерах, Word в нем, немного менее строгий.
Редактирование файлов PDF, во-первых, тоже довольно сложно: потому что у вас нет "текста", как в Word; это больше похоже на куски писем. Все они расположены по отдельности.
Единственное выполнимое решение, которое я вижу, следующее:
.doc
. (Таким образом, требуется библиотека для записи .DOC!)Я думаю, что это тоже делает SautinSoft; что причина этого плохого качества. Изображения могут стать довольно большими, если вы хотите хорошего качества (т.е. Вы не можете получить оптимизацию, например, общие шрифты или повторяющуюся графику, например, у вас есть файлы PDF).
Преобразование PDF в SVG и встраивание SVG в документ Word.
PDF - это формат отображения "endfile", поэтому он отбрасывает много деталей, которые вам понадобятся в текстовом файле (например, поток). Есть инструменты, но вы вряд ли будете полностью довольны результатами.
Есть сообщение в блоге, объясняющее проблемы лучше http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text