Несколько дней я размышлял о трехпозиционной работе
а. получение б. разбор с. сохраняя несколько страниц.
Два дня назад я думал, что получение страниц будет главной задачей. Нет, это не так - я думаю, что работа-синтаксис будет героической задачей. Каждая из страниц, которые должны быть проанализированы, представляет собой png-изображение.
Итак, вопрос в том, что - после того, как все получилось. Как их разобрать!? Кажется, это проблема. Угадайте, что есть некоторые perl-модули, которые могут помочь в этом...
Ну, я думаю, что эта работа может быть выполнена только с встроенным OCR! Вопрос: есть ли perl-модуль, который можно использовать здесь для поддержки этой задачи:
BTW: см. страницы результатов.
BTW;: и, как я думал, я могу найти все 790 результирующих страниц в определенном диапазоне между Id = 0 и Id = 100000 я думал, что я могу идти по пути с циклом:
http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=949&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=10579&InterfaceLanguage=1&Type=Html
Я думал, что смогу пойти на Perl-Way, но я не очень уверен: Я пытался использовать LWP:: UserAgent по тем же URL-адресам [см. Ниже] с разными аргументами запроса, и мне интересно, поддерживает ли LWP:: UserAgent путь для нас, чтобы перебрать аргументы запроса? Я не уверен, что у LWP:: UserAgent есть метод для этого. Ну, я иногда слышал, что проще использовать Mechanize. Но действительно ли это проще?
Но - быть откровенным; первая задача "ПОЛУЧИТЬ ВСЕ страницы не очень сложно - если мы сравним эту задачу с разбором... Как это можно сделать!?
Любые идеи - предложения -
ожидаем услышать от вас...
нулевым
Я бы предложил использовать Image::OCR::Tesseract
У меня был хороший опыт работы с Tesseract в прошлом с использованием С++.
Подробнее см. .