Я пытаюсь получить несколько веб-страниц, чтобы я мог манипулировать их информацией. Я ищу, какие лучшие инструменты и пакеты для этого. Предпочтительно, я был бы признателен за использование Perl для разбора таблиц, но мне было бы неплохо также использовать MySQL, хотя мне пришлось бы его изучить. (Я считаю, что это HTML-таблицы, несмотря на то, что страница была закодирована на Java?).
Я не прошу какого-либо кода, но, по вашему мнению, советы и предложения о том, как я могу это сделать. На данный момент мои намерения состоят в том, чтобы просто анализировать таблицы, объединять их и создавать единую таблицу, которая имеет информацию с обоих сайтов в разных столбцах. Эту общую таблицу нужно обновлять только один раз в день максимум.
Таблицы можно найти здесь, прокрутите вниз и сюда, полную таблицу.
Заранее благодарю за помощь!
Для получения веб-страницы вы можете использовать Web :: Scraper, HTML :: DOM, а также модули, связанные с LWP. А для SQL модуль DBI очень мощный. Вы можете искать их с помощью cpan.
Ваш вопрос, похоже, заключается в том, как делать веб-подборку. Я не вижу, как MySQL вступает в игру с этим. Для webscrapint я предлагаю вам посмотреть модули CPAN WWW :: Mechanize и HTML :: TableExtractor