Perl быстрый экстракт HTML

Question

Perl быстрый экстракт HTML

0

Я хочу извлечь данные с нескольких html-страниц, но я не знаком с извлечением HTML. У меня есть рабочий код, который читает весь источник страницы, а затем удаляет ненужные части с помощью регулярного выражения, однако, похоже, он довольно медленный.

Я читаю финансовую информацию и хочу извлечь только один номер из каждой страницы, поэтому, по возможности, не нужно читать всю страницу каждый раз.

Это то, что у меня есть в Perl:

use LWP::Simple;
my $mult;
my $url = 'http://www.wikinvest.com/stock/Apple_(AAPL)/Data/Net_Income/2014/Q1';

$content = get($url);

$content =~ s/\R//g; # remove linebreaks
$content =~ s/.*\<div class="nv_lefty" id="nv_value">//; # remove everything before tag
$content =~ s/\<.*//g; # remove everything after <...

if ($content =~ s/billion//) {$mult = 1e9;}
elsif ($content =~ s/million//) {$mult = 1e6;}
else {$mult = 1;}

$content =~ s/[^\d.-]//g; # keep numbers, commas and - only
$content = $content * $mult;

Команда get($url) довольно медленная, так как она извлекает много данных, тогда как меня интересует только один номер. Есть ли более быстрый способ сделать это? Я просмотрел HTML :: TableExtract, но я не думаю, что номер, который я извлекал, находится в стандартной таблице HTML. Также не уверен, что это будет быстрее.

charles hendry 28 май 2014, в 23:25

Источник

0

Если часть get ($ url) работает медленно, то это не ваш код, а скорость внешнего веб-сайта (HTTP-запрос / ответ), от которого вы зависите.
Michal Gasek 28 май 2014, в 21:20
2

Если вам нужно выполнить много таких запросов (например, получить тысячи страниц), то единственный способ ускорить его - это, вероятно, запустить несколько экземпляров вашего скрипта или потоков, чтобы несколько параллельных процессов выполняли запросы одновременно.
Michal Gasek 28 май 2014, в 21:29
0

Имеют ли другие финансовые сайты данные, которые вы ищете, в лучшем формате? Я думаю, что вы могли бы получить всю информацию, которую вы ищете в одном файле CSV от Yahoo. Какой конкретный номер вы пытаетесь получить?
bf2020 28 май 2014, в 22:52
0

замены абсолютно бесполезны, поскольку <div class="nv_lefty" id="nv_value">$10.22 billion</div> данные всегда находятся в одном и том же месте: <div class="nv_lefty" id="nv_value">$10.22 billion</div> . Вам нужно только использовать запрос DOM, запрос XPath или регулярное выражение, соответствующее этому конкретному идентификатору.
Casimir et Hippolyte 29 май 2014, в 00:04

Показать ещё 2 комментария

Теги:

html

regex

perl

extract

1 ответ

Ещё вопросы

Если часть get ($ url) работает медленно, то это не ваш код, а скорость внешнего веб-сайта (HTTP-запрос / ответ), от которого вы зависите.
Если вам нужно выполнить много таких запросов (например, получить тысячи страниц), то единственный способ ускорить его - это, вероятно, запустить несколько экземпляров вашего скрипта или потоков, чтобы несколько параллельных процессов выполняли запросы одновременно.
Имеют ли другие финансовые сайты данные, которые вы ищете, в лучшем формате? Я думаю, что вы могли бы получить всю информацию, которую вы ищете в одном файле CSV от Yahoo. Какой конкретный номер вы пытаетесь получить?
замены абсолютно бесполезны, поскольку <div class="nv_lefty" id="nv_value">$10.22 billion</div> данные всегда находятся в одном и том же месте: <div class="nv_lefty" id="nv_value">$10.22 billion</div> . Вам нужно только использовать запрос DOM, запрос XPath или регулярное выражение, соответствующее этому конкретному идентификатору.

oalders · Answer 1 · 2014-05-29T00-14-00.000Z

Посмотрите на Web :: Скребок, а не на использование регулярных выражений. Что-то вроде этого может сэкономить вам много времени и будет менее подвержено ошибкам.