Разбор веб-страницы и подстраниц с помощью PHP [закрыт]

0

В приведенной ниже ссылке я хочу перейти на каждую подстраницу и проанализировать таблицу HTML в один файл.html. Также, например, если я нажал на подстраницу Accountancy, эта подстраница содержит несколько страниц списков классов (стр. 1, 2, 3 и т.д.). Я также хочу проанализировать все страницы подстраниц.

Вот родительская страница: http://my.gwu.edu/mod/pws/subjects.cfm?campId=1&termId=201401

Нужно ли использовать веб-сканеры? Каким будет лучший способ сделать это, чтобы скомпилировать все подстраницы в файле ONE.html? Как я мог написать свой код, чтобы эффективно очистить все данные таблицы html от всех перечисленных подстраниц? Ура!

Теги:
web-scraping
html-table
parsing

1 ответ

1
Лучший ответ

Вы можете использовать конечный веб-скребок, чтобы получить страницу. Затем перейдите по всем ссылкам, которые вы найдете, например, ниже, пожалуйста, проверьте документы для полной вещи.

$html->load($result["body"]);
$rows = $html->find("a[href]");
foreach ($rows as $row)
{
  //get the page at $row->href, and so on recursevly
}

Хотя, если вы сделаете так, убедитесь, что отслеживаете ссылки, которые вы посетили, иначе вы можете оказаться в бесконечном цикле.

Просто побочное примечание, это может быть не очень хорошее решение, если есть пара сотен страниц, так как это будет медленным.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню