PHP веб-паук. Как определить URL-адрес с хешем на той же странице?

Question

PHP веб-паук. Как определить URL-адрес с хешем на той же странице?

0

У меня есть функция:

public function getHeaders($url){
        $ch = curl_init();

        curl_setopt($ch, CURLOPT_URL,            $url);
        curl_setopt($ch, CURLOPT_HEADER,         true);
        curl_setopt($ch, CURLOPT_NOBODY,         true);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_TIMEOUT,        10);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, false);
        $x = curl_exec($ch);

        curl_close($ch);
        return (array) HTTP::parse_header_string($x) ;
    }

Когда $url=http://www.google.com', я have header location: http://www.google.de/?gfe_rd=cr&ei=SOMEHASHGOESHERE ' загрузите его снова и получите все, но, 'SOMEHASHGOESERE' другой сейчас.

Моя задача - создать веб-гусеничный движок. Я знаю, как делать основную логику. Но есть несколько нюансов. Один из них: что должен делать мой паук, если запрашиваемый url отправляет ему заголовок 'location' и пытается перенаправить? Какая модель поведения должна контролировать мой паук, чтобы быть невозможным превратить его в бесконечный цикл перенаправления?

(как идентифицировать похожие URL-адреса, например http://www.google.de/?gfe_rd=cr&ei=SOMEHASHGOESHERE, которые обычно используют для перенаправления циклов и дают моему пониманию пауков игнорировать такие ссылки)

LINKeRxUA 18 нояб. 2014, в 12:21

Источник

0

Я не следую Вы ищете специфичный для Google ответ или общий ответ?
mabi 18 нояб. 2014, в 11:20
0

Поскольку вы, похоже, ищете общее решение, что не так с настройкой CURLOPT_MAXREDIRS ?
mabi 18 нояб. 2014, в 13:48
0

Ничего плохого, я только что видел об этом несколько часов назад. Спасибо, но я уже решил с моей функцией рекурсивный лимит вызовов))
LINKeRxUA 18 нояб. 2014, в 17:10

Показать ещё 1 комментарий

Теги:

php

web-crawler

url-redirection

1 ответ

Ещё вопросы

Я не следую Вы ищете специфичный для Google ответ или общий ответ?
Поскольку вы, похоже, ищете общее решение, что не так с настройкой CURLOPT_MAXREDIRS ?
Ничего плохого, я только что видел об этом несколько часов назад. Спасибо, но я уже решил с моей функцией рекурсивный лимит вызовов))

Volkan Ulukut · Accepted Answer · 2014-11-18T10-16-00.000Z

Если вы пытаетесь просто обработать цель всех перенаправлений, вы можете получить завиток, чтобы следить за URL-адресом, не возвращая страницу перенаправления.

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);

если вас просто интересует базовый url без параметров url, вы можете легко его легко взорвать:

$urlParts = explode("?",$url);
$baseUrl = $urlParts[0];

Я думаю, что это плохая идея. Что произойдет, когда spider проанализирует какой-то конкретный сайт, имеющий определенную ссылку, которая будет генерировать перенаправления цикла? Я думаю, что подсчитывать перенаправления и прерывать, когда количество перенаправлений, например, более 5 .. Но также интересно посмотреть другие решения.
если бы вы могли объяснить вашу проблему более подробно, я могу ответить.
Хорошо я попробую. Мой ответ отредактирован. PS извините за плохой английский