Как захватить исходный код модифицированной веб-страницы

0

Ну, я соскабливал данные с одного из сайтов (только в юридических ограничениях).

Ситуация заключается в том, что на сайте есть 5 вопросов на странице и ответы на них. Но исходный код, который я вижу, нажав Ctrl+u, отличается от кода, который я вижу Inspect element firebug или firebug в firebug означает, что сайт изменение ответов на загрузку страницы, чтобы обмануть окружающих людей, поскольку скребки, как правило, захватывают немодифицированный код. Правильные ответы на onLoad измененной onLoad.

Я хочу захватить исходный код, который я вижу в Inspect element Firebug или Inspect element (измененный код) вместо кода, который я вижу при нажатии Ctrl+U

Я использовал один из API скрепок, но он захватывает этот оригинальный код Ctrl+U

Есть ли решение?

Теги:
web-scraping

2 ответа

1

В chrome выберите корневой элемент (<html>) и щелкните правой кнопкой мыши → Скопировать как HTML, вставьте где угодно

[РЕДАКТИРОВАТЬ]

Я подозреваю, что вы пытаетесь очистить данные автоматически, это явно не сработает, не уверен, как это сделать в противном случае. Есть некоторые безглавые веб-браузеры, которые поддерживают JS (например, фантомные js), они могут сделать трюк. Также проверьте этот пост суперпользователя

  • 0
    Да я соскребаю данные автоматически
0

Я предложил вам сделать журнал html вашей страницы, прежде чем произойдет onload. Это можно сделать с помощью jquery.

Или простая классическая отладка с использованием "отладчика", которая остановит выполнение вашей веб-страницы, как только строка, в которую вы ее поместите, интерпретируется браузером.

Как разработчик HTML5, я обычно делаю расширенную регистрацию через консоль, чтобы узнать, что делает что и что выполнялось, когда. Хотя это может занять некоторое время, это позволяет вам хорошо разбираться в том, что вы написали, и обеспечить оптимизацию (в основном, количество execs некоторых вещей) и уловить ошибки, которые могут быть не очевидны.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню