данные не загружены полностью в HTML

0

Я пытаюсь создать scrapper с помощью vb6, моя техника заключается в поиске html-страницы с использованием двух текстовых функций.

функция проверена и работает правильно для всех сайтов, за исключением нового сайта, который я пытался использовать с этим же методом и не смог.

Проблема заключается в том, что html не показывает данные, часть html, как показано ниже:

<tr>
<td valign="top" nowrap="nowrap" class="label">Company Name:</td>
<td><span class="search-custom" id="synopsisDetailsOppNum"></span></td>
</tr>

значение должно появиться между тегом span выше, но оно не появилось внутри HTML, как указано выше.

На веб-сайте используется javascript для управления данными.

Я также попытался использовать функцию ожидания, могут ли данные отображаться вместе с HTML, но также не удалось.

Есть ли какое-либо решение для получения значения, даже с vb.net, поскольку я могу обновить свой код

  • 0
    Проверьте селен для визуального базового
Теги:
web-scraping
vb6

1 ответ

1
Лучший ответ

этот веб-сайт использует JavaScript для добавления данных на веб-страницу, и такие манипуляции не будут отображаться на источнике страницы

Следующее цитируется из JavaScript & jQuery: The Missing Manual от David Sawyer McFarland

Одна из проблем с использованием JavaScript для управления DOM путем добавления, изменения, удаления и переупорядочения HTML-кода заключается в том, что трудно понять, как выглядит HTML-страница страницы, когда JavaScript закончен. Например, команда View Source, доступная в каждом браузере, показывает только файл веб-страницы, который был загружен с веб-сервера. Другими словами, вы видите HTML, прежде чем он был изменен с помощью JavaScript, что может очень затруднительно выяснить, действительно ли написанный вами JavaScript действительно создает HTML файл после вас. Например, если бы вы могли видеть, как выглядит HTML-страница вашей страницы после того, как ваш JavaScript добавляет 10 сообщений об ошибках на страницу формы или после того, как ваша программа JavaScript создаст сложное всплывающее диалоговое окно с полями текста и формы, это будет намного легче увидеть, если вы закончите с HTML, который вы хотите. К счастью, большинство основных браузеров предлагают набор инструментов разработчика, которые позволяют просматривать отображаемый HTML-код HTML, отображаемый браузером после того, как JavaScript сделал свою магию. Обычно инструменты отображаются в виде панели внизу окна браузера под веб-страницей. Различные вкладки позволяют вам получить доступ к JavaScript-коду, HTML, CSS и другим полезным ресурсам. Точное имя вкладки и метода включения панели инструментов зависит от браузера и браузера: • В Firefox установите плагин Firebug (см. Стр. 477). Откройте страницу с кодом JavaScript, который вы хотите увидеть, и откройте Firebug (Инструменты → Firebug → Open Firebug). Перейдите на вкладку HTML на панели Firebug, и вы увидите полный DOM (включая любой HTML-код, созданный JavaScript). Кроме того, вы можете использовать панель инструментов Web Developer в Firefox для просмотра как обычного источника HTML, так и сгенерированного HTML. • В IE 9 нажмите клавишу F12, чтобы открыть панель "Инструменты разработчика", затем щелкните вкладку "HTML", чтобы просмотреть страницы HTML. В случае IE9 вкладка HTML начинается с отображения загруженного HTML (так же, как и команда "Просмотр источника"). Но если вы нажмете на значок обновления (или нажмите F5), вкладка HTML отобразит полученный HTML-код с любыми изменениями, созданными JavaScript. • В Chrome выберите "Вид" → "Разработчик" → "Инструменты разработчика" и перейдите на вкладку "Элементы" на панели внизу окна браузера. • В Safari убедитесь, что в меню "Разработчик" включено (выберите "Safari" → "Настройки", нажмите кнопку "Дополнительно" и убедитесь, что "Показать меню" Разработать меню в строке меню "). Затем откройте страницу, на которую вы смотрите, и выберите" Развернуть " → Показать веб-инспектора. Перейдите на вкладку "Элементы" на панели, которая отображается в нижней части окна браузера. • В Opera выберите "Инструменты" → "Дополнительно" → "Опера Стрекоза". (Dragonfly - это имя встроенного набора инструментов разработчика Opera). На панели, расположенной в нижней части окна браузера, откройте вкладку "Документы".

поэтому скребок не будет загружать страницу после завершения JavaScript, она получит то, что она увидит до того, как манипулирует JavaScript

вы можете посмотреть, как Майкл Шренк говорит о трюках скрепера экрана: извлечение данных с сложных веб-сайтов

http://www.youtube.com/watch?v=NtffxCi8aq4

  • 0
    Спасибо, это мне очень помогло, кроме всего этого я нашел простой трюк, просто загрузить веб-страницу в виде html на ваш ПК, она будет содержать все данные, а затем проанализировать их.
  • 0
    Это поможет, если вы хотите анализировать данные локально после использования браузера для его загрузки

Ещё вопросы

Сообщество Overcoder
Наверх
Меню