Пытался извлечь изображения с этой страницы.
Используя приведенный ниже код, он извлекает только боковые изображения, такие как логотип и т.д., Но не получает изображение, в котором они отображают данные.
public static void main (String args[])
{
Document doc;
try {
doc = Jsoup.connect("http://www.wolframalpha.com/input/?i=hepatitis").get();
Elements desc =doc.select("img[src]");
{
for (Element link :desc)
System.out.println("text :"+link.absUrl("src"));
}
} catch (IOException e) {
System.out.println(e);
}
}
}
Я даже пытался получить изображения, используя их идентификатор:
Elements desc =doc.select("#scannerresult_0300_1 img[src]");
но он не возвратил никакого результата.
На веб-сайте создается множество контента на основе javascripts. К сожалению, Jsoup не поддерживает их, поэтому скрипты не выполняются, поэтому контент не создается.
Дополнительную информацию см. В этом ответе: Получить содержимое (загруженное через вызов AJAX) веб-страницы
doc
и вы увидите, как jsoup «видит» веб-сайт. Другой способ: отключить все (или, по крайней мере, gojges ajax) javascripts, чтобы увидеть простой сайт. В качестве решения, вы можете попробовать htmlunit или что-то подобное (проверьте мою ссылку).