Получение контента с сайта на Java

0

Я хочу получить весь контент этого сайта http://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/

особенно элементы, расположенные в правом нижнем углу экрана, называемые "estatisticas",

Я попытался загрузить FireBug и получить файл HTML с помощью jsoup, но это не сработало. Jsoup не смог найти только то, что мне хотелось, что заставило меня немного разозлиться. Idk, какие методы /api или что-то, что я должен использовать, чтобы получить все данные с веб-сайта, и я ценю, если вы, ребята, поможете мне.

Заранее спасибо.

  • 0
    Вы можете попробовать использовать Apache HttpClient для подключения к сайту с помощью GET-запроса, затем получить весь контент в String и вручную получить данные из этой гигантской String .
  • 0
    Смотрите это: stackoverflow.com/questions/3202305/web-scraping-with-java/…
Теги:

3 ответа

2
Лучший ответ

"Estatisticas" загружаются после загрузки страницы вызовом AJAX - вы не можете очистить их от страницы, потому что их там нет.

Вы можете, однако, получить их в формате JSON по этому адресу: http://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/estatisticas.json

  • 0
    Спасибо! Это то, что я хотел. Но позвольте мне спросить вас, как вы получили эту ссылку?
  • 0
    С Firebug. Я посмотрел на сетевой трафик, генерируемый страницей
0

если вы намерены HttpClient сайт, вы можете использовать HttpClient, который может обеспечить почти всю работу протокола HTTP. Здесь фрагмент кода, который может соответствовать тому, что вы хотите:

HttpClient httpclient = new DefaultHttpClient();
HttpGet httpget = new HttpGet("http://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/");
HttpResponse response = httpclient.execute(httpget);
HttpEntity entity = response.getEntity();
if (entity != null) {
    InputStream instream = entity.getContent();
    try {
        // do something useful
    } finally {
        instream.close();
    }
}

PS maven для HttpClient:

<dependency>
    <groupId>commons-httpclient</groupId>
    <artifactId>commons-httpclient</artifactId>
    <version>3.1</version>
</dependency>

Надеюсь, поможет:)

0

для этого вам нужно изучить парсер html, например, jsoup и HTML-парсер. Если вам нужен весь код, включая html-теги, а затем вы также попробуйте этот код

URL url = new URL("http://www.example.com");
InputStream io = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
String str ="";
while((str=br.readLine())!=null)
{
System.out.println(str);
}

Ещё вопросы

Сообщество Overcoder
Наверх
Меню