Получение контента с сайта на Java

Question

Получение контента с сайта на Java

0

Я хочу получить весь контент этого сайта http://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/

особенно элементы, расположенные в правом нижнем углу экрана, называемые "estatisticas",

Я попытался загрузить FireBug и получить файл HTML с помощью jsoup, но это не сработало. Jsoup не смог найти только то, что мне хотелось, что заставило меня немного разозлиться. Idk, какие методы /api или что-то, что я должен использовать, чтобы получить все данные с веб-сайта, и я ценю, если вы, ребята, поможете мне.

Заранее спасибо.

lucasdc 22 окт. 2013, в 07:35

Источник

0

Вы можете попробовать использовать Apache HttpClient для подключения к сайту с помощью GET-запроса, затем получить весь контент в String и вручную получить данные из этой гигантской String .
Luiggi Mendoza 22 окт. 2013, в 05:35
0

Смотрите это: stackoverflow.com/questions/3202305/web-scraping-with-java/…
Nishan 22 окт. 2013, в 05:36

Теги:

java

html

3 ответа

0

если вы намерены HttpClient сайт, вы можете использовать HttpClient, который может обеспечить почти всю работу протокола HTTP. Здесь фрагмент кода, который может соответствовать тому, что вы хотите:

HttpClient httpclient = new DefaultHttpClient();
HttpGet httpget = new HttpGet("http://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/");
HttpResponse response = httpclient.execute(httpget);
HttpEntity entity = response.getEntity();
if (entity != null) {
    InputStream instream = entity.getContent();
    try {
        // do something useful
    } finally {
        instream.close();
    }
}

PS maven для HttpClient:

<dependency>
    <groupId>commons-httpclient</groupId>
    <artifactId>commons-httpclient</artifactId>
    <version>3.1</version>
</dependency>

Надеюсь, поможет:)

Judking 22 окт. 2013, в 03:33

0

для этого вам нужно изучить парсер html, например, jsoup и HTML-парсер. Если вам нужен весь код, включая html-теги, а затем вы также попробуйте этот код

URL url = new URL("http://www.example.com");
InputStream io = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
String str ="";
while((str=br.readLine())!=null)
{
System.out.println(str);
}

Simmant 22 окт. 2013, в 02:53

Ещё вопросы

Вы можете попробовать использовать Apache HttpClient для подключения к сайту с помощью GET-запроса, затем получить весь контент в String и вручную получить данные из этой гигантской String .
Смотрите это: stackoverflow.com/questions/3202305/web-scraping-with-java/…

user1864610 · Accepted Answer · 2013-10-22T04-38-00.000Z

"Estatisticas" загружаются после загрузки страницы вызовом AJAX - вы не можете очистить их от страницы, потому что их там нет.

Вы можете, однако, получить их в формате JSON по этому адресу: http://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/estatisticas.json

Спасибо! Это то, что я хотел. Но позвольте мне спросить вас, как вы получили эту ссылку?
С Firebug. Я посмотрел на сетевой трафик, генерируемый страницей