Я искал ответы на этот вопрос в stackoverflow и google, не мог найти то, что искал.
Когда я хочу получить данные со страницы, как этот, с помощью этого кода
public class ConsoleSearch {
public static void main(String[] args) throws IOException {
URL url = new URL("http://www.stackoverflow.com");
URLConnection cnt = url.openConnection();
BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
String content;
while((content = br.readLine()) != null){
System.out.println(content);
}
br.close();
}
}
Я, очевидно, получаю HTML-теги и все остальное, что с ним связано. Я могу легко фильтровать HTML с помощью HtmlCleaner
часть и где я нахожу, что я сам застрял, - это когда я хочу получить конкретный текст из всех полученных данных.
Например, если бы я хотел получить только текст "Новая Шотландия" и/или "Европа"... как бы я это сделал?
Pattern p = Pattern.compile("Nova Scotia");
Matcher m = p.matcher(content);
boolean b = m.matches();
Просто просмотрите вышеуказанный пакет регулярных выражений, и он будет вам полезен.