Как искать и копировать определенную строку на связанных веб-страницах HTML

0

Позвольте мне описать проблему напрямую. Если вы перейдете по следующей ссылке, вы увидите список html-ссылок, содержащих истории, написанные Aesop. Каждая из историй содержит моральное утверждение. Мне нужно скопировать и сохранить только строки, содержащие "Moral of Aesops Fable:" Мне нужно получить результаты как последовательность, разделенную пробелом или новой строкой.

http://www.taleswithmorals.com/

Как мне это сделать? Какую платформу проще использовать в этом случае? Можете ли вы провести меня через, пожалуйста?

Теги:

2 ответа

0

http://docs.oracle.com/javase/6/docs/api/java/lang/String.html

Java имеет довольно расширенную собственную обработку строк. Если бы я пытался сделать это в java, то я бы сделал метод indexOf (String), который возвращает первый индекс определенной подстроки внутри этой строки. Используя это, вы можете искать теги html href, которые обозначают ссылку (посмотрите на источник HTML страницы). Если вы не знаете, как найти сам файл HTML, здесь. Как вы программно загружаете веб-страницу в Java довольно хорошее объяснение того, как вытащить HTML файлы с помощью java. Затем вы можете просмотреть источник каждой отдельной страницы и найти подстроку "Мораль из Aesop Fable:", а затем сохранить строку сразу после нее с помощью Java PrintWriter, которая может записать строку в файл: http://docs. oracle.com/javase/7/docs/api/java/io/PrintWriter.html

Надеюсь это поможет!

0

Я сделал что-то очень похожее на это, используя python и mechanize (веб-бот).

Вы также можете просто использовать urllib и проанализировать ответ, так как вы знаете точную строку, которую ищете.

Я думаю, что Python отлично подходит для этого.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню