Разбор HTML в Android

Question

Разбор HTML в Android

1

Я пытаюсь научиться разбираться с HTML, но поскольку у меня нет большого опыта работы на Java или Android, это немного сложно. Я прочитал учебник по XML-анализу IBM XML и научился разбирать RSS-канал. Моя проблема: я хотел бы получить данные с сайта HTML. Я прочитал некоторую информацию об очистителе HTML, JSON и т.д., Но я не могу найти хороший учебник, чтобы помочь мне. У вас есть какие-то учебники, которые могут быть полезны?

Спасибо.

menu_on_top 28 янв. 2011, в 19:52

Источник

Теги:

android

parsing

html-parsing

rss

rss-reader

2 ответа

0

IMO существует два простых способа анализа HTML:

Преобразуйте HML в XML (XHTML) с помощью библиотеки (например, HTMLTidy), а затем используйте XML-парсер
Использовать существующий HTML-парсер (например, стандартный веб-браузер, такой как WebKit, ForeFox и/или IE), а затем прочитать "DOM", который является более или менее удобным для API представлением проанализированного HTML

В качестве альтернативы, если вы хотите написать собственный синтаксический анализатор (что я сомневаюсь, что вы должны, для домашней работы: было бы долго и сложно реализовать его правильно/полностью), см. спецификации для разбора HTML.

ChrisW 28 янв. 2011, в 15:55

0

Я сделал этот CW, потому что он не совсем отвечает на вопрос, и поэтому кто-то может захотеть отредактировать / исправить его: например, этот ответ не является специфичным для Android и не является учебным пособием.
ChrisW 28 янв. 2011, в 18:13
0

спасибо за ваш ответ! так что есть способ преобразовать HTML в XML, а затем получить данные в формате RSS?
menu_on_top 28 янв. 2011, в 18:21
0

@kostas Я не знаю, и я думаю, вам лучше задать это как отдельный / новый вопрос.
ChrisW 28 янв. 2011, в 18:52

Показать ещё 1 комментарий

Ещё вопросы

Я сделал этот CW, потому что он не совсем отвечает на вопрос, и поэтому кто-то может захотеть отредактировать / исправить его: например, этот ответ не является специфичным для Android и не является учебным пособием.
спасибо за ваш ответ! так что есть способ преобразовать HTML в XML, а затем получить данные в формате RSS?
@kostas Я не знаю, и я думаю, вам лучше задать это как отдельный / новый вопрос.

jeffh · Accepted Answer · 2011-01-28T18-09-00.000Z

Проверьте следующие синтаксические анализаторы HTML. Там больше. Возможно, вы будете работать для вас:

HTMLCleaner: http://htmlcleaner.sourceforge.net/
TagSoup: http://ccil.org/~cowan/XML/tagsoup/
Jericho: http://jericho.htmlparser.net/docs/index.html

Спасибо за ваш ответ, но он ищет учебник по этим парсерам