Я пытаюсь научиться разбираться с HTML, но поскольку у меня нет большого опыта работы на Java или Android, это немного сложно. Я прочитал учебник по XML-анализу IBM XML и научился разбирать RSS-канал. Моя проблема: я хотел бы получить данные с сайта HTML. Я прочитал некоторую информацию об очистителе HTML, JSON и т.д., Но я не могу найти хороший учебник, чтобы помочь мне. У вас есть какие-то учебники, которые могут быть полезны?
Спасибо.
Проверьте следующие синтаксические анализаторы HTML. Там больше. Возможно, вы будете работать для вас:
HTMLCleaner: http://htmlcleaner.sourceforge.net/
TagSoup: http://ccil.org/~cowan/XML/tagsoup/
IMO существует два простых способа анализа HTML:
В качестве альтернативы, если вы хотите написать собственный синтаксический анализатор (что я сомневаюсь, что вы должны, для домашней работы: было бы долго и сложно реализовать его правильно/полностью), см. спецификации для разбора HTML.