Как ЗАМЕНИТЬ HTML-теги с символами, используя jsoup в Java

0

Я использую код Java для извлечения информации из Интернета для обработки, и я использую библиотеку jsoup для очистки тегов html в ответах, которые я получаю с веб-сайта. Теперь, чтобы извлечь информацию из этих кодов, я должен заменить теги html редко используемым символом, таким как "~".

Итак, вот мой вопрос:

Как это сделать:

<h1>This is heading 1</h1>
<h2>This is heading 2</h2>
<h3>This is heading 3</h3>
<h4>This is heading 4</h4>
<h5>This is heading 5</h5>
<h6>This is heading 6</h6>

В этом:

   ~This is heading 1~
   ~This is heading 2~
   ~This is heading 3~
   ~This is heading 4~
   ~This is heading 5~
   ~This is heading 6~

используя jsoup?

  • 0
    изменить org.jsoup.safety.Cleaner ??
  • 0
    так это невозможно?
Показать ещё 2 комментария
Теги:
tags
jsoup

1 ответ

1
Лучший ответ
String cssSelector = //add your selector. from the example you include i cant get a proper selector.
Document doc = Jsoup.parse("html")
Elements elms = doc.select(cssSelector)
for(Element elm:elms){
     System.out.println("~" + elm.text() + "~")
}

Обновить

если вы хотите заменить ВСЕ элементы, вы можете сделать это:

html = html.replaceAll("<[^>]*>","~")
  • 0
    Частичный успех ... Я думаю, мой селектор не так ...
  • 0
    наверное, что вы пытаетесь выбрать? Вы можете опубликовать образец HTML?
Показать ещё 11 комментариев

Ещё вопросы

Сообщество Overcoder
Наверх
Меню