Я хочу удалить HTML строки в Java.
<hr><b><strong>Task Details</strong></b><hr><b>Date Created: </b> 01/06/2014 07:55pm<br><b>Date Modified: </b> 01/06/2014 07:55pm<br><b>Assigned to: </b> Administrator<br><b>Created By: </b> Administrator<br><b>Status: </b> Not Started<br><b>Description: </b> Test Description<br>.
Выше моя строка, и я хочу удалить теги HTML.
Возможно, это сработает:
String noHTMLString = htmlString.replaceAll("\\<.*?>","");
Он использует регулярные выражения для удаления всех тегов HTML в строке.
Более конкретно, он удаляет все теги, подобные XML, из строки. Таким образом, <1234> будет удалено, даже если он не является допустимым тегом HTML. Но это хорошо для большинства намерений и purpouses.
Надеюсь это поможет.
Это действительно мертво просто с Jsoup.
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
Для этого вы можете использовать библиотеку Jsoup.
String str="<h3>My Text</h3>";
System.out.println(Jsoup.parse(str).text());
Вышеупомянутый код блокирует все htms-теги и дает текст влево как вывод