HTML-тег regex не работает

Question

HTML-тег regex не работает

1

Почему этот код не возвращается? Какое регулярное выражение следует использовать для замены всех тегов из html файла?

x = x.replaceAll("<.*>", "<h3><a href=\"#\">current community</a></h3>");

Благодарю!

yonutix 22 дек. 2014, в 21:55

Источник

6

Только Чак Норрис может анализировать HTML с помощью регулярных выражений
Reimeus 22 дек. 2014, в 20:20
1

Серьезно, не разбирайте html с регулярным выражением
keyser 22 дек. 2014, в 20:20
0

Тогда что я должен использовать? Я не хочу анализировать его, меня не интересует содержимое тегов HTML, я хочу удалить все теги из файла HTML.
yonutix 22 дек. 2014, в 20:22
0

Что ты пытаешься сделать?
sln 22 дек. 2014, в 20:23
0

Я хочу удалить теги HTML, чтобы получить текст
yonutix 22 дек. 2014, в 20:24
0

@CosminMihai Очень плохое решение, так как вы должны использовать для этого HTML-парсер, но пробовали ли вы с <.+?> . DEMO
BackSlash 22 дек. 2014, в 20:26
0

Я хочу удалить теги HTML, а не анализировать их, я пытаюсь получить необработанные данные, пожалуйста, прочитайте вопрос, который я хочу «ЗАМЕНИТЬ» на «», означающее, что я хочу удалить их
yonutix 22 дек. 2014, в 20:28
0

@CosminMihai Анализатор HTML способен удалять все теги гораздо более чистым способом, чем с помощью регулярных выражений.
BackSlash 22 дек. 2014, в 20:29

Показать ещё 6 комментариев

Теги:

java

regex

3 ответа

4

Я хочу удалить теги HTML

Вы можете просто использовать библиотеку разбора HTML, такую как JSoup. Вот пример

Document doc = 
     Jsoup.parse("<html><h3><a href=\"#\">current community</a></h3></html>");
System.out.println(doc.text());

Вывод:

current community

Reimeus 22 дек. 2014, в 18:11

0

Спасибо, я попробую это решение позже, пока мне нужно что-то быстрое, Jsoup нужно скачать, я думаю.
yonutix 22 дек. 2014, в 20:34

3

Я соглашусь со всеми, что попытка использовать регулярное выражение для анализа HTML - плохая идея. (И я думаю, что это правда, даже если все, что вы делаете, это удаление тегов, такие вещи, как комментарии и !CDATA усложнят любую попытку простого решения.) Однако я считаю полезным объяснить, почему ваше решение не создало ожидаемые результаты (поскольку это относится к другим ситуациям, где регулярные выражения более подходят).

По умолчанию кванторы * и + являются жадными, что означает, что они будут соответствовать как можно большему количеству символов. Таким образом, в вашем примере:

x = x.replaceAll("<.*>", "<h3><a href=\"#\">current community</a></h3>");

Я думаю, это то, что вы имели в виду:

String x = "<h3><a href=\"#\">current community</a></h3>";
x = x.replaceAll("<.*>", "");

Когда соответствующий движок ищет ваш шаблон, он находит < как первый символ x. Затем он ищет последовательность из нуля или более символов, которая может быть чем угодно, а затем >. Но так как это жадный квантификатор, если есть выбор из более чем одного > он может выбрать, он будет выбирать тот, который делает .* Соответствует самой длинной возможной строке. В вашем случае это означает, что он выберет > который является последним символом x. Эффект заключается в том, что вся строка заменяется на "".

Чтобы он соответствовал наименьшей возможной строке, добавьте ? сделать его "неохотным квантиром":

x = x.replaceAll("<.*?>", "");

Другим решением является указание совпадению не включать > при сопоставлении "любого символа":

x = x.replaceAll("<[^>]*>", "");

[^>] означает "сопоставить любой символ, кроме >. Для HTML/XML/SGML регулярное выражение, которое я выбрал, не является ни одним из указанных выше, так как вы не должны использовать регулярные выражения для синтаксического анализа сложных структур.

ajb 22 дек. 2014, в 19:31

0

Вы правы, спасибо!
yonutix 22 дек. 2014, в 21:42

Ещё вопросы

Только Чак Норрис может анализировать HTML с помощью регулярных выражений
Серьезно, не разбирайте html с регулярным выражением
Тогда что я должен использовать? Я не хочу анализировать его, меня не интересует содержимое тегов HTML, я хочу удалить все теги из файла HTML.
Я хочу удалить теги HTML, чтобы получить текст
@CosminMihai Очень плохое решение, так как вы должны использовать для этого HTML-парсер, но пробовали ли вы с <.+?> . DEMO
Я хочу удалить теги HTML, а не анализировать их, я пытаюсь получить необработанные данные, пожалуйста, прочитайте вопрос, который я хочу «ЗАМЕНИТЬ» на «», означающее, что я хочу удалить их
@CosminMihai Анализатор HTML способен удалять все теги гораздо более чистым способом, чем с помощью регулярных выражений.
Спасибо, я попробую это решение позже, пока мне нужно что-то быстрое, Jsoup нужно скачать, я думаю.

sln · Accepted Answer · 2014-12-22T18-39-00.000Z

Отказ от ответственности: вы не должны использовать регулярное выражение для анализа html.

Но, если вы настаиваете, попробуйте

 <
 (?:
      (?:
           /? 
           \w+ 
           \s* 
           /? 
      )
   |  
      (?:
           \w+ 
           \s+ 
           (?:
                (?:
                     (?: " [\S\s]*? " )
                  |  (?: ' [\S\s]*? ' )
                )
             |  (?: [^>]*? )
           )+
           \s* 
           /? 
      )
   |  
      \?
      [\S\s]*? 
      \?
   |  
      (?:
           !
           (?:
                (?:
                     DOCTYPE
                     [\S\s]*? 
                )
             |  (?:
                     \[CDATA\[
                     [\S\s]*? 
                     \]\]
                )
             |  (?:
                     --
                     [\S\s]*? 
                     --
                )
             |  (?:
                     ATTLIST
                     [\S\s]*? 
                )
             |  (?:
                     ENTITY
                     [\S\s]*? 
                )
             |  (?:
                     ELEMENT
                     [\S\s]*? 
                )
           )
      )
 )
 >

Он работает отлично, кроме "<! DOCTYPE html>"
@ CosminMihai - Хорошо, добавил тип документа. Это немного xml-иша.