Perl Regex для не HTML

Question

Perl Regex для не HTML

0

Я хочу заменить все, что не является тегом HTML из HTML-документа. Итак, в основном, пытаясь избавиться от всего текста внутри документа.

У меня есть следующее регулярное выражение для удаления всего HTML из строки, но вам нужна помощь с противоположным сценарием.

$string =~ s/<[^>]+>//g;

Благодарю.

user333746 23 окт. 2013, в 01:09

Источник

10

Нееееееееееееееееееееееееееееееет !!!! stackoverflow.com/questions/1732348 / ...
meda 22 окт. 2013, в 23:00
5

Пожалуйста, не делай этого. Это путь к безумию
user1864610 22 окт. 2013, в 23:02
1

Что не является тегом HTML в документе HTML? Если он правильно сформирован, все, кроме комментариев, идет внутри какого-то тега. Вы ищете текст внутри тела, а не внутри другого тега?
Ethan Brown 22 окт. 2013, в 23:12
0

@Ethan Brown: Да, мы стремимся исключить текст, который не входит в тег HTML.
user333746 22 окт. 2013, в 23:19
2

Вы действительно не ответили на мой вопрос. Например, если это ваш документ: <html><body>Here's some <b>bold</b> text!</body></html> , вы ищете строки «Вот некоторые» и «текст! «? Потому что ни одна из этих строк не находится вне тега HTML (обе они находятся внутри <body> ).
Ethan Brown 22 окт. 2013, в 23:23
0

Ну, все скажут то же самое. Не используйте регулярные выражения для анализа HTML! Это может быть сделано. У вас нет много гарантий в программировании, и регулярное выражение не может гарантировать правильную работу с HTML. Тем не менее, проверьте (один из) HTML- парсер Perl 's
gwillie 23 окт. 2013, в 00:08
0

@Ethan Brown: я ищу <html> <body> <b> </ b> </ body> </ html>. Так что-нибудь внутри <>, а не снаружи. Извините за плохо сформулированный вопрос, но я все равно понял. Благодарю.
user333746 23 окт. 2013, в 05:45
0

Если вы должны использовать regexp, Regexp :: Common (или другие) будет хорошим началом. К сожалению, он не поддерживает HTML, но это "готовится".
ashley 24 окт. 2013, в 07:04
0

@meda Обязательная ссылка : пожалуйста, укажите фактические ответы, а не неотвеченные.
tchrist 08 июнь 2014, в 20:11

Показать ещё 7 комментариев

Теги:

html

regex

4 ответа

1

Если это regex s///ubstitution, чтобы удалить все html из документа

$string =~ s/<[^>]+>//g;

Затем вы можете использовать одно и то же регулярное выражение в am//atch-операторе, чтобы сохранить все html из документа

$string = join '', $string =~ m/<[^>]+>/g;

Если вышеупомянутое регулярное выражение удовлетворяет вашим требованиям, то вы закончили :) Но, возможно, вы хотите рассмотреть этот шаблон 'regex', немного длиннее: D http://perlmonks.org/?node_id=161281 Помните оговорки, такие как Ethan Browne упоминания :)

optional 24 окт. 2013, в 04:48

0

Эта идея (извлечение всех тегов) лучше, чем удаление чего-либо между тегами. Однако ваше регулярное выражение не выполняется для  → <!-- > или <script> 3 < 4 </script> → <script>< 4 </script> . Еще +1 за ссылку на лучшее регулярное выражение.
amon 24 окт. 2013, в 07:56
0

:) Вы уже сказали, что Amon, его OP регулярное выражение без изменений :)
optional 24 окт. 2013, в 08:21

1

Этан Браун намечает HTML :: DOM, как если бы это было единственное решение CPAN.

HTML :: Parser более вездесущ, но это не сложно Google для большего.

http://metacpan.org/pod/HTML::Parser

Решение с использованием HTML :: Parser (проверено один раз):

use HTML::Parser ();

my $p = HTML::Parser->new(api_version => 3);
$p->handler( text => sub { }, "");
$p->handler( default => sub { print shift }, "text");
$p->parse_file('content.html') || die $!;

ashley 23 окт. 2013, в 17:45

0

LibXML позволяет легко выбирать материал, не являющийся тегами/комментариями/обработкой, и удалять его

#!/usr/bin/perl --
use strict;
use warnings;
use XML::LibXML 1.70; ## for load_html/load_xml/location
use XML::LibXML::PrettyPrint;

Main( @ARGV );
exit( 0 );
sub Main {
    binmode STDOUT;
    my $loc = shift or die "
Usage:
    $0  ko00010.html
    $0  http://example.com/ko00010.html\n\n";

    my $dom = XML::LibXML->new(
        qw/
          recover 2
          no_blanks 1
          /
    )->load_html( location => $loc, );

## http://www.w3.org/TR/xpath/#node-tests
## http://www.w3.org/TR/xpath/#NT-NodeType
## http://www.w3.org/TR/xpath/#section-Text-Nodes
    for my $text ( $dom->findnodes(q{ //text() }) ){
        node_detach( $text );
    }


    local $XML::LibXML::skipXMLDeclaration = 1; ## <?xml ?>
    local $XML::LibXML::setTagCompression = 0;  ## <p />

#~     print "$dom";

    my $pp  = XML::LibXML::PrettyPrint->new_for_html;
    $pp->{indent_string}=' ';
    print $pp->pretty_print( $dom );
}
sub node_detach {
    my( $self ) = @_;
    $self->parentNode->removeChild( $self );
}

optional 24 окт. 2013, в 06:44

0

Стоит отметить, что любое совместимое решение на основе DOM обернет фрагмент HTML внутри минимального фрагмента <html><body>... Этот синтаксический анализатор также придерживается семантики HTML4 (в отличие от HTML5) и вводит закрывающие теги там, где их не было в нашем входе.
amon 24 окт. 2013, в 08:43

Ещё вопросы

Нееееееееееееееееееееееееееееееет !!!! stackoverflow.com/questions/1732348 / ...
Пожалуйста, не делай этого. Это путь к безумию
Что не является тегом HTML в документе HTML? Если он правильно сформирован, все, кроме комментариев, идет внутри какого-то тега. Вы ищете текст внутри тела, а не внутри другого тега?
@Ethan Brown: Да, мы стремимся исключить текст, который не входит в тег HTML.
Вы действительно не ответили на мой вопрос. Например, если это ваш документ: <html><body>Here's some <b>bold</b> text!</body></html> , вы ищете строки «Вот некоторые» и «текст! «? Потому что ни одна из этих строк не находится вне тега HTML (обе они находятся внутри <body> ).
Ну, все скажут то же самое. Не используйте регулярные выражения для анализа HTML! Это может быть сделано. У вас нет много гарантий в программировании, и регулярное выражение не может гарантировать правильную работу с HTML. Тем не менее, проверьте (один из) HTML- парсер Perl 's
@Ethan Brown: я ищу <html> <body> <b> </ b> </ body> </ html>. Так что-нибудь внутри <>, а не снаружи. Извините за плохо сформулированный вопрос, но я все равно понял. Благодарю.
Если вы должны использовать regexp, Regexp :: Common (или другие) будет хорошим началом. К сожалению, он не поддерживает HTML, но это "готовится".
@meda Обязательная ссылка : пожалуйста, укажите фактические ответы, а не неотвеченные.
Эта идея (извлечение всех тегов) лучше, чем удаление чего-либо между тегами. Однако ваше регулярное выражение не выполняется для  → <!-- > или <script> 3 < 4 </script> → <script>< 4 </script> . Еще +1 за ссылку на лучшее регулярное выражение.
:) Вы уже сказали, что Amon, его OP регулярное выражение без изменений :)
Стоит отметить, что любое совместимое решение на основе DOM обернет фрагмент HTML внутри минимального фрагмента <html><body>... Этот синтаксический анализатор также придерживается семантики HTML4 (в отличие от HTML5) и вводит закрывающие теги там, где их не было в нашем входе.

traybold · Accepted Answer · 2013-10-22T22-36-00.000Z

Вы ищете это?

$string =~ s/>[^<]*</></mg;

Или это?

$string =~ s/(?<=>)[^<]*(?=<)//mg;

Ваше решение не работает с комментариями, такими как <p> → --><p> и с тегами script такими как <script> 2 < 4 </script> → <script>< 4 </script> . Кроме того, текст в конце документа без явного <h1>Headline</h1><p>Text until EOF или тела не удаляется: <h1>Headline</h1><p>Text until EOF → <h1></h1><p>Text until EOF