Как мне выполнить декодирование / кодирование HTML с использованием Python / Django?

Question

Как мне выполнить декодирование / кодирование HTML с использованием Python / Django?

117

У меня есть строка, кодированная html:

&lt;img class=&quot;size-medium wp-image-113&quot; 
  style=&quot;margin-left: 15px;&quot; title=&quot;su1&quot; 
  src=&quot;http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg&quot; 
  alt=&quot;&quot; width=&quot;300&quot; height=&quot;194&quot; /&gt;

Я хочу изменить это на:

<img class="size-medium wp-image-113" style="margin-left: 15px;" 
  title="su1" src="http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg" 
  alt="" width="300" height="194" />

Я хочу, чтобы это зарегистрировалось как HTML, чтобы оно отображалось как изображение браузером, а не отображалось как текст.

Я нашел, как это сделать на С#, но не на Python. Может кто-нибудь помочь мне?

Спасибо.

Изменить: кто-то спросил, почему мои строки хранятся так. Это потому, что я использую инструмент для веб-скрепок, который "сканирует" веб-страницу и получает от нее определенный контент. Инструмент (BeautifulSoup) возвращает строку в этом формате.

Связанные

Преобразование XML/HTML-объектов в строку Unicode в Python

rksprst 08 нояб. 2008, в 19:53

Источник

Теги:

django

python

html-encode

15 ответов

99

Со стандартной библиотекой:

HTML Escape

try:
    from html import escape  # python 3.x
except ImportError:
    from cgi import escape  # python 2.x

print(escape("<"))

HTML Unescape

try:
    from html import unescape  # python 3.4+
except ImportError:
    try:
        from html.parser import HTMLParser  # python 3.x (<3.4)
    except ImportError:
        from HTMLParser import HTMLParser  # python 2.x
    unescape = HTMLParser().unescape

print(unescape("&gt;"))

Jiangge Zhang 17 авг. 2011, в 06:40

10

Я думаю, что это самый простой, «включенный аккумулятор» и правильный ответ. Я не знаю, почему люди голосуют за этих Джанго / Гепардов.
Daniel Baktiar 28 март 2012, в 13:04
0

Я тоже так думаю, за исключением того, что этот ответ не кажется полным. HTMLParser нужно разделить на подклассы, HTMLParser , что делать со всеми частями любого объекта, для которого он подается, а затем передать объект для анализа, как показано здесь . Кроме того, вы все равно захотите использовать dict name2codepoint для преобразования каждого идентификатора html в фактический символ, который он представляет.
Marconius 09 июль 2012, в 18:43
0

Ты прав. Непревзойденный HTMLParser не может работать так, как нам хотелось бы, если мы поместим в него HTML-сущность. Может быть , я должен переименовать htmlparser в _htmlparser для того , чтобы скрыть его, и только выставить unescape в метод , чтобы быть точно так же как вспомогательная функция.
Jiangge Zhang 10 июль 2012, в 01:02
3

Примечание к 2015 году, HTMLParser.unescape устарело в py 3.4 и удалено в 3.5. используйте вместо from html import unescape
Karolis Ryselis 11 нояб. 2015, в 12:32
0

@KarolisRyselis Ответ был обновлен. Спасибо!
Jiangge Zhang 11 нояб. 2015, в 14:19
2

Обратите внимание, что здесь не обрабатываются специальные символы, такие как немецкие умлауты ("Ü")
576i 15 нояб. 2015, в 19:11
0

@ 576i Ты можешь быть более конкретным? Unescaping работает для меня с Python2 + 3.
buhtz 19 июль 2017, в 12:17

Показать ещё 5 комментариев

76

Для html-кодирования в стандартной библиотеке cgi.escape:

>> help(cgi.escape)
cgi.escape = escape(s, quote=None)
    Replace special characters "&", "<" and ">" to HTML-safe sequences.
    If the optional flag quote is true, the quotation mark character (")
    is also translated.

Для html-декодирования я использую следующее:

import re
from htmlentitydefs import name2codepoint
# for some reason, python 2.5.2 doesn't have this one (apostrophe)
name2codepoint['#39'] = 39

def unescape(s):
    "unescape HTML code refs; c.f. http://wiki.python.org/moin/EscapingHtml"
    return re.sub('&(%s);' % '|'.join(name2codepoint),
              lambda m: unichr(name2codepoint[m.group(1)]), s)

Для чего-то более сложного, я использую BeautifulSoup.

user26294 16 янв. 2009, в 02:27

21

Используйте решение daniel, если набор закодированных символов относительно ограничен. В противном случае используйте одну из многочисленных библиотек разбора HTML.

Мне нравится BeautifulSoup, потому что он может обрабатывать неверные XML/HTML:

http://www.crummy.com/software/BeautifulSoup/

для вашего вопроса, есть пример в их documentation

from BeautifulSoup import BeautifulStoneSoup
BeautifulStoneSoup("Sacr&eacute; bl&#101;u!", 
                   convertEntities=BeautifulStoneSoup.HTML_ENTITIES).contents[0]
# u'Sacr\xe9 bleu!'

vincent 09 нояб. 2008, в 02:30

0

BeautifulSoup не конвертирует шестнадцатеричные объекты (& # x65;) stackoverflow.com/questions/57708/…
jfs 17 март 2009, в 20:46
1

Для BeautifulSoup4 эквивалент будет: from bs4 import BeautifulSoup BeautifulSoup("Sacré bleu!").contents[0]
radicand 27 янв. 2013, в 03:47

8

В Python 3.4 +:

import html

html.unescape(your_string)

Collin Anderson 08 июль 2015, в 02:41

8

В нижней части этой страницы на вики Python существует как минимум 2 варианта для "unescape" html.

zgoda 23 нояб. 2008, в 15:12

6

Даниэль в качестве ответа:

"escaping происходит только в Django во время рендеринга шаблона, поэтому нет необходимости в unescape - вы просто должны сказать, что механизм шаблонов не должен убежать. {{context_var | safe}} или {% autoescape off%} {{context_var }} {% endautoescape%}"

dfrankow 24 окт. 2009, в 23:36

0

Работает, за исключением того, что в моей версии Django нет «сейфа». Я использую «побег» вместо этого. Я предполагаю, что это то же самое.
willem 28 дек. 2009, в 11:23
1

@ Виллем: они наоборот!
Ashe 21 янв. 2015, в 00:35

5

Я нашел прекрасную функцию при: http://snippets.dzone.com/posts/show/4569

def decodeHtmlentities(string):
    import re
    entity_re = re.compile("&(#?)(\d{1,5}|\w{1,8});")

    def substitute_entity(match):
        from htmlentitydefs import name2codepoint as n2cp
        ent = match.group(2)
        if match.group(1) == "#":
            return unichr(int(ent))
        else:
            cp = n2cp.get(ent)

            if cp:
                return unichr(cp)
            else:
                return match.group()

    return entity_re.subn(substitute_entity, string)[0]

slowkvant 17 июль 2010, в 14:10

0

Преимущество использования re заключается в том, что вы можете сопоставить оба тега & # 039; и & # 39; используя тот же поиск.
Neal Stublen 15 окт. 2010, в 13:38
0

Это не обрабатывает   который должен декодироваться так же, как   и   ,
Mike Samuel 15 дек. 2011, в 17:49

3

Даже если это действительно старый вопрос, это может сработать.

Django 1.5.5

In [1]: from django.utils.text import unescape_entities
In [2]: unescape_entities('&lt;img class=&quot;size-medium wp-image-113&quot; style=&quot;margin-left: 15px;&quot; title=&quot;su1&quot; src=&quot;http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg&quot; alt=&quot;&quot; width=&quot;300&quot; height=&quot;194&quot; /&gt;')
Out[2]: u'<img class="size-medium wp-image-113" style="margin-left: 15px;" title="su1" src="http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg" alt="" width="300" height="194" />'

James 01 фев. 2015, в 22:55

1

Это была единственная возможность декодировать суррогатные пары, закодированные в виде html-сущностей, например "&#55349;&#56996;" , Затем, после другого result.encode('utf-16', 'surrogatepass').decode('utf-16') , я наконец получил оригинал обратно.
rescdsk 06 дек. 2016, в 20:04

3

Если кто-то ищет простой способ сделать это с помощью шаблонов django, вы всегда можете использовать такие фильтры:

<html>
{{ node.description|safe }}
</html>

У меня были некоторые данные, поступающие от поставщика, и все, что у меня было, содержало html-теги, фактически написанные на отображаемой странице, как если бы вы смотрели на источник. Этот код мне очень помог. Надеюсь, это поможет другим.

Ура!!

Chris Harty 21 дек. 2011, в 18:49

1

Вы также можете использовать django.utils.html.escape

from django.utils.html import escape

something_nice = escape(request.POST['something_naughty'])

Seth Gottlieb 27 фев. 2012, в 16:56

0

ОП спросил о побеге, а не о побеге.
claymation 30 май 2012, в 16:43
0

В заголовке itsellf он также попросил кодировку - только что нашел ваш ответ и благодарен за это.
Simon Steinberger 10 июль 2012, в 21:05
1

Не то, что спросил ОП, но я нашел это полезным.
rectangletangle 31 март 2013, в 08:59

Показать ещё 1 комментарий

1

Я нашел это в исходном коде Cheetah (здесь)

htmlCodes = [
    ['&', '&amp;'],
    ['<', '&lt;'],
    ['>', '&gt;'],
    ['"', '&quot;'],
]
htmlCodesReversed = htmlCodes[:]
htmlCodesReversed.reverse()
def htmlDecode(s, codes=htmlCodesReversed):
    """ Returns the ASCII decoded version of the given HTML string. This does
        NOT remove normal HTML tags like <p>. It is the inverse of htmlEncode()."""
    for code in codes:
        s = s.replace(code[1], code[0])
    return s

не уверены, почему они меняют список, Я думаю, что это связано с тем, как они кодируются, поэтому с ними, возможно, не нужно отменять. Кроме того, если бы я был вами, я бы изменил htmlCodes как список кортежей, а не список списков... это происходит в моей библиотеке, хотя:)

Я заметил, что ваш заголовок тоже запросил кодировку, поэтому здесь используется функция кодирования Cheetah.

def htmlEncode(s, codes=htmlCodes):
    """ Returns the HTML encoded version of the given string. This is useful to
        display a plain ASCII text string on a web page."""
    for code in codes:
        s = s.replace(code[0], code[1])
    return s

Jake 08 нояб. 2008, в 22:56

2

Список перевернут, потому что декодирование и кодирование замен всегда должны выполняться симметрично. Без реверса вы могли бы например. конвертировать '& amp; lt;' в '& lt;', затем на следующем шаге неправильно конвертируем это в '<'.
bobince 09 нояб. 2008, в 01:08

0

Ища простейшее решение этого вопроса в Django и Python, я обнаружил, что вы можете использовать встроенные их функции для экранирования/отмены кода html.

пример

Я сохранил ваш HTML-код в scraped_html и clean_html:

scraped_html = (
    '&lt;img class=&quot;size-medium wp-image-113&quot; '
    'style=&quot;margin-left: 15px;&quot; title=&quot;su1&quot; '
    'src=&quot;http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg&quot; '
    'alt=&quot;&quot; width=&quot;300&quot; height=&quot;194&quot; /&gt;'
)
clean_html = (
    '<img class="size-medium wp-image-113" style="margin-left: 15px;" '
    'title="su1" src="http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg" '
    'alt="" width="300" height="194" />'
)

Джанго

Вам нужен Django> = 1.0

экранирования в

Чтобы удалить свой очищенный HTML-код, вы можете использовать django.utils.text.unescape_entities, который:

Преобразуйте все именованные и числовые ссылки на символы в соответствующие символы Юникода.

>>> from django.utils.text import unescape_entities
>>> clean_html == unescape_entities(scraped_html)
True

побег

Чтобы избежать вашего чистого HTML-кода, вы можете использовать django.utils.html.escape, который:

Возвращает заданный текст с амперсандами, кавычками и угловыми скобками, закодированными для использования в HTML.

>>> from django.utils.html import escape
>>> scraped_html == escape(clean_html)
True

питон

Вам нужен Python> = 3.4

экранирования в

Для удаления вашего очищенного HTML-кода вы можете использовать html.unescape, который:

Преобразуйте все именованные и числовые ссылки на символы (например, > &x3e; > &x3e;) в строке s в соответствующие символы Unicode.

>>> from html import unescape
>>> clean_html == unescape(scraped_html)
True

побег

Чтобы избежать вашего чистого HTML-кода, вы можете использовать html.escape, который:

Преобразуйте символы &, < и > в строке s в безопасные для HTML последовательности.

>>> from html import escape
>>> scraped_html == escape(clean_html)
True

Paolo Melchiorre 18 июль 2018, в 15:35

0

Это самое легкое решение этой проблемы -

{% autoescape on %}
   {{ body }}
{% endautoescape %}

От эта страница.

smilitude 30 июнь 2012, в 11:04

0

Ниже приведена функция python, которая использует модуль htmlentitydefs. Это не идеально. Версия htmlentitydefs, которая у меня есть, является неполной и предполагает, что все сущности декодируются на один код, что неверно для таких объектов, как &NotEqualTilde;:

http://www.w3.org/TR/html5/named-character-references.html

NotEqualTilde;     U+02242 U+00338    ≂̸

С этими оговорками, хотя, здесь код.

def decodeHtmlText(html):
    """
    Given a string of HTML that would parse to a single text node,
    return the text value of that node.
    """
    # Fast path for common case.
    if html.find("&") < 0: return html
    return re.sub(
        '&(?:#(?:x([0-9A-Fa-f]+)|([0-9]+))|([a-zA-Z0-9]+));',
        _decode_html_entity,
        html)

def _decode_html_entity(match):
    """
    Regex replacer that expects hex digits in group 1, or
    decimal digits in group 2, or a named entity in group 3.
    """
    hex_digits = match.group(1)  # '&#10;' -> unichr(10)
    if hex_digits: return unichr(int(hex_digits, 16))
    decimal_digits = match.group(2)  # '&#x10;' -> unichr(0x10)
    if decimal_digits: return unichr(int(decimal_digits, 10))
    name = match.group(3)  # name is 'lt' when '&lt;' was matched.
    if name:
        decoding = (htmlentitydefs.name2codepoint.get(name)
            # Treat &GT; like &gt;.
            # This is wrong for &Gt; and &Lt; which HTML5 adopted from MathML.
            # If htmlentitydefs included mappings for those entities,
            # then this code will magically work.
            or htmlentitydefs.name2codepoint.get(name.lower()))
        if decoding is not None: return unichr(decoding)
    return match.group(0)  # Treat "&noSuchEntity;" as "&noSuchEntity;"

Mike Samuel 15 дек. 2011, в 19:42

Ещё вопросы

Я думаю, что это самый простой, «включенный аккумулятор» и правильный ответ. Я не знаю, почему люди голосуют за этих Джанго / Гепардов.
Я тоже так думаю, за исключением того, что этот ответ не кажется полным. HTMLParser нужно разделить на подклассы, HTMLParser , что делать со всеми частями любого объекта, для которого он подается, а затем передать объект для анализа, как показано здесь . Кроме того, вы все равно захотите использовать dict name2codepoint для преобразования каждого идентификатора html в фактический символ, который он представляет.
Ты прав. Непревзойденный HTMLParser не может работать так, как нам хотелось бы, если мы поместим в него HTML-сущность. Может быть , я должен переименовать htmlparser в _htmlparser для того , чтобы скрыть его, и только выставить unescape в метод , чтобы быть точно так же как вспомогательная функция.
Примечание к 2015 году, HTMLParser.unescape устарело в py 3.4 и удалено в 3.5. используйте вместо from html import unescape
@KarolisRyselis Ответ был обновлен. Спасибо!
Обратите внимание, что здесь не обрабатываются специальные символы, такие как немецкие умлауты ("Ü")
@ 576i Ты можешь быть более конкретным? Unescaping работает для меня с Python2 + 3.
BeautifulSoup не конвертирует шестнадцатеричные объекты (& # x65;) stackoverflow.com/questions/57708/…
Для BeautifulSoup4 эквивалент будет: from bs4 import BeautifulSoup BeautifulSoup("Sacré bleu!").contents[0]
Работает, за исключением того, что в моей версии Django нет «сейфа». Я использую «побег» вместо этого. Я предполагаю, что это то же самое.
Преимущество использования re заключается в том, что вы можете сопоставить оба тега & # 039; и & # 39; используя тот же поиск.
Это не обрабатывает   который должен декодироваться так же, как   и   ,
Это была единственная возможность декодировать суррогатные пары, закодированные в виде html-сущностей, например "&#55349;&#56996;" , Затем, после другого result.encode('utf-16', 'surrogatepass').decode('utf-16') , я наконец получил оригинал обратно.
ОП спросил о побеге, а не о побеге.
В заголовке itsellf он также попросил кодировку - только что нашел ваш ответ и благодарен за это.
Не то, что спросил ОП, но я нашел это полезным.
Список перевернут, потому что декодирование и кодирование замен всегда должны выполняться симметрично. Без реверса вы могли бы например. конвертировать '& amp; lt;' в '& lt;', затем на следующем шаге неправильно конвертируем это в '<'.

Daniel Naab · Accepted Answer · 2008-11-08T21-58-00.000Z

Учитывая вариант использования Django, есть два ответа на это. Вот его функция django.utils.html.escape, для справки:

def escape(html):
    """Returns the given HTML with ampersands, quotes and carets encoded."""
    return mark_safe(force_unicode(html).replace('&', '&amp;').replace('<', '&l
t;').replace('>', '&gt;').replace('"', '&quot;').replace("'", '&#39;'))

Чтобы изменить это, функция Cheetah, описанная в ответе Джейка, должна работать, но в ней отсутствует одинарная кавычка. Эта версия включает в себя обновленный кортеж, порядок замены которого изменен, чтобы избежать симметричных проблем:

def html_decode(s):
    """
    Returns the ASCII decoded version of the given HTML string. This does
    NOT remove normal HTML tags like <p>.
    """
    htmlCodes = (
            ("'", '&#39;'),
            ('"', '&quot;'),
            ('>', '&gt;'),
            ('<', '&lt;'),
            ('&', '&amp;')
        )
    for code in htmlCodes:
        s = s.replace(code[1], code[0])
    return s

unescaped = html_decode(my_string)

Это, однако, не является общим решением; он подходит только для строк, закодированных с помощью django.utils.html.escape. В целом, лучше придерживаться стандартной библиотеки:

# Python 2.x:
import HTMLParser
html_parser = HTMLParser.HTMLParser()
unescaped = html_parser.unescape(my_string)

# Python 3.x:
import html.parser
html_parser = html.parser.HTMLParser()
unescaped = html_parser.unescape(my_string)

# >= Python 3.5:
from html import unescape
unescaped = unescape(my_string)

В качестве предложения: может иметь больше смысла хранить неэкранированный HTML-код в вашей базе данных. Было бы целесообразно по возможности вернуть неэкранированные результаты из BeautifulSoup и вообще избежать этого процесса.

В Django экранирование происходит только во время рендеринга шаблона; поэтому, чтобы избежать побега, просто скажите шаблонизатору, чтобы он не убегал от вашей строки. Чтобы сделать это, используйте один из этих параметров в вашем шаблоне:

{{ context_var|safe }}
{% autoescape off %}
    {{ context_var }}
{% endautoescape %}

Почему бы не использовать Django или Cheetah?
Нет ли противоположности django.utils.html.escape?
Я думаю, что экранирование происходит только в Django во время рендеринга шаблона. Следовательно, нет необходимости в эскейпе - вы просто указываете движку шаблонов не уходить. либо {{context_var | safe}} или {% autoescape off%} {{context_var}} {% endautoescape%}
@Daniel: Пожалуйста, измените свой комментарий на ответ, чтобы я мог проголосовать за него! | безопасно было именно то, что я (и я уверен, что другие) искал в ответ на этот вопрос.
Я обнаружил, что в django 1.3.x мне не удалось избежать одиночных кавычек.
html.parser.HTMLParser().unescape() устарел в 3.5. html.unescape() этого используйте html.unescape() .