Довольно печатать XML на Python

Question

Довольно печатать XML на Python

380

Каков наилучший способ (или даже различные способы) для красивой печати xml в Python?

Hortitude 14 апр. 2009, в 23:21

Источник

Теги:

python

xml

pretty-print

19 ответов

145

lxml является последним, обновляется и включает довольно печатную функцию

import lxml.etree as etree

x = etree.parse("filename")
print etree.tostring(x, pretty_print=True)

Проверьте учебник lxml: http://lxml.de/tutorial.html

1729 15 апр. 2009, в 00:46

7

Единственным недостатком lxml является зависимость от внешних библиотек. Это, я думаю, не так уж плохо под Windows, библиотеки упакованы с модулем. Под Linux они aptitude install . Под OS / X я не уверен.
intuited 15 окт. 2010, в 05:08
4

В OS X вам просто нужны работающие gcc и easy_install / pip.
pkoch 08 фев. 2011, в 16:09
10

Прекрасный принтер lxml не надежен и не будет правильно печатать ваш XML во многих случаях, описанных в FAQ по lxml . Я перестал использовать lxml для красивой печати после нескольких угловых случаев, которые просто не работают (т.е. это не исправит: ошибка # 910018 ). Все эти проблемы связаны с использованием значений XML, содержащих пробелы, которые должны быть сохранены.
vaab 30 янв. 2012, в 09:57
0

Это отраслевой стандарт.
bukzor 20 апр. 2012, в 16:35
1

lxml также является частью MacPorts, у меня работает без сбоев.
Jens 20 дек. 2013, в 06:00
12

Так как в Python 3 вы обычно хотите работать с str (= строка юникода в Python 2), лучше использовать это: print(etree.tostring(x, pretty_print=True, encoding="unicode")) . Запись в выходной файл возможна всего за одну строку, промежуточная переменная не требуется: etree.parse("filename").write("outputfile", encoding="utf-8")
Thor 09 фев. 2016, в 15:05
1

etree.XMLParser(remove_blank_text=True) иногда может помочь сделать правильную печать
oak 15 окт. 2017, в 09:02
0

lxml не может правильно напечатать мой XML, даже если я загружаю исходный документ с помощью remove_blank_text = True.
Ingo Schalk-Schupp 12 дек. 2017, в 09:01

Показать ещё 6 комментариев

92

Другим решением является заимствовать эту функцию indent для использования с библиотекой ElementTree, встроенной в Python с 2,5. Вот как это будет выглядеть:

from xml.etree import ElementTree

def indent(elem, level=0):
    i = "\n" + level*"  "
    j = "\n" + (level-1)*"  "
    if len(elem):
        if not elem.text or not elem.text.strip():
            elem.text = i + "  "
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
        for subelem in elem:
            indent(subelem, level+1)
        if not elem.tail or not elem.tail.strip():
            elem.tail = j
    else:
        if level and (not elem.tail or not elem.tail.strip()):
            elem.tail = j
    return elem        

root = ElementTree.parse('/tmp/xmlfile').getroot()
indent(root)
ElementTree.dump(root)

ade 04 янв. 2011, в 02:53

0

... а затем просто используйте lxml tostring!
Stefano 21 нояб. 2011, в 19:53
2

Обратите внимание, что вы все еще можете сделать tree.write([filename]) для записи в файл ( tree является экземпляром ElementTree).
bouke 03 янв. 2014, в 11:32
13

Эта ссылка effbot.org/zone/element-lib.htm#prettyprint имеет правильный код. Код здесь что-то не так. Нужно отредактировать.
Aylwyn Lake 28 окт. 2016, в 02:44
0

Нет, вы не можете, так как elementtree.getroot () не имеет этого метода, его имеет только объект elementtree. @bouke
shinzou 25 март 2018, в 10:07
0

Вот как вы можете записать в файл: tree = ElementTree.parse('file) ; root = tree.getroot() ; indent(root); tree.write('Out.xml');
e-malito 15 фев. 2019, в 20:22

Показать ещё 3 комментария

44

Здесь мое (хакерское?) решение, чтобы обойти проблему уродливого текста node.

uglyXml = doc.toprettyxml(indent='  ')

text_re = re.compile('>\n\s+([^<>\s].*?)\n\s+</', re.DOTALL)    
prettyXml = text_re.sub('>\g<1></', uglyXml)

print prettyXml

Вышеприведенный код будет выдавать:

<?xml version="1.0" ?>
<issues>
  <issue>
    <id>1</id>
    <title>Add Visual Studio 2005 and 2008 solution files</title>
    <details>We need Visual Studio 2005/2008 project files for Windows.</details>
  </issue>
</issues>

Вместо этого:

<?xml version="1.0" ?>
<issues>
  <issue>
    <id>
      1
    </id>
    <title>
      Add Visual Studio 2005 and 2008 solution files
    </title>
    <details>
      We need Visual Studio 2005/2008 project files for Windows.
    </details>
  </issue>
</issues>

Отказ от ответственности: Есть, вероятно, некоторые ограничения.

Nick Bolton 29 июль 2010, в 22:26

0

Спасибо! Это была моя единственная претензия ко всем красивым методам печати. Хорошо работает с несколькими файлами, которые я пробовал.
iano 17 сен. 2010, в 17:00
0

Я нашел довольно «почти идентичное» решение, но у вас более прямое re.compile использовать re.compile до операции sub (я дважды использовал re.findall() , zip и цикл for с str.replace() ...)
heltonbiker 16 сен. 2011, в 20:49
3

Это больше не требуется в Python 2.7: функция toprettyxml () в xml.dom.minidom теперь выдает вывод, подобный «<id> 1 </ id>» по умолчанию, для узлов, которые имеют ровно один текстовый дочерний узел.
Marius Gedminas 12 июль 2013, в 14:00
0

Я вынужден использовать Python 2.6. Таким образом, этот трюк переформатирования регулярных выражений очень полезен. Работал как есть без проблем.
Mike Finch 18 янв. 2017, в 21:46

Показать ещё 2 комментария

19

Как отмечали другие, lxml имеет красивый принтер, встроенный.

Помните, что по умолчанию он изменяет разделы CDATA на обычный текст, который может иметь неприятные результаты.

Здесь находится функция Python, которая сохраняет входной файл и только изменяет отступ (обратите внимание на strip_cdata=False). Кроме того, он гарантирует, что на выходе используется UTF-8 в качестве кодировки вместо ASCII по умолчанию (обратите внимание на encoding='utf-8'):

from lxml import etree

def prettyPrintXml(xmlFilePathToPrettyPrint):
    assert xmlFilePathToPrettyPrint is not None
    parser = etree.XMLParser(resolve_entities=False, strip_cdata=False)
    document = etree.parse(xmlFilePathToPrettyPrint, parser)
    document.write(xmlFilePathToPrettyPrint, pretty_print=True, encoding='utf-8')

Пример использования:

prettyPrintXml('some_folder/some_file.xml')

roskakori 13 апр. 2011, в 14:24

1

Сейчас немного поздно. Но я думаю, что lxml исправил CDATA? CDATA - это CDATA на моей стороне.
elwc 03 янв. 2013, в 03:55
0

Спасибо, это лучший ответ на данный момент.
George Chalhoub 30 июнь 2018, в 17:21

12

BeautifulSoup имеет простой в использовании prettify().

Он отступает один пробел на уровень отступа. Он работает намного лучше, чем lxml pretty_print, и он короткий и приятный.

from bs4 import BeautifulSoup

bs = BeautifulSoup(open(xml_file), 'xml')
print bs.prettify()

ChaimG 14 сен. 2016, в 06:49

10

Если у вас есть xmllint, вы можете создать подпроцесс и использовать его. xmllint --format <file> довольно-печатает свой входной XML для стандартного вывода.

Обратите внимание, что этот метод использует программу, внешнюю по отношению к python, что делает ее вроде взлома.

def pretty_print_xml(xml):
    proc = subprocess.Popen(
        ['xmllint', '--format', '/dev/stdin'],
        stdin=subprocess.PIPE,
        stdout=subprocess.PIPE,
    )
    (output, error_output) = proc.communicate(xml);
    return output

print(pretty_print_xml(data))

Russell Silva 12 апр. 2012, в 23:42

9

Я попытался отредактировать ответ "ade" выше, но Qaru не разрешил мне редактировать после того, как я первоначально предоставил анонимную обратную связь. Это менее сложная версия функции для правильной печати ElementTree.

def indent(elem, level=0, more_sibs=False):
    i = "\n"
    if level:
        i += (level-1) * '  '
    num_kids = len(elem)
    if num_kids:
        if not elem.text or not elem.text.strip():
            elem.text = i + "  "
            if level:
                elem.text += '  '
        count = 0
        for kid in elem:
            indent(kid, level+1, count < num_kids - 1)
            count += 1
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
            if more_sibs:
                elem.tail += '  '
    else:
        if level and (not elem.tail or not elem.tail.strip()):
            elem.tail = i
            if more_sibs:
                elem.tail += '  '

Joshua Richardson 17 окт. 2012, в 18:48

8

Если вы используете реализацию DOM, у каждого из них есть встроенная форма печати:

# minidom
#
document.toprettyxml()

# 4DOM
#
xml.dom.ext.PrettyPrint(document, stream)

# pxdom (or other DOM Level 3 LS-compliant imp)
#
serializer.domConfig.setParameter('format-pretty-print', True)
serializer.writeToString(document)

Если вы используете что-то еще без своего собственного принтера-принтера, или те симпатичные принтеры не делают этого так, как вы хотите, вам, вероятно, придется писать или подклассифицировать собственный сериализатор.

bobince 15 апр. 2009, в 01:55

6

У меня были некоторые проблемы с мини-принтом. Я бы получил UnicodeError всякий раз, когда я пробовал довольно-печатать документ с символами за пределами данной кодировки, например, если у меня был β в документе, и я попробовал doc.toprettyxml(encoding='latin-1'). Вот мой способ обхода:

def toprettyxml(doc, encoding):
    """Return a pretty-printed XML document in a given encoding."""
    unistr = doc.toprettyxml().replace(u'<?xml version="1.0" ?>',
                          u'<?xml version="1.0" encoding="%s"?>' % encoding)
    return unistr.encode(encoding, 'xmlcharrefreplace')

giltay 15 апр. 2009, в 14:11

5

from yattag import indent

pretty_string = indent(ugly_string)

Он не будет добавлять пробелы или новые строки внутри текстовых узлов, если вы не попросите его:

indent(mystring, indent_text = True)

Вы можете указать, какой должна быть единица отступов, и как должна выглядеть новая строка.

pretty_xml_string = indent(
    ugly_xml_string,
    indentation = '    ',
    newline = '\r\n'
)

Документ находится на домашней странице http://www.yattag.org.

John Smith Optional 13 май 2014, в 16:04

3

Хорошая печать XML для python выглядит довольно хорошо для этой задачи. (Соответственно названо тоже.)

Альтернативой является использование pyXML, в котором Функция PrettyPrint.

Daniel Lew 15 апр. 2009, в 01:50

2

Взгляните на модуль vkbeautify.

Это версия python моего очень популярного плагина javascript/nodejs с тем же именем. Он может печатать/минимизировать XML, JSON и текст CSS. Ввод и вывод могут быть строковыми/файлами в любых комбинациях. Он очень компактный и не имеет никакой зависимости.

<сильные > Примеры:

import vkbeautify as vkb

vkb.xml(text)                       
vkb.xml(text, 'path/to/dest/file')  
vkb.xml('path/to/src/file')        
vkb.xml('path/to/src/file', 'path/to/dest/file')

vadimk 04 янв. 2017, в 01:58

0

Эта конкретная библиотека обрабатывает проблему Ugly Text Node.
Cameron Lowell Palmer 30 март 2017, в 10:47

2

Я написал решение, чтобы пройти через существующий ElementTree и использовать text/tail для отступов, как обычно ожидает.

def prettify(element, indent='  '):
    queue = [(0, element)]  # (level, element)
    while queue:
        level, element = queue.pop(0)
        children = [(level + 1, child) for child in list(element)]
        if children:
            element.text = '\n' + indent * (level+1)  # for child open
        if queue:
            element.tail = '\n' + indent * queue[0][0]  # for sibling open
        else:
            element.tail = '\n' + indent * (level-1)  # for parent close
        queue[0:0] = children  # prepend so children come before siblings

nacitar sevaht 25 июль 2016, в 19:03

1

Альтернативой, если вы не хотите переписывать, есть библиотека xmlpp.py с помощью функции get_pprint(). Он работал красиво и гладко для моих случаев использования, не переписывая объект lxml ElementTree.

gaborous 25 июль 2017, в 16:04

1

Пробовал minidom и lxml и не получал правильно отформатированный и с отступом xml. Это сработало, как и ожидалось
david-hoze 08 авг. 2017, в 10:23
1

Сбой для имен тегов, которые начинаются с префикса пространства имен и содержат дефис (например, <ns: дефис-тег />; часть, начинающаяся с дефиса, просто отбрасывается, давая, например, <ns: дефис / /.
Endre Both 12 нояб. 2018, в 15:06
0

@EndreBoth Хороший улов, я не тестировал, но, возможно, было бы легко исправить это в коде xmlpp.py?
gaborous 12 нояб. 2018, в 20:45

Показать ещё 1 комментарий

1

Вы можете использовать популярную внешнюю библиотеку xmltodict, с unparse и pretty=True вы получите лучший результат:

xmltodict.unparse(
    xmltodict.parse(my_xml), full_document=False, pretty=True)

full_document=False от <?xml version="1.0" encoding="UTF-8"?> вверху.

Vitaly Zdanevich 07 сен. 2016, в 18:32

0

Для преобразования всего XML-документа в документ xml
(например: если вы извлекли [распаковали] файл LibtOffice.odt или.ods, и вы хотите преобразовать уродливый файл "content.xml" в красивую для автоматического управления версиями git difftool и git difftool ing.odt/.ods, например, я реализую здесь)

import xml.dom.minidom

file = open("./content.xml", 'r')
xml_string = file.read()
file.close()

parsed_xml = xml.dom.minidom.parseString(xml_string)
pretty_xml_as_string = parsed_xml.toprettyxml()

file = open("./content_new.xml", 'w')
file.write(pretty_xml_as_string)
file.close()

Рекомендации:
- Спасибо Бен Ноланду ответить на эту страницу, которая доставила мне большую часть пути.

Gabriel Staples 01 сен. 2018, в 07:05

0

У меня была эта проблема и она была решена так:

def write_xml_file (self, file, xml_root_element, xml_declaration=False, pretty_print=False, encoding='unicode', indent='\t'):
    pretty_printed_xml = etree.tostring(xml_root_element, xml_declaration=xml_declaration, pretty_print=pretty_print, encoding=encoding)
    if pretty_print: pretty_printed_xml = pretty_printed_xml.replace('  ', indent)
    file.write(pretty_printed_xml)

В моем коде этот метод называется следующим:

try:
    with open(file_path, 'w') as file:
        file.write('<?xml version="1.0" encoding="utf-8" ?>')

        # create some xml content using etree ...

        xml_parser = XMLParser()
        xml_parser.write_xml_file(file, xml_root, xml_declaration=False, pretty_print=True, encoding='unicode', indent='\t')

except IOError:
    print("Error while writing in log file!")

Это работает только потому, что etree по умолчанию использует two spaces для отступа, и я не очень сильно подчеркиваю отступ и, следовательно, не очень. Я не мог указывать какие-либо настройки для etree или параметра для любой функции, чтобы изменить стандартный отступ epree. Мне нравится, как легко использовать etree, но это меня действительно раздражало.

Zelphir 28 июль 2015, в 00:34

0

Я решил это с некоторыми строками кода, открыв файл, перейдя через него и добавив отступ, а затем сохранил его снова. Я работал с небольшими файлами xml и не хотел добавлять зависимости или больше библиотек для установки для пользователя. Во всяком случае, вот что я закончил:

    f = open(file_name,'r')
    xml = f.read()
    f.close()

    #Removing old indendations
    raw_xml = ''        
    for line in xml:
        raw_xml += line

    xml = raw_xml

    new_xml = ''
    indent = '    '
    deepness = 0

    for i in range((len(xml))):

        new_xml += xml[i]   
        if(i<len(xml)-3):

            simpleSplit = xml[i:(i+2)] == '><'
            advancSplit = xml[i:(i+3)] == '></'        
            end = xml[i:(i+2)] == '/>'    
            start = xml[i] == '<'

            if(advancSplit):
                deepness += -1
                new_xml += '\n' + indent*deepness
                simpleSplit = False
                deepness += -1
            if(simpleSplit):
                new_xml += '\n' + indent*deepness
            if(start):
                deepness += 1
            if(end):
                deepness += -1

    f = open(file_name,'w')
    f.write(new_xml)
    f.close()

Это работает для меня, возможно, кто-то будет использовать его:)

Petter TB 12 июль 2013, в 11:40

0

Покажите скриншот фрагмента до и после, и, возможно, вы избежите будущих понижений. Я не пробовал ваш код, и, очевидно, другие ответы здесь лучше, я думаю (и более общие / полностью сформированные, так как они основаны на хороших библиотеках), но я не уверен, почему вы получили здесь отрицательную оценку. Люди должны оставлять комментарии, когда они понижают голос.
Gabriel Staples 01 сен. 2018, в 06:56

Ещё вопросы

Единственным недостатком lxml является зависимость от внешних библиотек. Это, я думаю, не так уж плохо под Windows, библиотеки упакованы с модулем. Под Linux они aptitude install . Под OS / X я не уверен.
В OS X вам просто нужны работающие gcc и easy_install / pip.
Прекрасный принтер lxml не надежен и не будет правильно печатать ваш XML во многих случаях, описанных в FAQ по lxml . Я перестал использовать lxml для красивой печати после нескольких угловых случаев, которые просто не работают (т.е. это не исправит: ошибка # 910018 ). Все эти проблемы связаны с использованием значений XML, содержащих пробелы, которые должны быть сохранены.
lxml также является частью MacPorts, у меня работает без сбоев.
Так как в Python 3 вы обычно хотите работать с str (= строка юникода в Python 2), лучше использовать это: print(etree.tostring(x, pretty_print=True, encoding="unicode")) . Запись в выходной файл возможна всего за одну строку, промежуточная переменная не требуется: etree.parse("filename").write("outputfile", encoding="utf-8")
etree.XMLParser(remove_blank_text=True) иногда может помочь сделать правильную печать
lxml не может правильно напечатать мой XML, даже если я загружаю исходный документ с помощью remove_blank_text = True.
... а затем просто используйте lxml tostring!
Обратите внимание, что вы все еще можете сделать tree.write([filename]) для записи в файл ( tree является экземпляром ElementTree).
Эта ссылка effbot.org/zone/element-lib.htm#prettyprint имеет правильный код. Код здесь что-то не так. Нужно отредактировать.
Нет, вы не можете, так как elementtree.getroot () не имеет этого метода, его имеет только объект elementtree. @bouke
Вот как вы можете записать в файл: tree = ElementTree.parse('file) ; root = tree.getroot() ; indent(root); tree.write('Out.xml');
Спасибо! Это была моя единственная претензия ко всем красивым методам печати. Хорошо работает с несколькими файлами, которые я пробовал.
Я нашел довольно «почти идентичное» решение, но у вас более прямое re.compile использовать re.compile до операции sub (я дважды использовал re.findall() , zip и цикл for с str.replace() ...)
Это больше не требуется в Python 2.7: функция toprettyxml () в xml.dom.minidom теперь выдает вывод, подобный «<id> 1 </ id>» по умолчанию, для узлов, которые имеют ровно один текстовый дочерний узел.
Я вынужден использовать Python 2.6. Таким образом, этот трюк переформатирования регулярных выражений очень полезен. Работал как есть без проблем.
Сейчас немного поздно. Но я думаю, что lxml исправил CDATA? CDATA - это CDATA на моей стороне.
Спасибо, это лучший ответ на данный момент.
Эта конкретная библиотека обрабатывает проблему Ugly Text Node.
Пробовал minidom и lxml и не получал правильно отформатированный и с отступом xml. Это сработало, как и ожидалось
Сбой для имен тегов, которые начинаются с префикса пространства имен и содержат дефис (например, <ns: дефис-тег />; часть, начинающаяся с дефиса, просто отбрасывается, давая, например, <ns: дефис / /.
@EndreBoth Хороший улов, я не тестировал, но, возможно, было бы легко исправить это в коде xmlpp.py?
Покажите скриншот фрагмента до и после, и, возможно, вы избежите будущих понижений. Я не пробовал ваш код, и, очевидно, другие ответы здесь лучше, я думаю (и более общие / полностью сформированные, так как они основаны на хороших библиотеках), но я не уверен, почему вы получили здесь отрицательную оценку. Люди должны оставлять комментарии, когда они понижают голос.

Ben Noland · Accepted Answer · 2009-07-30T15-22-00.000Z

345

Лучший ответ

import xml.dom.minidom

dom = xml.dom.minidom.parse(xml_fname) # or xml.dom.minidom.parseString(xml_string)
pretty_xml_as_string = dom.toprettyxml()

Ben Noland 30 июль 2009, в 15:22

29

Это даст вам довольно xml, но обратите внимание, что то, что выходит в текстовом узле, на самом деле отличается от того, что появилось - в текстовых узлах есть новые пробелы. Это может вызвать у вас проблемы, если вы ожидаете ТОЧНО того, что подали, чтобы питаться.
Todd Hopkinson 12 янв. 2012, в 18:03
36

@icnivad: хотя важно указать на этот факт, мне кажется странным, что кто-то захочет улучшить его XML, если пробелы будут иметь какое-то значение для них!
vaab 30 янв. 2012, в 09:49
16

Ницца! Можно свернуть это в один слой: python -c 'import sys; import xml.dom.minidom; s = sys.stdin.read (); print xml.dom.minidom.parseString (s) .toprettyxml ()'
Anton I. Sipos 17 апр. 2012, в 22:17
10

minidom широко известен как довольно плохая реализация XML. Если вы позволите себе добавлять внешние зависимости, lxml будет намного лучше.
bukzor 20 апр. 2012, в 16:34
25

Не фанат переопределения xml от модуля до объекта вывода, но метод работает иначе. Я хотел бы найти более хороший путь от основного этри к красивой печати. Хотя lxml - это круто, бывают случаи, когда я предпочитаю придерживаться сути, если могу.
Danny Staple 01 май 2012, в 16:05
4

Это вставляет дополнительные пробелы каждый раз, когда я запускаю его, что, по моему мнению, не работает. (Python 2.6 и 2.7)
Warren P 27 март 2014, в 14:11
2

Ссылка на документы: docs.python.org/2/library/…
Paolo 20 июль 2014, в 18:12
6

Тонны сумасшедших пустых строк везде. Это решение не работает.
void.pointer 08 янв. 2015, в 03:54
1

Да, это довольно ужасное решение на самом деле.
Emil 27 сен. 2015, в 18:03
2

в версии 2.6 имеются новые строки и пробелы в текстовых узлах, но в версии 2.7 текстовые узлы отображаются без изменений.
Wyrmwood 07 апр. 2016, в 00:21
0

Спасибо @Wyrmwood, это было очень полезно для меня, чтобы знать.
Brian C 11 авг. 2016, в 23:44
0

Стоит отметить, что это все еще довольно уродливый XML: кажется, не существует надежного способа претенцировать XML таким способом, который не был бы уродливым, и, под уродливым, я имею в виду, что все атрибуты тегов находятся на одной строке, а не на отдельных.
Alexej Magura 19 апр. 2017, в 14:40
0

Потрясающая работа! Вот пример, который делает еще один шаг вперед и преобразует уродливый XML-файл в симпатичный XML-файл: stackoverflow.com/a/52125645/4561887
Gabriel Staples 01 сен. 2018, в 06:49
1

xml.toprettyxml(indent="", newl="") чтобы иметь 4 пробела и нигде не было новой строки. добавить однострочник: python -c 'import sys, xml.dom.minidom as xmld; print(xmld.parse(sys.argv[1]).toprettyxml(indent="",newl=""))' my_xml_file.xml
Boop 06 нояб. 2018, в 13:53
0

Чтобы удалить уродливые пустые строки, которые он генерирует, просто добавьте что-то вроде этого, чтобы pretty_xml_as_string = '\n'.join(list(filter(lambda x: len(x.strip()), pretty_xml_as_string.split('\n')))) пустые строки: pretty_xml_as_string = '\n'.join(list(filter(lambda x: len(x.strip()), pretty_xml_as_string.split('\n'))))
Treviño 26 март 2019, в 05:55

Показать ещё 13 комментариев