Сохранение специальных символов в текстовых узлах с помощью модуля Python lxml

1

Я редактирую файл XML, предоставляемый третьей стороной. XML используется для воссоздания и всей среды, и каждый может редактировать XML, чтобы пропагандировать изменения. Мне удалось найти элемент, который я хотел изменить с помощью параметров командной строки, и сохранить XML, но специальные символы экранируются, и мне нужно сохранить специальные символы. Например, он меняет > на $gt; в файле во время операции .write. Это затрагивает во всех встречах XML-документа не только элемент node (я думаю, что это то, что он называется) Ниже мой код:

import sys
from lxml import etree
from  optparse import OptionParser

def parseCommandLine ():
   usage = "usage: %prog [options] arg"
   parser =  OptionParser(usage)
   parser.add_option("-f","--file",dest="filename",
                  help="Context File name including full path", metavar="CONTEXT_FILE")

parser.add_option("-k","--key",dest="key",
                  help="Key you are looking for in Context File i.e s_isAdmin", metavar="s_someKey")

parser.add_option("-v","--value",dest="value",
                  help="The replacement value for the key")

if len(sys.argv[1:]) < 3:
   print len(sys.argv[1:]) 
   parser.print_help()
   sys.exit(2)

(options, args) = parser.parse_args()
return options.filename, options.key, options.value
Filename, Key,  Value=parseCommandLine()
parser_options=etree.XMLParser(attribute_defaults=True, dtd_validation=False,      strip_cdata=False)
doc = etree.parse(Filename, parser_options ) #Open and parse the file
print doc.findall("//*[@oa_var=%r]" % Key)[0].text 
oldval = doc.findall("//*[@oa_var=%r]" % Key)[0].text
val = doc.findall("//*[@oa_var=%r]" % Key)[0]
val.text = Value

print 'old value is  %s' % oldval
print 'new value is  %s' % val.text

root = doc.getroot()
doc.write(Filename,method='xml',with_tail=True,pretty_print=False) 

В исходном файле есть:

tf.fm.FulfillmentServer → /s_u01/app/applmgr/f

Сохраненная версия заменяется следующим:

tf.fm.FulfillmentServer &gt;&gt; /s_u01/app/applmgr/f

Я пытаюсь смириться с pretty_print в валидации DTD на стороне вывода на стороне синтаксического анализа, и я в тупике.

Ниже приведена разница между измененным файлом и исходным файлом:

Я обновил только s_cookie_domain.

diff finprod_acfpdb10.xml_original finprod_acfpdb10.xml                             
Warning: missing newline at end of file finprod_acfpdb10.xml
1,3c1
< <?xml version = '1.0'?>
< <!-- $Header: adxmlctx.tmp 115.426 2009/05/08 08:46:29 rdamodar ship $ -->
< <!--
---
> <!-- $Header: adxmlctx.tmp 115.426 2009/05/08 08:46:29 rdamodar ship $ --><!--
13,14c11
<   -->
< <oa_context version="$Revision: 115.426 $">
---
>   --><oa_context version="$Revision: 115.426 $">
242c239
<          <cookiedomain oa_var="s_cookie_domain">.apollogrp.edu</cookiedomain>
---
>          <cookiedomain oa_var="s_cookie_domain">.qadoamin.edu</cookiedomain>
526c523
<          <FORMS60_BLOCK_URL_CHARACTERS oa_var="s_f60blockurlchar">%0a,%0d,!,%21,",%22,%28,%29,;,[,%5b,],%5d,{,%7b,|,%7c,},%7d,%7f,>,%3c,&lt;,%3e</FORMS60_BLOCK_URL_CHARACTERS>
---
>          <FORMS60_BLOCK_URL_CHARACTERS oa_var="s_f60blockurlchar">%0a,%0d,!,%21,",%22,%28,%29,;,[,%5b,],%5d,{,%7b,|,%7c,},%7d,%7f,&gt;,%3c,&lt;,%3e</FORMS60_BLOCK_URL_CHARACTERS>
940c937
<          <start_cmd oa_var="s_jtffstart">/s_u01/app/applmgr/jdk1.5.0_11/bin/java -Xmx512M -classpath .:/s_u01/app/applmgr/finprod/comn/java/jdbc111.zip:/s_u01/app/applmgr/finprod/comn/java/xmlparserv2.zip:/s_u01/app/applmgr/finprod/comn/java:/s_u01/app/applmgr/finprod/comn/java/apps.zip:/s_u01/app/applmgr/jdk1.5.0_11/classes:/s_u01/app/applmgr/jdk1.5.0_11/lib:/s_u01/app/applmgr/jdk1.5.0_11/lib/classes.zip:/s_u01/app/applmgr/jdk1.5.0_11/lib/classes.jar:/s_u01/app/applmgr/jdk1.5.0_11/lib/rt.jar:/s_u01/app/applmgr/jdk1.5.0_11/lib/i18n.jar:/s_u01/app/applmgr/finprod/comn/java/3rdparty/RFJavaInt.zip: -Dengine.LogPath=/s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10 -Dengine.TempDir=/s_u01/app/applmgr/finprod/comn/temp -Dengine.CommandPromptEnabled=false -Dengine.CommandPort=11000 -Dengine.AOLJ.config=/s_u01/app/applmgr/finprod/appl/fnd/11.5.0/secure/acfpdb10_finprod.dbc -Dengine.ServerID=5000 -Ddebug=off -Dengine.LogLevel=1 -Dlog.ShowWarnings=false -Dengine.FaxEnabler=oracle.apps.jtf.fm.engine.rightfax.RfFaxEnablerImpl -Dengine.PrintEnabler=oracle.apps.jtf.fm.engine.rightfax.RfPrintEnablerImpl -Dfax.TempDir=/s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10 -Dprint.TempDir=/s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10 oracle.apps.jtf.fm.FulfillmentServer >> /s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10/jtffmctl.txt</start_cmd>
---
>          <start_cmd oa_var="s_jtffstart">/s_u01/app/applmgr/jdk1.5.0_11/bin/java -Xmx512M -classpath .:/s_u01/app/applmgr/finprod/comn/java/jdbc111.zip:/s_u01/app/applmgr/finprod/comn/java/xmlparserv2.zip:/s_u01/app/applmgr/finprod/comn/java:/s_u01/app/applmgr/finprod/comn/java/apps.zip:/s_u01/app/applmgr/jdk1.5.0_11/classes:/s_u01/app/applmgr/jdk1.5.0_11/lib:/s_u01/app/applmgr/jdk1.5.0_11/lib/classes.zip:/s_u01/app/applmgr/jdk1.5.0_11/lib/classes.jar:/s_u01/app/applmgr/jdk1.5.0_11/lib/rt.jar:/s_u01/app/applmgr/jdk1.5.0_11/lib/i18n.jar:/s_u01/app/applmgr/finprod/comn/java/3rdparty/RFJavaInt.zip: -Dengine.LogPath=/s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10 -Dengine.TempDir=/s_u01/app/applmgr/finprod/comn/temp -Dengine.CommandPromptEnabled=false -Dengine.CommandPort=11000 -Dengine.AOLJ.config=/s_u01/app/applmgr/finprod/appl/fnd/11.5.0/secure/acfpdb10_finprod.dbc -Dengine.ServerID=5000 -Ddebug=off -Dengine.LogLevel=1 -Dlog.ShowWarnings=false -Dengine.FaxEnabler=oracle.apps.jtf.fm.engine.rightfax.RfFaxEnablerImpl -Dengine.PrintEnabler=oracle.apps.jtf.fm.engine.rightfax.RfPrintEnablerImpl -Dfax.TempDir=/s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10 -Dprint.TempDir=/s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10 oracle.apps.jtf.fm.FulfillmentServer &gt;&gt; /s_u01/app/applmgr/finprod/comn/admin/log/finprod_acfpdb10/jtffmctl.txt</start_cmd>
983c980
< </oa_context>
---
> </oa_context>
  • 1
    Почему потребитель не использует парсер XML?
  • 0
    Какая кодировка в исходном файле? И вывод должен быть XML или текст?
Показать ещё 7 комментариев
Теги:
lxml

2 ответа

1
Лучший ответ

Терминология: Parsers не пишут XML; они читают XML. Сериализаторы пишут XML.

В нормальном содержании элемента < и & являются незаконными и должны быть экранированы. > является законным, за исключением случаев, когда это следует]] и НЕ является концом раздела CDATA. Большинство сериализаторов берут простой выход и пишут &gt;, потому что парсер будет обрабатывать как это, так и >.

Я предлагаю вам отправить оба выходных и входных файла в службу проверки XML, например this или this, а также проверить, будет ли потребитель фактически анализировать ваш выходной файл.

  • 0
    Спасибо за разъяснения между парсерами и сериализаторами, так как я сказал, что я новичок в обработке Python и XML. Мой xml прошел с использованием xmlvalidation.com, но потерпел неудачу с validrome.org/xml как с исходным файлом, так и с обновленной версией. Я проверил файлы на других сайтах, и оказалось, что проверка схемы не удалась. Имеет ли это смысл?
  • 0
    @ Майкл Баллент: Различие парсеров / сериализаторов применяется независимо от языка и формата файла. Это может помочь, если вы скажете, что validome (это купол, а не дром) был расстроен ... но можно предположить, что это не имеет никакого отношения к '>' или `& gt; вопрос. Что потребитель думает о вашем выходном файле? Пожалуйста, начните новый вопрос, если вы хотите помочь с проверкой схемы.
Показать ещё 1 комментарий
1

Единственное, о чем я могу думать, это заставить парсер обрабатывать узлы, которые вы изменяете как блоки cdata (поскольку синтаксический анализатор явно меняет скобки закрытия тега xml). Попробуйте val.text = etree.CDATA(Value) вместо val.text = Value.

http://lxml.de/api.html#cdata

  • 0
    Это не просто замененное значение, которое выходит за пределы, больше чем> это в других узлах, которые я не касаюсь.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню