Разделить XML на несколько документов в Java

Question

Разделить XML на несколько документов в Java

1

У меня есть большое количество XML-документов, которые выглядят так:

<root xmlns="urn:foo" xmlns:bar="urn:bar">
  <Entity>
    <bar:field>Data</bar:field>
    <bar:other>Other data</bar:other>
    <bar:more>More data</bar:more>
  </Entity>
  <Entity>
    <bar:field>Data</bar:field>
    <bar:other>Other data</bar:other>
    <bar:more>More data</bar:more>
  </Entity>
</root>

До 1000 узлов Entity под каждым корневым узлом. Я хотел бы разбить каждый из них на свой собственный документ, не записывая на диск, если это возможно.

Я знаком с XSLT 2.0 и знаю, что могу выполнить это с помощью Saxon, используя xsl: result-document, но который записывает на диск во всех случаях, не так ли? Есть ли способ перехватить вывод как строку? Я работаю на Java, и исходные данные являются результатом вызова REST, поэтому он входит в качестве InputStream, который я сейчас пишу в String.

Derek 11 июль 2014, в 22:29

Источник

0

Напишите синтаксический анализатор SAX для интерпретации входного потока. Парсер может разбить данные на два (или более) выходных потока.
gaborsch 11 июль 2014, в 20:25
0

Кроме того, будьте очень осторожны при работе с данными XML как String / Reader. таким образом легко испортить данные.
jtahlborn 11 июль 2014, в 20:41
0

Вывод xsl: result-document обходит обычную запись результата из моего опыта, запись в файл, указанный атрибутом 'href'.
Derek 11 июль 2014, в 20:55
1

Я думаю, что saxonica.com/documentation/index.html#!javadoc/net.sf.saxon.lib/… и метод saxonica.com/documentation/index.html#!javadoc/net.sf.saxon/… должны позволять Вы должны предоставить свой собственный OutputURIResolver, который гарантирует, что результирующие документы не записываются в файловую систему, а, например, помещаются в буфер с помощью StringWriter.
Martin Honnen 12 июль 2014, в 11:00
0

Я смог выяснить и использовать OutputURIResolver, спасибо @Martin. Я сохраняю StringWriters в ArrayList, а затем перебираю это, чтобы получить строки, но, думаю, другого пути нет. Спасибо! Если вы ответите с этой информацией, я приму ее.
Derek 21 июль 2014, в 20:50

Показать ещё 3 комментария

Теги:

java

xml

xslt

xslt-2.0

3 ответа

1

Как разобрать его в документе, запуская на нем выражение /root/Entity Xpath, перейдя по узлу NodeSet и приняв каждый узел в новый пустой документ?

David Ehrmann 11 июль 2014, в 22:18

0

Это может быть то, что я должен сделать, хотя я надеялся избежать использования ужасных XML-библиотек Java. Я надеялся, что смогу сделать это с помощью таблицы стилей.
Derek 14 июль 2014, в 14:40
1

Они такие же ужасные, как DOM API браузера.
David Ehrmann 14 июль 2014, в 15:15

0

Вы можете написать простую трансформацию XSLT 2.0 и запустить этот раз в разы по сравнению с исходным файлом из Java-программы и получить стандартный вывод Saxon в программе Java.

Как вызвать другую программу из Java: используйте ProcessBuilder и запустите Process. Детали доступны по запросу.

Другой вариант - использовать JAXB для создания дерева объектов, извлечения элементов Entity, создания небольшого дерева объектов и сортировки строки. Это было бы намного быстрее.

laune 11 июль 2014, в 18:19

0

Стандартный вывод Saxon из xsl: result-document пуст, документы обычно обходят стандартный вывод и записываются в файловую систему с помощью атрибута 'href'.
Derek 11 июль 2014, в 21:01
0

@Derek - в этом ответе не упоминается использование xsl:result-document .
Daniel Haley 12 июль 2014, в 06:58
0

Мне не хватает способа получить один документ для вывода во многих без использования xsl: result-document? Это единственный способ, который я знаю в XSLT 2.0
Derek 14 июль 2014, в 14:39
0

Это конечно правильно. - Действительно, использование JAXB было бы быстрым и простым. (У вас есть схема XML?)
laune 14 июль 2014, в 14:47
0

У меня есть XSD. Я никогда не использовал JAXB, но я открыт для этого, если это правильный инструмент.
Derek 14 июль 2014, в 19:28
0

Хотите, чтобы я купил POC для вывода отдельных документов XML из документа, содержащего список? Ничего страшного.
laune 14 июль 2014, в 20:04

Показать ещё 4 комментария

Ещё вопросы

Напишите синтаксический анализатор SAX для интерпретации входного потока. Парсер может разбить данные на два (или более) выходных потока.
Кроме того, будьте очень осторожны при работе с данными XML как String / Reader. таким образом легко испортить данные.
Вывод xsl: result-document обходит обычную запись результата из моего опыта, запись в файл, указанный атрибутом 'href'.
Я думаю, что saxonica.com/documentation/index.html#!javadoc/net.sf.saxon.lib/… и метод saxonica.com/documentation/index.html#!javadoc/net.sf.saxon/… должны позволять Вы должны предоставить свой собственный OutputURIResolver, который гарантирует, что результирующие документы не записываются в файловую систему, а, например, помещаются в буфер с помощью StringWriter.
Я смог выяснить и использовать OutputURIResolver, спасибо @Martin. Я сохраняю StringWriters в ArrayList, а затем перебираю это, чтобы получить строки, но, думаю, другого пути нет. Спасибо! Если вы ответите с этой информацией, я приму ее.
Это может быть то, что я должен сделать, хотя я надеялся избежать использования ужасных XML-библиотек Java. Я надеялся, что смогу сделать это с помощью таблицы стилей.
Они такие же ужасные, как DOM API браузера.
Стандартный вывод Saxon из xsl: result-document пуст, документы обычно обходят стандартный вывод и записываются в файловую систему с помощью атрибута 'href'.
@Derek - в этом ответе не упоминается использование xsl:result-document .
Мне не хватает способа получить один документ для вывода во многих без использования xsl: result-document? Это единственный способ, который я знаю в XSLT 2.0
Это конечно правильно. - Действительно, использование JAXB было бы быстрым и простым. (У вас есть схема XML?)
У меня есть XSD. Я никогда не использовал JAXB, но я открыт для этого, если это правильный инструмент.
Хотите, чтобы я купил POC для вывода отдельных документов XML из документа, содержащего список? Ничего страшного.

Martin Honnen · Accepted Answer · 2014-07-22T07-14-00.000Z

Saxon 9 позволяет вам предоставить http://saxonica.com/documentation/index.html#!javadoc/net.sf.saxon.lib/OutputURIResolver файл http://saxonica.com/documentation/index.html#! javadoc/net.sf.saxon/Controller@setOutputURIResolver, который может обрабатывать любой result-document по-своему, например, путем записи в StringWriter в памяти, а не в файл на диске.