Нормализация в разборе DOM с Java - как это работает?

Question

Нормализация в разборе DOM с Java - как это работает?

176

Я видел строку ниже в коде для DOM-парсера в этом учебнике.

doc.getDocumentElement().normalize();

Почему мы делаем эту нормализацию?
Я прочитал docs, но я не мог понять ни слова.

Помещает все текстовые узлы на всю глубину поддерева под этим Node

Хорошо, тогда кто-нибудь может показать мне (желательно с изображением), как выглядит это дерево?

Может ли кто-нибудь объяснить мне, зачем нужна нормализация?
Что произойдет, если мы не нормализуемся?

Apple Grinder 09 дек. 2012, в 08:45

Источник

0

Независимо от вашего вопроса, прочтите примечание к примеру: «DOM Parser работает медленно и потребляет много памяти, когда загружает XML-документ, содержащий много данных. Пожалуйста, рассмотрите SAX-парсер как решение для него, SAX быстрее чем DOM и использовать меньше памяти. " ,
wulfgarpro 09 дек. 2012, в 10:27
3

@ wulfgar.pro - Я понимаю, что вы сказали. Но я хочу понять материал, который я задал в вопросе. Я также сделаю разбор SAX в ближайшее время.
Apple Grinder 09 дек. 2012, в 11:01
0

Поиск в Google по запросу "normalize xml" дал некоторые результаты, которые кажутся полезными. Похоже, это похоже на нормализацию в базах данных.
Apple Grinder 09 дек. 2012, в 11:37
0

Вы никогда не поймете это, если будете читать только первую треть каждого предложения. Попробуйте прочитать все предложение, которое вы цитировали. Смысл прост как щучий посох.
user207421 09 дек. 2012, в 11:42
2

@EJP - ммм ... до сих пор неясно, потому что я не знаю xml подробно, и я только прочитал несколько вступительных страниц о нем. Кстати, не поймите меня неправильно, вы сделали именно то, что сделал автор документа - используя сложные слова вместо простого английского (простой, как пика, штат = легко понять). Простые слова сначала и жаргон позже работают лучше для меня.
Apple Grinder 09 дек. 2012, в 12:03
0

@AppleGrinder В моем комментарии нет сложных слов. Упомянутое мной предложение легко понять, если вы прочитаете все это. Доказательства вашей цитаты показывают, что вы этого не сделали. Не вините меня в этом и не обвиняйте авторов в этом тоже.
user207421 09 дек. 2012, в 20:06
5

На момент написания этой статьи упомянутый веб-сайт ссылается на этот пост. Мой мозг просто выбросил ошибку зависимости.
chessofnerd 25 июль 2013, в 21:22

Показать ещё 5 комментариев

Теги:

java

xml

dom

computer-science

3 ответа

4

В простой, нормализация - сокращение избыточности.
Примеры избыточности:
a) пробелы вне тегов root/document (... <document> </document> )

b) белые пробелы в начале тега (<... > ) и конечный тег (</... > )
c) пробелы между атрибутами и их значениями (т.е. пробелы между ключевым именем и = ")
d) объявления избыточного пространства имен
e) разрывы строк/пробелы в текстах атрибутов и тегов
f) комментарии и т.д.

AVA 29 июнь 2016, в 08:55

3

В качестве расширения для ответа @JBNizet для более технических пользователей, как выглядит реализация интерфейса org.w3c.dom.Node в com.sun.org.apache.xerces.internal.dom.ParentNode, дает вам представление о том, как это работает на самом деле.

public void normalize() {
    // No need to normalize if already normalized.
    if (isNormalized()) {
        return;
    }
    if (needsSyncChildren()) {
        synchronizeChildren();
    }
    ChildNode kid;
    for (kid = firstChild; kid != null; kid = kid.nextSibling) {
         kid.normalize();
    }
    isNormalized(true);
}

Он пересекает все узлы рекурсивно и вызывает kid.normalize()
Этот механизм переопределяется в org.apache.xerces.dom.ElementImpl

public void normalize() {
     // No need to normalize if already normalized.
     if (isNormalized()) {
         return;
     }
     if (needsSyncChildren()) {
         synchronizeChildren();
     }
     ChildNode kid, next;
     for (kid = firstChild; kid != null; kid = next) {
         next = kid.nextSibling;

         // If kid is a text node, we need to check for one of two
         // conditions:
         //   1) There is an adjacent text node
         //   2) There is no adjacent text node, but kid is
         //      an empty text node.
         if ( kid.getNodeType() == Node.TEXT_NODE )
         {
             // If an adjacent text node, merge it with kid
             if ( next!=null && next.getNodeType() == Node.TEXT_NODE )
             {
                 ((Text)kid).appendData(next.getNodeValue());
                 removeChild( next );
                 next = kid; // Don't advance; there might be another.
             }
             else
             {
                 // If kid is empty, remove it
                 if ( kid.getNodeValue() == null || kid.getNodeValue().length() == 0 ) {
                     removeChild( kid );
                 }
             }
         }

         // Otherwise it might be an Element, which is handled recursively
         else if (kid.getNodeType() == Node.ELEMENT_NODE) {
             kid.normalize();
         }
     }

     // We must also normalize all of the attributes
     if ( attributes!=null )
     {
         for( int i=0; i<attributes.getLength(); ++i )
         {
             Node attr = attributes.item(i);
             attr.normalize();
         }
     }

    // changed() will have occurred when the removeChild() was done,
    // so does not have to be reissued.

     isNormalized(true);
 }

Надеюсь, это сэкономит вам некоторое время.

Matas Vaitkevicius 18 июнь 2015, в 06:42

Ещё вопросы

Независимо от вашего вопроса, прочтите примечание к примеру: «DOM Parser работает медленно и потребляет много памяти, когда загружает XML-документ, содержащий много данных. Пожалуйста, рассмотрите SAX-парсер как решение для него, SAX быстрее чем DOM и использовать меньше памяти. " ,
@ wulfgar.pro - Я понимаю, что вы сказали. Но я хочу понять материал, который я задал в вопросе. Я также сделаю разбор SAX в ближайшее время.
Поиск в Google по запросу "normalize xml" дал некоторые результаты, которые кажутся полезными. Похоже, это похоже на нормализацию в базах данных.
Вы никогда не поймете это, если будете читать только первую треть каждого предложения. Попробуйте прочитать все предложение, которое вы цитировали. Смысл прост как щучий посох.
@EJP - ммм ... до сих пор неясно, потому что я не знаю xml подробно, и я только прочитал несколько вступительных страниц о нем. Кстати, не поймите меня неправильно, вы сделали именно то, что сделал автор документа - используя сложные слова вместо простого английского (простой, как пика, штат = легко понять). Простые слова сначала и жаргон позже работают лучше для меня.
@AppleGrinder В моем комментарии нет сложных слов. Упомянутое мной предложение легко понять, если вы прочитаете все это. Доказательства вашей цитаты показывают, что вы этого не сделали. Не вините меня в этом и не обвиняйте авторов в этом тоже.
На момент написания этой статьи упомянутый веб-сайт ссылается на этот пост. Мой мозг просто выбросил ошибку зависимости.

JB Nizet · Accepted Answer · 2012-12-09T14-41-00.000Z

292

Лучший ответ

Остальная часть предложения:

где только структура (например, элементы, комментарии, инструкции по обработке, разделы CDATA и ссылки на сущности) отделяет текстовые узлы, то есть нет ни смежных текстовых узлов, ни пустых текстовых узлов.

В основном это означает, что следующий элемент XML

<foo>hello 
wor
ld</foo>

может быть представлен таким образом в денормализованном node:

Element foo
    Text node: ""
    Text node: "Hello "
    Text node: "wor"
    Text node: "ld"

При нормализации, node будет выглядеть следующим образом:

Element foo
    Text node: "Hello world"

И то же самое касается атрибутов: <foo bar="Hello world"/>, комментарии и т.д.

JB Nizet 09 дек. 2012, в 14:41

2

Ага! теперь намного понятнее. Я не знаю о структурах данных (???) и узлах. Но я быстро взглянул на древовидную структуру и, полагаю, компьютер может хранить «привет мир» так, как вы предлагали. Это правильно ?
Apple Grinder 09 дек. 2012, в 13:12
8

Вам нужно изучить основы о DOM. Да, DOM представляет XML-документ в виде дерева. И в дереве у вас есть корневой узел, имеющий дочерний узел, каждый дочерний узел также имеет дочерние узлы и т. Д. Вот что такое дерево. Элемент является своего рода узлом, а TextNode - другим видом узла.
JB Nizet 09 дек. 2012, в 13:20
7

Спасибо JB Низет. Не могу сказать, насколько я рад, когда получил какое-то направление.
Apple Grinder 09 дек. 2012, в 13:26
0

Я думаю, что ваш пример не должен содержать новых строк: <foo>Hello world</foo>
user2043553 27 июнь 2014, в 08:10
2

@ user2043553, новые строки на самом деле имеют смысл. Без перевода строки вы не увидите разницу. Если вы не должны были понимать: нормализация «исправляет» XML, поэтому один тег интерпретируется как один элемент. Если вы этого не сделали, может случиться так, что эти самые новые строки интерпретируются как разделители между несколькими элементами одного типа (соответственно в одном и том же теге).
Stacky 23 окт. 2014, в 15:59
0

@Stacky, в примере есть две новые строки, они не отображаются после нормализации в примере, что может заставить людей поверить, что их там больше нет. Результирующий текстовый узел с отображенными символами новой строки будет выглядеть так: «Hello \ nwor \ nld» Нормализация не удаляет символы новой строки.
Christian 22 март 2015, в 19:09
0

Почему есть Text node: "" в денормализованном узле?
Malwinder Singh 04 июнь 2015, в 14:38
0

@ MS там не обязательно. Анализатор может свободно анализировать текст в любом количестве текстовых узлов.
JB Nizet 04 июнь 2015, в 14:41
0

@JBNizet: есть ли способ, чтобы убедиться, что дерево, построенное в обоих случаях, должно быть одинаковым? Пожалуйста, проверьте stackoverflow.com/questions/30940162/…
user3930361 19 июнь 2015, в 16:09

Показать ещё 7 комментариев