Хотите вызвать исключение, когда встречаете специальные символы UTF-8 в файле XML

Question

Хотите вызвать исключение, когда встречаете специальные символы UTF-8 в файле XML

1

Я разбираю XML файл с кодировкой UTF-8.

<?xml version="1.0" encoding="UTF-8"?>

Теперь наше деловое приложение имеет набор компонентов, которые разрабатываются разными командами и не используют одни и те же библиотеки для синтаксического анализа XML. Мой компонент использует JAXB, а другой компонент использует SAX и т.д. Теперь, когда в XML файле есть специальные символы, такие как "ä" или "ë" или "é" (символы с умлаутами), JAXB разбирает его правильно, но другие компоненты (суб-приложения) не могут правильно разобрать их и вызывать исключение.

Из-за необходимости ведения бизнеса я не могу изменить программирование для других компонентов, но я должен поместить ограничение/проверку в мое приложение, чтобы убедиться, что файл XML (data-load) не содержит таких символов.

Лучший способ убедиться, что файл не содержит вышеупомянутых (или похожих) символов, и я могу бросить исключение (или дать ошибку) прямо перед тем, как начать синтаксический анализ файла XML с помощью JAXB.

deej 28 июль 2014, в 13:57

Источник

0

звучит так же просто, как и ваш вопрос - проверьте файл, если он содержит недопустимые символы ... если вы не можете полагаться на информацию заголовка, тогда вам нужно кодировать файл самостоятельно и посмотреть, не падает ли он ... вы можете прочитать файл используя определенную кодировку, см. stackoverflow.com/questions/3043710/…
Martin Frank 28 июль 2014, в 11:26
1

Поведение, которое вы описываете, на самом деле невозможно, если только ваш XML не заявляет, что encoding="UTF-8" а на самом деле это не так, или другой компонент, который вы предоставляете, игнорирует объявление XML и пытается проанализировать его как унаследованную кодировку ( очень маловероятно). Я бы поспорил на первую ситуацию: вы создаете XML с неправильной кодировкой. Исправьте декларацию, чтобы она соответствовала кодировке вашего файла, или исправьте кодировку вашего файла как UTF-8. Чтобы понять, в чем дело , нам понадобится шестнадцатеричный фрагмент из затронутого файла.
Tomalak 28 июль 2014, в 11:27
0

Смотрите другой связанный пост здесь stackoverflow.com/questions/499010/… .
Keshava 28 июль 2014, в 11:28
0

Это возможно, потому что эти файлы поступают от разных клиентов, и они генерируют XML-файлы в том формате, который мы ожидаем, но могут просто помещать XML-заголовки без учета того, какие данные они вводят. Мы не уверены, какие инструменты и технологии могут использовать эти клиенты. ,
deej 28 июль 2014, в 11:31
0

@MartinFrank Я не уверен, что все символы могут создавать проблемы, поэтому лучше убедиться, что в файле нет специальных символов. Я просто думаю вслух, есть ли способ проверить файл по всем не-ASCII символам?
deej 28 июль 2014, в 11:33
0

@Tomalak Томалак Я согласен с «невозможным», но я не могу следовать рассуждениям, которые следуют. OP говорит, что он может анализировать, используя JAXB, поэтому файл должен быть в порядке и UTF-8. И, используя JAXB, довольно сложно создать XML-файл с заголовком кодировки = "UTF-8" и ошибочно закодированным.
laune 28 июль 2014, в 11:38
0

«Мы не уверены, какие инструменты и технологии могут использовать эти клиенты». Это очень вежливо и дипломатично.
laune 28 июль 2014, в 11:46
0

@laune наши клиенты являются поставщиками, и они не используют предоставленные нами инструменты для создания этого XML-файла, который мы используем в качестве источника данных для нашего приложения. Возможно, они используют свой собственный инструмент для предоставления нам файла в формате (тэги XML и кодировка), но они могут потерпеть неудачу по той или иной причине, если они делают это неправильно.
deej 28 июль 2014, в 11:50
0

@laune Я подумал, что JAXB может иметь какое-то обнаружение кодировки документов, которое игнорирует декларацию XML и позволяет анализировать документы с неверной подсказкой кодировки. Как я уже сказал, пока мы не видим шестнадцатеричный дамп уязвимого файла, невозможно определить, все ли у него в порядке или нет.
Tomalak 28 июль 2014, в 12:29
0

@Tomalek Только заголовок XML. Вы можете проанализировать любой ISO 8859-x, используя любой другой ISO 8859-y, и он будет успешным и приведет к бреду. Даже с шестнадцатеричным дампом не известно, какая это кодировка. Например: c3 a4 c3 b6 c3 bc 0a Вы можете декодировать это как «Ã¤Ã¶Ã¼» или aöü , или несколько других возможностей. Что это на самом деле?
laune 28 июль 2014, в 12:43

Показать ещё 8 комментариев

Теги:

java

xml

character-encoding

jaxb

utf-8

3 ответа

Ещё вопросы

звучит так же просто, как и ваш вопрос - проверьте файл, если он содержит недопустимые символы ... если вы не можете полагаться на информацию заголовка, тогда вам нужно кодировать файл самостоятельно и посмотреть, не падает ли он ... вы можете прочитать файл используя определенную кодировку, см. stackoverflow.com/questions/3043710/…
Поведение, которое вы описываете, на самом деле невозможно, если только ваш XML не заявляет, что encoding="UTF-8" а на самом деле это не так, или другой компонент, который вы предоставляете, игнорирует объявление XML и пытается проанализировать его как унаследованную кодировку ( очень маловероятно). Я бы поспорил на первую ситуацию: вы создаете XML с неправильной кодировкой. Исправьте декларацию, чтобы она соответствовала кодировке вашего файла, или исправьте кодировку вашего файла как UTF-8. Чтобы понять, в чем дело , нам понадобится шестнадцатеричный фрагмент из затронутого файла.
Смотрите другой связанный пост здесь stackoverflow.com/questions/499010/… .
Это возможно, потому что эти файлы поступают от разных клиентов, и они генерируют XML-файлы в том формате, который мы ожидаем, но могут просто помещать XML-заголовки без учета того, какие данные они вводят. Мы не уверены, какие инструменты и технологии могут использовать эти клиенты. ,
@MartinFrank Я не уверен, что все символы могут создавать проблемы, поэтому лучше убедиться, что в файле нет специальных символов. Я просто думаю вслух, есть ли способ проверить файл по всем не-ASCII символам?
@Tomalak Томалак Я согласен с «невозможным», но я не могу следовать рассуждениям, которые следуют. OP говорит, что он может анализировать, используя JAXB, поэтому файл должен быть в порядке и UTF-8. И, используя JAXB, довольно сложно создать XML-файл с заголовком кодировки = "UTF-8" и ошибочно закодированным.
«Мы не уверены, какие инструменты и технологии могут использовать эти клиенты». Это очень вежливо и дипломатично.
@laune наши клиенты являются поставщиками, и они не используют предоставленные нами инструменты для создания этого XML-файла, который мы используем в качестве источника данных для нашего приложения. Возможно, они используют свой собственный инструмент для предоставления нам файла в формате (тэги XML и кодировка), но они могут потерпеть неудачу по той или иной причине, если они делают это неправильно.
@laune Я подумал, что JAXB может иметь какое-то обнаружение кодировки документов, которое игнорирует декларацию XML и позволяет анализировать документы с неверной подсказкой кодировки. Как я уже сказал, пока мы не видим шестнадцатеричный дамп уязвимого файла, невозможно определить, все ли у него в порядке или нет.
@Tomalek Только заголовок XML. Вы можете проанализировать любой ISO 8859-x, используя любой другой ISO 8859-y, и он будет успешным и приведет к бреду. Даже с шестнадцатеричным дампом не известно, какая это кодировка. Например: c3 a4 c3 b6 c3 bc 0a Вы можете декодировать это как «Ã¤Ã¶Ã¼» или aöü , или несколько других возможностей. Что это на самом деле?

Blaise Doughan · Answer 1 · 2014-07-28T10-15-00.000Z

Вы должны иметь возможность обернуть XML-вход в java.io.Reader в котором вы указываете фактическое кодирование, а затем обрабатываете это нормально. Java будет использовать кодировку, указанную в XML для InputStream, но когда используется Reader будет использоваться кодировка Reader.

Unmarshaller unmarshaller = jc.createUnmarshaller();
InputStream inputStream = new FileInputStream("input.xml");
Reader reader = new InputStreamReader(inputStream, "UTF-16");
try {
    Address address = (Address) unmarshaller.unmarshal(reader);
} finally  {
    reader.close();
}

Martin Frank · Answer 2 · 2014-07-28T10-05-00.000Z

да, мой ответ был бы таким же, как упоминает laune...

static boolean readInput() {
    boolean isValid = true;
    StringBuffer buffer = new StringBuffer();
    try {
        FileInputStream fis = new FileInputStream("test.txt");
        InputStreamReader isr = new InputStreamReader(fis);
        Reader in = new BufferedReader(isr);
        int ch;
        while ((ch = in.read()) > -1) {
            buffer.append((char)ch);
            System.out.println("ch="+ch);
            //TODO - check range for each character 
            //according the wikipedia table http://en.wikipedia.org/wiki/UTF-8
            //if it a valid utf-8 character
            //if it not in range, the isValid=false;
            //and you can break here...
        }
        in.close();
        return isValid;
    } 
    catch (IOException e) {
        e.printStackTrace();
        return false;
    }
}

Я просто добавляю фрагмент кода...

Я бы использовал grep "[^\t\r\f -~]" $file && rm $file ;-)

laune · Answer 3 · 2014-07-28T09-56-00.000Z

Если ваш клиент отправляет вам XML файл с заголовком, где кодировка не соответствует содержимому файла, вы можете также отказаться от попытки сделать что-либо значимое в этом файле. - Действительно ли они отправляют данные, если заголовок не соответствует фактической кодировке? Это не XML, то. И вы должны их больше обвинить ;-)

Просто прочитайте файл как FileInputStream, байт за байтом. Если он содержит отрицательное значение байта, откажитесь его обрабатывать.

Вы можете сохранить настройки кодирования, такие как UTF-8 или ISO 8859-1, потому что все они имеют US-ASCII как правильное подмножество.