Solr ОШИБКА # 500 ДА

1

Кто-нибудь может сказать мне, что может вызвать эту проблему? Я попытался опубликовать с post.jar файл xml; я подпал под журналом сервера

118208 [qtp760665089-18] ERROR org.apache.solr.servlet.SolrDispatchFilter  û nul
l:java.lang.RuntimeException: [was class java.io.CharConversionException] Invali
d UTF-8 middle byte 0x6c (at char #139212, byte #136949)
        at com.ctc.wstx.util.ExceptionUtil.throwRuntimeException(ExceptionUtil.j
ava:18)at com.ctc.wstx.sr.StreamScanner.throwLazyError(StreamScanner.java:731)
        at com.ctc.wstx.sr.BasicStreamReader.safeFinishToken(BasicStreamReader.j
ava:3657)at com.ctc.wstx.sr.BasicStreamReader.getText(BasicStreamReader.java:809)
at org.apache.solr.handler.loader.XMLLoader.readDoc(XMLLoader.java:397)
at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java
:246)

[...]

Caused by: java.io.CharConversionException: Invalid UTF-8 middle byte 0x6c (at c
har #139212, byte #136949)
        at com.ctc.wstx.io.UTF8Reader.reportInvalidOther(UTF8Reader.java:313)
        at com.ctc.wstx.io.UTF8Reader.read(UTF8Reader.java:204)
        at com.ctc.wstx.io.ReaderSource.readInto(ReaderSource.java:84)
        at com.ctc.wstx.io.BranchingReaderSource.readInto(BranchingReaderSource.
java:57)...
Теги:
solr
jetty
ioexception

1 ответ

1
Лучший ответ

В вашем документе есть 1 или более незаконных (например, не UTF-8) символов:

http://www.coderanch.com/t/433718/XML/Invalid-UTF-middle-byte-error

Я бы внимательно рассмотрел документ и рассмотрел возможность удаления/фильтрации только для UTF-8

Этот предыдущий ответ stackoverflow имеет пару фрагментов кода в Perl и Java для фильтрации символов, отличных от UTF-8:

Как удалить плохие символы, которые не подходят для кодировки utf8 в MySQL?

  • 0
    Я понял, что это был незаконный символ не-UTF8, но я не знаю, как я могу решить .. Вы можете мне помочь? Как я могу фильтровать только для UTF8?
  • 0
    Я добавлю ссылку на пару решений для их фильтрации.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню