Jsoup разбирает некоторые символы по-разному

Question

Jsoup разбирает некоторые символы по-разному

0

Я попытался разобрать этот html файл с помощью Jsoup:

<html><body>Maître Corbeau, sur un arbre perché</body></html>

Я использовал эту строку:

Document document = Jsoup.parse(input, "UTF-8");

Когда я пытаюсь распечатать документ:

System.out.println(document.toString());

Оба выхода:

<html>
<head></head>
<body>
Ma&icirc;tre Corbeau, sur un arbre perch&eacute;
</body>
</html>

Почему некоторые персонажи меняются?

froi 03 март 2014, в 13:05

Источник

0

Потому что ваш входной HTML не закодирован должным образом.
Smutje 03 март 2014, в 11:10
2

Пожалуйста, ознакомьтесь с документацией метода readFileToString. Если вы не укажете кодировку, это будет платформой по умолчанию. Может быть, это твоя проблема.
Jakub H 03 март 2014, в 11:12
0

@Smutje Я добавил кодировку = "UTF-8" в HTML, но результат все тот же.
froi 03 март 2014, в 11:26
0

@Jakub Hr Я попытался передать файл напрямую, но он все равно выдает то же самое. Так что я думаю, что это не метод readFileToString.
froi 03 март 2014, в 11:27
0

Вы определили кодировку, когда пытались выполнить синтаксический анализ непосредственно из файла? Кстати, это 1 минута, чтобы проверить, работает ли ваш readFileToString с параметром кодирования, поэтому стоит попробовать.
Jakub H 03 март 2014, в 11:34
0

@JakubHr Я проверил, что readFileToString работает нормально, так или иначе, теперь я просто передаю файл напрямую в метод jsoup.parse. все еще выводит то же самое. Символы кажутся закодированными иностранными символами HTML.
froi 03 март 2014, в 11:48
0

Что именно не так в этом выводе?
Antoniossss 03 март 2014, в 11:58

Показать ещё 5 комментариев

Теги:

java

html

jsoup

1 ответ

Ещё вопросы

Потому что ваш входной HTML не закодирован должным образом.
Пожалуйста, ознакомьтесь с документацией метода readFileToString. Если вы не укажете кодировку, это будет платформой по умолчанию. Может быть, это твоя проблема.
@Smutje Я добавил кодировку = "UTF-8" в HTML, но результат все тот же.
@Jakub Hr Я попытался передать файл напрямую, но он все равно выдает то же самое. Так что я думаю, что это не метод readFileToString.
Вы определили кодировку, когда пытались выполнить синтаксический анализ непосредственно из файла? Кстати, это 1 минута, чтобы проверить, работает ли ваш readFileToString с параметром кодирования, поэтому стоит попробовать.
@JakubHr Я проверил, что readFileToString работает нормально, так или иначе, теперь я просто передаю файл напрямую в метод jsoup.parse. все еще выводит то же самое. Символы кажутся закодированными иностранными символами HTML.

Antoniossss · Accepted Answer · 2014-03-03T11-00-00.000Z

Извините, но почему именно это неправильный результат?

Ma&icirc;tre Corbeau, sur un arbre perch&eacute;

дает тебе

Maître Corbeau, sur un arbre perché

в браузере whitch правильно, не так ли? если вы хотите получить текст с декодированным контентом, вам нужно использовать document.text() insteed document.toString() поскольку второй даст вам вывод HTML. Но помните, что вы потеряете всю структуру тегов из тела HTML. Если у вас действительно есть HTML-код с декодированными объектами HTML, вам нужно будет использовать StringEscapeUtils.unescapeHtml4(input) от Apache Commons Lang

StringEscapeUtils.unescapeHtml4 был именно тем, что мне было нужно