Я извлекаю информацию из файла HTML, анализируя ее с помощью SAX в Java. Программа синтаксического анализа была предоставлена мне, она уже использовала SAX, поэтому я хотел бы сохранить ее таким образом. Я делаю следующее:
Проблема: с этой новой строкой для знака euro, библиотека разбора не будет работать. Я получаю сообщение: "объект acirc был указан, но не был объявлен"
Я просто хочу, чтобы мой знак евро не был проблемой. Как мне сортировать свою вещь?
Всем спасибо,
Проблема, с которой вы сталкиваетесь, является одной из кодировок.
Некоторый инструмент, где-то в вашем конвейере, сбрасывает кодировку, а затем эта ошибка переносится вперед, создавая â
в вашем выходе.
По внешнему виду на веб-сайте используется UTF-8 (как и должно быть), но кодировка либо неправильно распознана, либо объявление игнорируется.
Является ли это одним из инструментов вашей инструментальной цепочки, который вызывает эту проблему, или если он неправильно использует инструменты, не совсем ясен.
Используйте номер HTML вместо фактического символа евро €