Проблема кодирования HTML, решение с использованием регулярных выражений?

0

Я знаю, что в этой теме было много дискуссий, один из них: проблемы с кодировкой HTML - символ "Â" появляется вместо "& nbsp;";

Я сделал это, но я хочу решить это, не добавляя тег "meta charset" в свой html, на самом деле я удаляю все теги из заголовка (у Nokogiri есть некоторые проблемы с этим). Есть ли какое-либо возможное регулярное выражение, которое я могу использовать для устранения этих Â из моего вывода? Я бросаю свой вывод на "csv", и я могу видеть их в файле csv.

Благодарю!

Теги:
encoding
nokogiri

1 ответ

3
Лучший ответ

Если вы намерены исправить проблему, согласно которой кодированный документ UTF-8 интерпретируется как ISO-8859-1, вам просто нужно написать регулярное выражение, которое отображает кодированные символы UTF-8 символов Unicode (всего около 100 000) на правильные символы. Очевидно, что это плохая идея с самого начала.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню