Я знаю, что в этой теме было много дискуссий, один из них: проблемы с кодировкой HTML - символ "Â" появляется вместо "& nbsp;";
Я сделал это, но я хочу решить это, не добавляя тег "meta charset" в свой html, на самом деле я удаляю все теги из заголовка (у Nokogiri есть некоторые проблемы с этим). Есть ли какое-либо возможное регулярное выражение, которое я могу использовать для устранения этих Â из моего вывода? Я бросаю свой вывод на "csv", и я могу видеть их в файле csv.
Благодарю!
Если вы намерены исправить проблему, согласно которой кодированный документ UTF-8 интерпретируется как ISO-8859-1, вам просто нужно написать регулярное выражение, которое отображает кодированные символы UTF-8 символов Unicode (всего около 100 000) на правильные символы. Очевидно, что это плохая идея с самого начала.