Модуль Python Markdown, подавляющий конвертацию в юникод, utf-8

1

Я использую модуль markdown из web2py для обработки помеченного текста. Проблема в том, что люди подают материал с помощью смартфонов, специальных символов и т.д., И мне нужно заменить их их эквивалентами.

У меня есть текст вроде этого: "\n\r\n Полковники немного побледнели. \xe2\x80\x9cBut, то\xe2\x80" извините мою смелость, сэр \xe2\x80", теперь мы отправимся в Увар '

Как я могу гарантировать, что вызов unicode (txt, 'utf- 8'), как он делает на внутреннем тексте внутри уценки, не будет вызывать ошибку? Необычные специальные цитаты, в которые вставляются программы для обработки текстовых сообщений, являются обычной причиной, но, похоже, много символов, которые являются проблемой.

Теги:
unicode
utf-8
markdown

1 ответ

1

\xe2\x80\x9c U+ 201C LEFT DOUBLE QUOTATION MARK ( "умная цитата" ) при декодировании как UTF- 8. Два вхождения \xe2\x80" недействительны UTF- 8 последовательностей, а наличие там " ( "тупой" цитаты) является подозрительным. У вас, похоже, проблема с перекосом или проблема с кодировкой, или и то, и другое. Нам нужно разобраться с этим, прежде чем мы перейдем к задаче замены, например. умные цитаты из немых цитат.

Как именно "люди подают материал"? Какие преобразования прошло, прежде чем уценка будет unicode(txt, 'utf-8')?

Ещё вопросы

Сообщество Overcoder
Наверх
Меню