Я использую модуль markdown из web2py для обработки помеченного текста. Проблема в том, что люди подают материал с помощью смартфонов, специальных символов и т.д., И мне нужно заменить их их эквивалентами.
У меня есть текст вроде этого: "\n\r\n Полковники немного побледнели. \xe2\x80\x9cBut, то\xe2\x80" извините мою смелость, сэр \xe2\x80", теперь мы отправимся в Увар '
Как я могу гарантировать, что вызов unicode (txt, 'utf- 8'), как он делает на внутреннем тексте внутри уценки, не будет вызывать ошибку? Необычные специальные цитаты, в которые вставляются программы для обработки текстовых сообщений, являются обычной причиной, но, похоже, много символов, которые являются проблемой.
\xe2\x80\x9c
U+ 201C LEFT DOUBLE QUOTATION MARK ( "умная цитата" ) при декодировании как UTF- 8. Два вхождения \xe2\x80"
недействительны UTF- 8 последовательностей, а наличие там "
( "тупой" цитаты) является подозрительным. У вас, похоже, проблема с перекосом или проблема с кодировкой, или и то, и другое. Нам нужно разобраться с этим, прежде чем мы перейдем к задаче замены, например. умные цитаты из немых цитат.
Как именно "люди подают материал"? Какие преобразования прошло, прежде чем уценка будет unicode(txt, 'utf-8')
?