Проблемы со строкой декодирования Python

Question

Проблемы со строкой декодирования Python

1

Я получаю следующую строку из базы данных:

'23:45 \xe2\x80\x93 23:59'

и выход должен выглядеть так:

'23:45 - 23:59'

Как я могу декодировать это? Я пробовал декодировать utf-8, но не повезло

>>> x.decode("utf-8")
u'23:45 \u2013 23:59'

спасибо

daydreamer 03 нояб. 2011, в 18:10

Источник

Теги:

python

decoding

3 ответа

1

a="NOV–DEC 2011" (en-dash)
b=unidecode(a)

#output --> NOV-DEC 2011 (with hyphen)

Сначала вам нужно установить unidecode и импортировать его. Я пробовал, и он работает хорошо. Надеюсь, поможет!

rassel pratomo 04 фев. 2014, в 09:48

1

Представление UTF-8 "en dash" http://www.fileformat.info/info/unicode/char/2013/index.htm - это hex 0xE2 0x80 0x93 (e28093) или u "\ u2013". Похоже, вы хотите заменить символ en-dash на ascii hyphen/minus (0x2d), чтобы сохранить его в переменной. Это нормально, но переменная не будет содержать тот же символ, который хранится в базе данных, не более, чем если вы заменили Ü (http://www.fileformat.info/info/unicode/char/dc/index.htm) с ascii U или заменить нуль (0x30) на капитал O (0x4f).

Dave 03 нояб. 2011, в 16:11

0

См. Также stackoverflow.com/questions/816285/… , последний ответ на который гласит: «Unidecode выглядит как законченное решение. Он преобразует причудливые кавычки в кавычки ascii, латинские символы с ударением в безударные и даже пытается транслитерировать для обработки символов, которые не имеет эквивалентов ASCII. "
Dave 03 нояб. 2011, в 18:27

Ещё вопросы

См. Также stackoverflow.com/questions/816285/… , последний ответ на который гласит: «Unidecode выглядит как законченное решение. Он преобразует причудливые кавычки в кавычки ascii, латинские символы с ударением в безударные и даже пытается транслитерировать для обработки символов, которые не имеет эквивалентов ASCII. "

ThiefMaster · Accepted Answer · 2011-11-03T14-51-00.000Z

Это совершенно правильно. Интерактивный интерпретатор python отображает строку repr() строки. Если вы хотите увидеть его как правильную строку, print ее:

>>> print '23:45 \xe2\x80\x93 23:59'
23:45 – 23:59

Привет, ThiefMaster, но как мне получить «-» вместо \ u2013? это единственный вариант, чтобы пользователь повторно пакет?
Точно так же: с print u'23:45 \u2013 23:59' вы также получите вывод 23:45 – 23:59 .
Я хочу поместить это в переменную, и когда я делаю x = x.decode ("utf-8"), я вижу в выводе "quar_hour": '23: 45 \ xe2 \ x80 \ x93 23:59 'и не' четверть часа ': '23: 45 - 23:59'
когда вы печатаете х, он будет отображаться правильно